VoxPopuli
来自欧洲议会的大规模多语种语音语料库,400K 小时无标注语音覆盖 23 种语言
数据时长
400000 hours
语种
23 种
采样率
16 kHz
发布时间
2021-01
数据集描述
1从欧洲议会公开录音中收集
2400K 小时无标注语音数据覆盖 23 种语言,每种语言 9,000-18,000 小时
31.8K 小时转写语音覆盖 15 种语言
417.3K 小时口译对齐音频覆盖 15 种目标语言
5CC0 许可
6是目前最大的无监督表征学习和半监督学习开放数据集
语种明细
| 语言名称 | 时长 |
|---|---|
| 英语 | None |
| 德语 | None |
| 法语 | None |
| 西班牙语 | None |
| 波兰语 | None |
发布单位