Common Voice
Mozilla 发起的众包多语种语音数据集,覆盖 250+ 种语言、超过 33,000 小时语音,CC0 公共领域许可
数据时长
33150 hours
语种
250 种
采样率
48 kHz
发布时间
2019-02
数据集描述
1Mozilla 发起的众包项目,志愿者通过麦克风录制样本句子并审核其他用户的录音
2截至 2025 年 12 月,总计超过 33,150 小时语音数据,其中 22,108 小时经社区验证
3覆盖超过 250 种语言,其中 8 种语言超过 1,000 小时
4CC0 公共领域许可
5持续更新,定期发布新版本
语种明细
| 语言名称 | 时长 |
|---|---|
| 英语 | None |
| 加泰罗尼亚语 | None |
| 卢旺达语 | None |
| 白俄罗斯语 | None |
| 世界语 | None |
发布单位