Omnilingual ASR Corpus
Meta 发布的 3350 小时多语种 ASR 语料库,覆盖 348 种低资源语言,CC BY 4.0 许可
数据时长
3350 hours
语种
348 种
采样率
16 kHz
发布时间
2025-11
数据集描述
1包含 3,350 小时转录语音数据,覆盖 348 种低资源语言
2平均每种语言约 10 小时转录语音,通过补偿式社区合作伙伴关系采集
3以自发性语音录音为主,附带转录文本
4作为 Omnilingual ASR 项目的一部分发布,该项目总训练数据覆盖 1690 种语言共 120,710 小时
5首个覆盖 1600+ 种语言的 ASR 系统的核心数据贡献
6CC BY 4.0 许可
语种明细
| 语言名称 | 时长 |
|---|---|
| 多语种(348 种低资源语言) | 3350 hours |
发布单位