WenetSpeech
超过 10000 小时的多领域开源普通话语音识别数据集,为当前最大规模中文开源语音语料库
数据时长
22400 hours
语种
1 种
采样率
16 kHz
发布时间
2021-10
数据集描述
1从 YouTube 和 Podcast 收集,覆盖多个领域和说话风格
2高标注数据 10,000+ 小时(置信度 >= 0.95),弱标注数据 2,400+ 小时,无标注数据约 10,000 小时,总计 22,400+ 小时
3使用 OCR 和 ASR 技术进行自动标注,并通过端到端标签错误检测方法进行质量过滤
4提供 S、M、L 三种训练子集,适配不同数据规模的 ASR 系统构建
5高标注数据按领域分为 10 组
语种明细
| 语言名称 | 时长 |
|---|---|
| 普通话 | 22400 hours |
发布单位