THCHS-30
清华大学发布的 30 小时免费中文语音数据集,中文语音识别研究的经典入门数据集
数据时长
30 hours
语种
1 种
采样率
16 kHz
发布时间
2015-12
数据集描述
150 位说话人在安静环境下录制的无口音普通话语音
2训练集 10,000 条语音(30 人),验证集约 900 条,测试集 2,495 条(10 人)
3提供语言模型、词典和基于 Kaldi 的基线系统
4完全免费供学术使用
52000-2001 年录制,2015 年公开发布
语种明细
| 语言名称 | 时长 |
|---|---|
| 普通话 | 30 hours |
发布单位