AISHELL-1
开源普通话语音识别数据集,包含 178 小时由 400 位说话人录制的高质量朗读语音
数据时长
178 hours
语种
1 种
采样率
16 kHz
发布时间
2017-09
数据集描述
1来自中国不同口音区域的 400 位说话人参与录制
2训练集 120,098 条(340 人),验证集 14,326 条(40 人),测试集 7,176 条(20 人)
3在安静室内环境下使用高保真麦克风录制,降采样至 16 kHz
4人工转写准确率 95% 以上
5Apache 2.0 开源许可
语种明细
| 语言名称 | 时长 |
|---|---|
| 普通话 | 178 hours |
发布单位