WenetSpeech-Chuan
首个万小时级别四川话开源语音数据集,包含丰富标注的多领域四川方言语音数据
数据时长
10013 hours
语种
1 种
采样率
None
发布时间
2025-09
数据集描述
1总时长超过 10,013 小时,其中强标签数据 3,714 小时(置信度 0.9-1.0),弱标签数据 6,299 小时(置信度 0.6-0.9)
2数据来源覆盖 9 个领域:短视频(52.83%)、娱乐(20.08%)、直播(18.35%)、纪录片(5.36%)、有声书(1.14%)、访谈(0.89%)、新闻(0.83%)、朗读(0.48%)、戏剧(0.05%)
3标注维度丰富,包含转录文本、领域标签、说话人性别、年龄、情感等副语言学信息
4采用 Chuan-Pipeline 处理框架构建,包含 VAD 分段、单说话人聚类、LLM-GER 转录纠错、多模态标点预测等环节
5音频质量分布集中在 WV-MOS 2.5-4.0 区间,兼顾干净录音和真实场景声学条件
6目前最大的四川方言开源语音数据集
语种明细
| 语言名称 | 时长 |
|---|---|
| 四川话 | 10013 hours |
发布单位