数据集描述

1总时长超过 10,013 小时，其中强标签数据 3,714 小时（置信度 0.9-1.0），弱标签数据 6,299 小时（置信度 0.6-0.9）

2数据来源覆盖 9 个领域：短视频（52.83%）、娱乐（20.08%）、直播（18.35%）、纪录片（5.36%）、有声书（1.14%）、访谈（0.89%）、新闻（0.83%）、朗读（0.48%）、戏剧（0.05%）

3标注维度丰富，包含转录文本、领域标签、说话人性别、年龄、情感等副语言学信息

4采用 Chuan-Pipeline 处理框架构建，包含 VAD 分段、单说话人聚类、LLM-GER 转录纠错、多模态标点预测等环节

5音频质量分布集中在 WV-MOS 2.5-4.0 区间，兼顾干净录音和真实场景声学条件

6目前最大的四川方言开源语音数据集

语种明细

语言名称	时长
四川话	10013 hours

发布单位

西北工业大学北京希尔贝壳科技有限公司中国电信人工智能研究院南京大学WeNet 开源社区

许可与商用

WenetSpeech-Chuan