WenetSpeech-Yue
首个大规模开源粤语语音语料库,覆盖 21800 小时、10 个领域,支持 ASR 和 TTS 的多维度标注
数据时长
21800 hours
语种
1 种
采样率
16 kHz
发布时间
2025-09
数据集描述
1总时长 21800 小时,包含短和长音频片段,平均片段时长 11.40 秒
2覆盖 10 个领域:讲古(Storytelling)、娱乐、戏剧、文化、Vlog、评论、教育、播客、新闻及其他
3多维度标注包括:ASR 转录文本、文本置信度、说话人身份、年龄、性别、语音质量评分(SNR、DNSMOS)、字级时间戳
4采用多系统 ASR 融合投票(ROVER)和 LLM 校正生成高质量转录文本
5基于置信度分为三个子集:强标签(>0.9,6771.43 小时)、中等标签(0.8-0.9,10615.02 小时)、弱标签(0.6-0.8,4488.13 小时)
6筛选 DNSMOS>2.5 且 SNR>25dB 后可获得 12000 小时高质量 TTS 子集
7说话人以中年男性为主(50.6%),语料来源为 in-the-wild 自发语音数据
语种明细
| 语言名称 | 时长 |
|---|---|
| 粤语 | 21800 hours |
发布单位