WenetSpeech-Wu
首个大规模多维标注吴语开源语音数据集,涵盖约 8000 小时语音和 8 种吴语子方言
数据时长
8000 hours
语种
1 种
采样率
16 kHz
发布时间
2026-01
数据集描述
1包含约 8000 小时吴语语音数据,386 万条语音片段,平均时长 7.45 秒
2覆盖 8 种吴语子方言:上海话、苏州话、绍兴话、宁波话、杭州话、嘉兴话、台州话、温州话
3涵盖 11 个领域:新闻、文化、Vlog、娱乐、教育、播客、评论、访谈、广播剧、音乐节目、有声书
4多维标注:转写文本(含置信度)、吴语到普通话翻译、领域和子方言标签、说话人属性(性别、年龄)、情感标注、音频质量指标
5采用 DNSMOS 和信噪比(SNR)进行质量过滤,并通过多 ASR 系统 ROVER 融合生成高质量转写
6针对不同任务设计分级数据质量策略,支持 ASR、TTS、语音翻译、情感识别、instruct TTS 等多种任务
7数据来源为 in-the-wild 吴语语音,约 37% 的录音无法确定具体子方言
语种明细
| 语言名称 | 时长 |
|---|---|
| 吴语 | 8000 hours |
发布单位