数据集描述

1包含约 8000 小时吴语语音数据，386 万条语音片段，平均时长 7.45 秒

2覆盖 8 种吴语子方言：上海话、苏州话、绍兴话、宁波话、杭州话、嘉兴话、台州话、温州话

3涵盖 11 个领域：新闻、文化、Vlog、娱乐、教育、播客、评论、访谈、广播剧、音乐节目、有声书

4多维标注：转写文本（含置信度）、吴语到普通话翻译、领域和子方言标签、说话人属性（性别、年龄）、情感标注、音频质量指标

5采用 DNSMOS 和信噪比（SNR）进行质量过滤，并通过多 ASR 系统 ROVER 融合生成高质量转写

6针对不同任务设计分级数据质量策略，支持 ASR、TTS、语音翻译、情感识别、instruct TTS 等多种任务

7数据来源为 in-the-wild 吴语语音，约 37% 的录音无法确定具体子方言

语种明细

语言名称	时长
吴语	8000 hours

发布单位

西北工业大学北京希尔贝壳科技有限公司WeNet 开源社区Moonstep AI西交利物浦大学包玉刚实验学校

WenetSpeech-Wu