数据集描述

1从 YouTube 和 Podcast 收集，覆盖多个领域和说话风格

2高标注数据 10,000+ 小时（置信度 >= 0.95），弱标注数据 2,400+ 小时，无标注数据约 10,000 小时，总计 22,400+ 小时

3使用 OCR 和 ASR 技术进行自动标注，并通过端到端标签错误检测方法进行质量过滤

4提供 S、M、L 三种训练子集，适配不同数据规模的 ASR 系统构建

5高标注数据按领域分为 10 组

语种明细

语言名称	时长
普通话	22400 hours

发布单位

出门问问西北工业大学

WenetSpeech