数据集描述

1总计约 101,654 小时的多语言语音数据，覆盖英语、中文、德语、法语、日语、韩语六种语言

2数据来源于互联网上的视频平台和播客，涵盖脱口秀、访谈、辩论、体育解说、有声书等多种内容类别

3以自发性语音为主，覆盖广泛的说话风格，包括呼吸、停顿、重复、语速变化和情感变化等自然语音特征

4配套开源预处理工具 Emilia-Pipe，支持标准化、人声分离、speaker diarization、VAD 细粒度切分、ASR 转写和质量过滤六个步骤

5语音数据统一重采样至 24 kHz、单声道、16-bit，目标响度为-20 dBFS

6经 DNSMOS P.835 OVRL 评分筛选，仅保留质量评分高于 3.0 的语音片段，最终平均评分为 3.26

7每条语音片段时长控制在 3 至 30 秒之间，并附带 ASR 文本转写标注

语种明细

发布单位

香港中文大学（深圳）中国科学院声学研究所中国科学院大学上海人工智能实验室

许可与商用