Emilia
首个大规模、多语言、多样化的 in-the-wild 语音生成数据集,包含超过 101k 小时的六语种自然语音数据
数据时长
101654 hours
语种
6 种
采样率
24 kHz
发布时间
2024-07
数据集描述
1总计约 101,654 小时的多语言语音数据,覆盖英语、中文、德语、法语、日语、韩语六种语言
2数据来源于互联网上的视频平台和播客,涵盖脱口秀、访谈、辩论、体育解说、有声书等多种内容类别
3以自发性语音为主,覆盖广泛的说话风格,包括呼吸、停顿、重复、语速变化和情感变化等自然语音特征
4配套开源预处理工具 Emilia-Pipe,支持标准化、人声分离、speaker diarization、VAD 细粒度切分、ASR 转写和质量过滤六个步骤
5语音数据统一重采样至 24 kHz、单声道、16-bit,目标响度为-20 dBFS
6经 DNSMOS P.835 OVRL 评分筛选,仅保留质量评分高于 3.0 的语音片段,最终平均评分为 3.26
7每条语音片段时长控制在 3 至 30 秒之间,并附带 ASR 文本转写标注
语种明细
| 语言名称 | 时长 |
|---|---|
| 中文 | 49900 hours |
| 英语 | 46800 hours |
| 法语 | 1800 hours |
| 日语 | 1700 hours |
| 德语 | 1600 hours |
| 韩语 | 200 hours |
发布单位