WenetSpeech4TTS
从 WenetSpeech 精炼而来的 12,800 小时普通话语音合成数据集,提供多质量层级子集
数据时长
12800 hours
语种
1 种
采样率
16 kHz
发布时间
2024-06
数据集描述
1从开源 WenetSpeech 数据集中精炼,针对 TTS 任务优化
2优化流程包括:调整分段边界、音频降噪增强、消除单段内说话人混合、更精确的 ASR 转写
3按 DNSMOS P.808 质量评分划分为 Premium、Standard、Basic 和 Rest 等多个质量子集
4经 VALL-E 和 NaturalSpeech 2 等模型验证有效性
5基于 CC BY 4.0 许可,附加非商业研究使用限制
语种明细
| 语言名称 | 时长 |
|---|---|
| 普通话 | 12800 hours |
发布单位