Easy-Turn-Trainset
面向全双工对话系统轮次检测的 1145 小时普通话训练数据集,含真实与合成数据
数据时长
1145 hours
语种
1 种
采样率
None
发布时间
2025-09
数据集描述
1总时长约 1145 小时,包含四种对话状态:完整状态(580 小时,423k 条)、不完整状态(532 小时,712k 条)、回应状态(10 小时,41k 条)、等待状态(23 小时,40k 条)
2包含真实数据(源自 MagicData-RAMC 普通话对话语料库)和合成数据(通过 DeepSeek V3 / Qwen2.5-72B 生成文本 + CosyVoice 2 语音合成)
3合成数据经 Paraformer 验证达到 0% WER 质量标准
4用于训练全双工对话系统的轮次检测模型,判断用户何时结束发言
5Apache-2.0 许可
语种明细
| 语言名称 | 时长 |
|---|---|
| 普通话 | 1145 hours |
发布单位