CS-Dialogue
最大的公开自发式普通话-英语 code-switching 对话数据集,104 小时 200 位说话人
数据时长
104 hours
语种
2 种
采样率
16 kHz
发布时间
2025-02
数据集描述
1总时长 104.02 小时,包含 38,917 条语音片段,平均时长 9.62 秒
2200 位说话人参与 100 段自然对话录音,年龄 18-53 岁,性别分布较均衡
3说话人为具备英语流利能力的中国公民(海外经历或雅思 6+ / 专四),每人报酬 300 元
4每段对话包含纯普通话、code-switching 和纯英语片段,覆盖 7 个话题领域
5使用智能手机在安静环境中录制,16 kHz 采样率,16 位精度,单声道 PCM WAV 格式
6完整转写标注,包含不可辨识语音、填充停顿、说话人噪声等非词汇事件标注
7划分为训练集(140 人,68.97 小时)、验证集(30 人,18.30 小时)和测试集(30 人,16.74 小时),说话人无重叠
语种明细
| 语言名称 | 时长 |
|---|---|
| 普通话 | None |
| 英语 | None |
发布单位