SeniorTalk
首个面向 75 岁以上高龄老年人的开源普通话自然对话语音数据集,包含丰富的多维度标注
数据时长
55.53 hours
语种
1 种
采样率
16 kHz
发布时间
2025-03
数据集描述
1总时长 55.53 小时,包含 101 段自然对话录音,来自 202 位 75 至 85 岁的中国高龄老年说话人
2说话人覆盖中国 16 个省份,67 位男性和 135 位女性,具有丰富的地区和口音多样性
3录音使用手机设备(70%安卓、30% iOS),话题涵盖健康、宠物、退休生活等老年人相关议题
4包含 8 个维度的标注:说话人属性(年龄、性别、籍贯)、时间戳、转写文本、口音强度(0-3 级)、重叠语音、特殊音频事件标记等
5共 60,029 条语句,支持说话人验证、speaker diarization、语音识别和语音编辑等多种任务
6数据以 CC BY-NC-SA 4.0 许可证发布,仅限学术研究用途
语种明细
| 语言名称 | 时长 |
|---|---|
| 普通话 | 55.53 hours |
发布单位