Chinese-LiPS
首个融合唇读与演示文稿信息的多模态中文视听语音识别数据集,包含 100 小时语音及手动转录
数据时长
100 hours
语种
1 种
采样率
16 kHz
发布时间
2025-04
数据集描述
1包含约 100 小时语音数据,36,208 个片段,来自 207 位说话人
2视觉模态同时涵盖唇读视频和说话人的演示文稿幻灯片
3演示文稿由领域专家精心设计,确保内容质量和视觉丰富性
4语音由中国各领域专业人士在安静自然环境中录制,所有说话人使用普通话
5涵盖 9 个主题领域:电竞游戏、汽车工业、旅行探索、体育竞赛、文化历史、科学技术、影视剧集、健康养生及其他
6说话人性别比例接近均衡,男女比例为 1:1.13
7说话人年龄主要分布在 20-30 岁,平均语音片段时长为 10 秒,最长不超过 30 秒
8数据集划分为 80%训练集、15%测试集和 5%验证集,不同子集间说话人无重叠
9所有组件经过仔细编辑和手动对齐以确保精度
语种明细
| 语言名称 | 时长 |
|---|---|
| 普通话 | 100 hours |
发布单位