GigaSpeech 2 raw
约 3 万小时自动转录的大规模多领域多语言语音识别语料库,覆盖泰语、印尼语和越南语三种低资源东南亚语言
数据时长
28338.7 hours
语种
3 种
采样率
16 kHz
发布时间
2024-06
数据集描述
1数据来源于 YouTube 无标注视频,通过自动化流水线爬取和转录
2包含约 28339 小时的自动转录语音数据,覆盖泰语、印尼语和越南语
3涵盖农业、艺术、商业、气候、文化、经济、教育、娱乐、健康、历史、文学、音乐、政治、人际关系、购物、社会、体育、科技和旅行等多个领域
4内容格式包括有声书、评论、讲座、独白、电影、新闻、谈话和视频博客等
5使用 Whisper large-v3 进行自动转录,TorchAudio 进行强制对齐
6通过多维度过滤规则(字符集过滤、语言置信度过滤、音频时长过滤、平衡过滤)保证数据质量
7音频转换为单通道 WAV 格式,采样率 16 kHz
8DEV 和 TEST 集各含 10 小时由专业人员人工转录的数据,确保无说话人重叠
9数据采用 Creative Commons 许可证发布,仅限非商业研究和教育用途
语种明细
| 语言名称 | 时长 |
|---|---|
| 泰语 | 12901.8 hours |
| 印尼语 | 8112.9 hours |
| 越南语 | 7324.0 hours |
发布单位