语音识别
GigaSpeech 2
面向低资源东南亚语言的大规模多语种语音识别数据集,通过自动爬取、转写和标签迭代优化构建。
数据集描述
- 大规模、多语种、多领域的语音识别数据集,主要面向低资源语言研究
- 数据来自 YouTube 视频音频,通过自动化流程进行爬取、转写与数据清洗
- 包含两种版本:raw(约30,000小时)和 refined(22,000小时)
- 覆盖多个主题:农业、艺术、商业、气候、文化、教育、娱乐、历史、科技、旅游等
- 使用 Whisper large-v3 自动转写,通过 Noisy Student Training 进行迭代标签优化
发布时间
2025-05
采样率
16 kHz
适用场景
语音识别
发布单位
上海交通大学等
语种分布
下载数据集
Hugging Face