GigaSpeech 2 refined
约 2.2 万小时经迭代标签精炼的高质量多语言语音识别语料库,面向泰语、印尼语和越南语低资源语言
数据时长
22015.0 hours
语种
3 种
采样率
16 kHz
发布时间
2024-06
数据集描述
1基于 GigaSpeech 2 raw 通过改进的 Noisy Student Training 方法进行迭代标签精炼得到
2包含约 22015 小时的精炼转录语音数据,覆盖泰语、印尼语和越南语
3通过迭代训练教师模型并基于字符错误率(CER)过滤和重标注伪标签,逐步提升转录质量
4训练在该数据集上的 ASR 模型在泰语上全面超越 Whisper large-v3 和商业服务
5在印尼语和越南语上以仅十分之一的参数量达到与 Whisper large-v3 相当或更优的性能
6数据来源于 YouTube 自发语音,标签类型为经过精炼的伪标签
7音频转换为单通道 WAV 格式,采样率 16 kHz
语种明细
| 语言名称 | 时长 |
|---|---|
| 泰语 | 10262.0 hours |
| 越南语 | 6039.0 hours |
| 印尼语 | 5714.0 hours |
发布单位