数据集描述

1基于 GigaSpeech 2 raw 通过改进的 Noisy Student Training 方法进行迭代标签精炼得到

2包含约 22015 小时的精炼转录语音数据，覆盖泰语、印尼语和越南语

3通过迭代训练教师模型并基于字符错误率(CER)过滤和重标注伪标签，逐步提升转录质量

4训练在该数据集上的 ASR 模型在泰语上全面超越 Whisper large-v3 和商业服务

5在印尼语和越南语上以仅十分之一的参数量达到与 Whisper large-v3 相当或更优的性能

6数据来源于 YouTube 自发语音，标签类型为经过精炼的伪标签

7音频转换为单通道 WAV 格式，采样率 16 kHz

语种明细

发布单位

上海交通大学鹏城实验室香港中文大学清华大学哈尔滨工业大学Birch AI海天瑞声思必驰Seasalt AI IncSpeechColab

许可与商用

GigaSpeech 2 refined