LLaSO-Align
LLaSO 框架的语音-文本对齐训练语料,1200 万条英语语音-文本对,覆盖多种语音场景
数据时长
None
语种
1 种
采样率
16 kHz
发布时间
2025-08
数据集描述
1LLaSO 开源框架的对齐训练组件,包含 1200 万条语音-文本对
2数据来源包括 GigaSpeech(对话语音)、LibriSpeech(朗读叙事)、LJ Speech(有声书)、MLS(多语种语音)、VCTK(口音英语)
3涵盖对话、叙事、有声书、口音语音等多种领域
4使用 18 种指令模板统一为 JSON 格式的 ASR 对齐任务
5音频统一重采样至 16 kHz,转换为 128 通道 mel 频谱图
语种明细
| 语言名称 | 时长 |
|---|---|
| 英语 | None |
发布单位