Libriheavy
5 万小时英语朗读语音 ASR 语料库,源自 LibriVox 有声书,包含标点、大小写及上下文信息,是目前最大的免费有监督英语语音数据集
数据时长
50000 hours
语种
1 种
采样率
16 kHz
发布时间
2023-09
数据集描述
1源自 LibriVox 开源有声书项目,通过对 Librilight 的 60,000 小时无标注音频进行自动对齐和分割生成
2包含三个训练子集:small(500 hours)、medium(5,000 hours)、large(50,000 hours),以及 dev、test-clean、test-other 评测子集
3与其他 ASR 数据集不同,提供完整格式的转录文本,包含标点符号和大小写信息
4每条音频片段附带前文上下文(preceding text context),支持上下文感知语音识别(contextualized speech recognition)
5元数据以 Lhotse cuts JSON lines 格式存储,每行包含转录文本及对应音频来源信息
6训练集与评测集之间无说话人和书籍重叠,保证评测集的独立性
7同时开源了通用音频对齐流水线,可用于其他音频对齐任务
语种明细
| 语言名称 | 时长 |
|---|---|
| 英语 | 50000 hours |
发布单位