3
数据集
131,709+
总小时数
10
语种
4
应用场景

数据集列表

数据集描述

  • 大规模、多语种、多领域的语音识别数据集,主要面向低资源语言研究
  • 数据来自 YouTube 视频音频,通过自动化流程进行爬取、转写与数据清洗
  • 包含两种版本:raw(约30,000小时)和 refined(22,000小时)
  • 覆盖多个主题:农业、艺术、商业、气候、文化、教育、娱乐、历史、科技、旅游等
  • 使用 Whisper large-v3 自动转写,通过 Noisy Student Training 进行迭代标签优化
发布时间
2025-05
采样率
16 kHz
适用场景
语音识别
发布单位
上海交通大学等

语种分布

下载数据集
Hugging Face

数据集描述

  • 超大规模多语种语音数据集,总规模超过10万小时
  • 数据来源于互联网视频平台和播客:脱口秀、访谈、辩论、体育解说、有声读物
  • 包含丰富的真实世界说话风格:停顿、呼吸、重复、语速变化、情绪变化
  • 通过 Emilia-Pipe 自动化预处理:标准化、声源分离、说话人分离、VAD分段、ASR转写
  • 语音片段被切分为3-30秒的单说话人语音段,仅保留DNSMOS分数>3.0的高质量片段
发布时间
2024-09
采样率
24 kHz
适用场景
语音识别、语音合成
发布单位
港中大(深圳)等

语种分布

下载数据集
Hugging Face

数据集描述

  • 针对75岁及以上超高龄人群构建的中文自然对话语音数据集
  • 包含101场自然对话,总计55.53小时语音,60,029条语音片段
  • 202名说话人,来自中国16个省份,覆盖南北多地区
  • 话题包括健康、宠物、退休生活等老年人相关内容
  • 提供多维度标注:说话人属性、时间戳、重叠语音、文本转写、口音强度、特殊声音事件
发布时间
2025-11
采样率
16 kHz
适用场景
语音识别、说话人识别
发布单位
南开大学等
下载数据集
Hugging Face