语音识别开发需要多种数据集,以下是一些常用的语音识别数据集:
- Common Voice:包含26,119小时的录音,涵盖104种语言,提供年龄、性别、口音等人口统计元数据。
- CMU Wilderness Multilingual Speech Dataset:包含700多种不同语言的语音数据,平均每种语言提供大约20小时的句子长度转录。
- GigaSpeech:一个不断发展的多域英语语音识别语料库,包含10000小时的高质量标记音频和40000小时的总音频。
- MagicData-RAMC:包括351组多轮普通话对话,时长共计180小时,标注信息包括转录文本、语音活动时间戳等。
- Free ST Chinese Mandarin Corpus:包含855个speakers的120个话语,每个话语都经过人仔细的转录和核对。
这些数据集为语音识别开发提供了丰富的资源,有助于提高模型的准确性和鲁棒性。选择合适的数据集对于开发高效的语音识别系统至关重要。