UCI_Dataset 具有多种录音数据集的帕金森语音数据
2022-04-28 13:38:40 24.32MB
1
0-9数字语音库(各300段语音数据) 采样率:fs=16000Hz,采样精度:16bit,单通道。录音软件:Cool Edit Pro 2.1 数据命名说明:文件夹i表示数字i的样本。 ij.wav表示第i个人的第j个样本。 第1 个人为A,每个数字10个样本,分别存放在各个数字命名的文件夹中。2016.9.20晚录。 第2 个人为B,每个数字10个样本,分别存放在各个数字命名的文件夹中。2016.9.20晚录。 第3 个人为C,每个数字10个样本,分别存放在各个数字命名的文件夹中。2016.9.21晚录。 第4 个人为D,每个数字10个样本,分别存放在各个数字命名的文件夹中。2016.9.21晚录。 第5 个人为E,每个数字10个样本,分别存放在各个数字命名的文件夹中。2016.9.20晚录。 第6 个人为F,每个数字10个样本,分别存放在各个数字命名的文件夹中。2016.9.21晚录。
2022-04-19 10:05:35 44.35MB 语音识别 语音数据 数字语音数据
1
解压打开文件后可以看到两个文件夹,一个是音频文件一个是标签文件,可以根据自己的需要将数据集任意的操作
2022-04-06 16:12:27 421.5MB 中文语音数据集
1
Room Impulse Response and Noise 语音数据
2022-03-22 16:04:25 1.21GB 语音识别
1
语音数据大全
2022-01-07 21:06:40 239KB 语音数据集
1
CSTR语音克隆英语多说话人语料库工具包 概述 这个CSTR VCTK语料库包含了109个以不同口音为母语的英语使用者的语音数据。 每位演讲者要朗读大约400句句子,其中大部分是从报纸上挑选出来的,再加上彩虹段落和一段旨在识别演讲者口音的启事段落。 这些报纸文本是在先驱时报集团(Herald & Times Group)的许可下,从格拉斯哥的《先驱报》(The Herald)上摘取的。 每位演讲者阅读一组不同的报纸句子,每组句子都是通过贪婪算法选择的,该算法旨在最大限度地扩大上下文和语音覆盖范围。 彩虹段落和启发性段落对所有演讲者都是一样的。 彩虹之旅可以在国际英语方言档案(http://web.ku.edu/~idea/readings/rainbow.htm)中找到。 引出段落与用于语音重音存档(http://accent.gmu.edu)的段落相同。 语音口音档案的细节可以在http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf上找到 所有的语音数据都是使用相同的录音设置记录的:一个全向头戴式麦克风(DPA 4035),采样频率为96kHz, 24位,在爱丁堡大学的半暗室中。 所有录音均转换为16位,基于STPK下采样至48 kHz,并手动端点。 该语料库的录制是为了构建基于hmm的文本-语音合成系统,特别是用于使用多个发言者训练的平均语音模型和发言者自适应技术构建基于发言者自适应的语音合成系统。 复制 该语料库是在开放数据共享署名许可(ODC-By) v1.0下授权的。 http://opendatacommons.org/licenses/by/1.0/ http://opendatacommons.org/licenses/by/summary/ 下载 http://dx.doi.org/10.7488/ds/1994 确认 CSTR VCTK语料库由: Christophe Veaux(爱丁堡大学) Junichi Yamagishi(爱丁堡大学) 克里斯汀•麦克唐纳 导致这些结果的研究部分得到了EPSRC EP/I031022/1 (NST)和EP/J002526/1 (CAF)的资助,来自RSE-NSFC的资助(61111130120)和JST CREST (uDialogue)的资助。
2021-12-15 17:00:37 838B VCTK dataset 语音识别 语音数据集
1
MASR 中文语音识别 MASR是一个基于端到端的深度神经网络的中文普通话语音识别项目,本项目是基于 进行开发的。本项目已暂停维护,推荐使用识别效果更好的企业级模型 。 模型原理 MASR使用的是门控卷积神经网络(Gated Convolutional Network),网络结构类似于Facebook在2016年提出的Wav2letter,只使用卷积神经网络(CNN)实现的语音识别。但是使用的激活函数不是ReLU或者是HardTanh,而是GLU(门控线性单元)。因此称作门控卷积网络。根据实验结显示,使用GLU的收敛速度比HardTanh要快。 以下用字错误率CER来衡量模型的表现,CER = 编辑距离 / 句子长度,越低越好,大致可以理解为 1 - CER 就是识别准确率。 安装环境 执行requirements.txt安装依赖环境,在安装过程中出现Pyaudio安装错误,可以先执行su
2021-11-04 12:01:42 240KB cnn pytorch asr deepspeech
1
data_AI_shell中文语音数据集合
2021-11-02 12:12:24 958.55MB data_AI_shell中文语
1
matlab代码中的rir 介绍 该代码将基于 librispeech 语料库生成分布式多通道模拟语音数据。 模拟环境是单个扬声器位于混响环境中,包含点噪声和背景噪声,麦克风随机放置在房间内。 您可以修改通道数、房间大小、混响时间(T60)、噪声类型和信噪比,以获得所需的模拟数据。 文件结构生成机制是指 用于生成房间脉冲响应 生成默认模拟数据 在此处下载 Librispeech 数据集表格: 打开 Matlab 并打开“ generate/main.m ” 将“ debug_mode ”设置为false 将“ librispeech_dir ”设置为存储数据的路径, 例如: librispeech_dir = '/home/public/data/LibriSpeech' ; 将“ noise_dir ”、“ diffuse_noise_dir ”和“ point_noise_dir ”设置为存储噪声数据的路径,这些文件夹的具体设置见生成特定模拟数据。 您需要自己准备噪声数据。 将“ setname ”设置为您希望生成的集合, 例如: setname = {'train-clean-1
2021-10-29 20:33:48 595KB 系统开源
1