使用 PyTorch 框架使用 CRNN 和 CTC 损失进行多位序列识别 训练结果 测试结果
2021-11-22 10:16:59 379KB pytorch ctc-loss crnn sequence-recongnition
1
matlab 生成代码 调用 性别识别软件使用说明 环境建立 将主目录下的rastamat工具箱和sap-voicebox工具箱添加到MATLAB路径中 将主目录下Gama文件夹添加到MATLAB路径 需要MATLAB2018b或者MATLAB Runtime9.4 使用方法 环境建立后,双击运行Gender_Recognition.mlapp 或者在MATLAB中打开运行 代码结构 顶层文件:Gender_Recognition.mlapp 调用文件: GFCC_result.m 基于GMM的GFCC,其中输出参数result为返回结果(0表示识别结果为女,1为男),输入参数x1为经过预处理和vad的语音信号,fs为采样率,GMM_chinese是GMM模型 GFCC.m 用于提取GFCC特征 lmultigauss.m 用于计算输入特征在模型中的可能性,输出是一个负值,直接与另外一个输出比较大小即可。 PLP_result.m 基于GMM的PLP,其中输出参数result为返回结果(0表示识别结果为女,1为男),输入参数x1为经过预处理和vad的语音信号,fs为采样率,GMM_ch
2021-11-03 06:24:11 3.86MB 系统开源
1
手势识别 基于tensorflow2.0 + opencv + CNN实现0-9手势识别 请查看我的CSDN以获取详细信息
2021-05-27 13:47:01 89.4MB 附件源码 文章源码
1
matlab的人脸识别程序,包括GUI的设计 使用:把人脸库的路径修改一下,然后直接运行faceGUI即可。 模型比较简单,大家可以优化一下再用 对应的blog地址:http://blog.csdn.net/light_lj/article/details/26703959
2019-12-21 20:08:16 2.85MB 人脸识别
1
在本文中,我们将深入探讨如何使用MATLAB实现语音识别算法,这一技术在现代通信、智能家居、自动驾驶等领域有着广泛应用。MATLAB作为一个强大的数值计算和数据可视化平台,为语音处理提供了丰富的工具箱和函数,使得开发这样的系统变得相对容易。 我们要理解语音识别的基本流程。它通常包括以下几个步骤: 1. 预处理:这部分涉及到语音信号的采集,噪声去除,预加重(Preemphasis)等。预加重是一种提升高频成分的技术,有助于消除人声的频率响应不平坦现象。 2. 分帧与窗函数:将连续的语音信号切分成固定长度的帧,并应用窗函数(如汉明窗或海明窗)以减少帧间干扰。 3. 声谱分析:通过快速傅里叶变换(FFT)对每帧进行分析,得到频域表示,即梅尔频率倒谱系数(MFCC)。MFCC是一种模拟人类听觉特性的特征提取方法,能有效压缩频谱信息。 4. 特征提取:从声谱图中提取关键特征,如MFCC系数、delta和delta-delta系数,这些特征将作为识别模型的输入。 5. 训练模型:利用机器学习算法(如隐马尔可夫模型HMM,支持向量机SVM,深度神经网络DNN等)训练模型,建立语音到文本的映射关系。 6. 匹配与识别:将待识别语音的特征与训练好的模型进行比较,找出最匹配的标签,完成识别过程。 在MATLAB中,可以使用Signal Processing Toolbox和Audio Toolbox来完成上述任务。例如,`audioread`用于读取音频文件,`preemph`进行预加重,`hamming`生成窗函数,`melFilterBank`计算MFCC,`hmmtrain`训练HMM模型,`viterbi`进行HMM的维特比解码。 在提供的压缩包中,"speech recognition"可能包含了以下文件: - `training.m`: 这个文件可能包含了训练部分的代码,用于构建识别模型。可能涵盖了特征提取和模型训练的过程。 - `matching.m`: 匹配部分的代码,用于将新语音样本与训练好的模型进行匹配,输出识别结果。 - `demo.m`: 演示部分,通常会调用上述两个函数,用户可以通过运行此文件来体验整个语音识别系统。 通过理解并实践这些MATLAB代码,你可以深入掌握语音识别的核心算法和技术,为自己的项目或研究打下坚实的基础。不过,需要注意的是,实际应用中的语音识别可能还需要考虑到更多的因素,如发音多样性、背景噪声、说话速度等,这需要在模型训练和参数调整中不断优化。
2019-12-21 19:23:33 745KB matlab recongnition speech
1