夏秀渝
- 作品数:66 被引量:128H指数:6
- 供职机构:四川大学电子信息学院更多>>
- 发文基金:国家自然科学基金四川省科技支撑计划更多>>
- 相关领域:电子电信自动化与计算机技术自然科学总论医药卫生更多>>
- 相干函数在房间声回授通道特性测量中的应用被引量:4
- 2004年
- 介绍基于经典谱估计方法进行房间声回授通道特性的测量,并用相干函数衡量其准确性,就测量结果做了分析,为实际的自适应回声对消系统提供参考和指导.
- 夏秀渝王永德何培宇
- 关键词:相干函数DSP
- 基于注意力的双层级并行声学场景分类方法
- 2025年
- 声学场景分类是计算机听觉任务之一,其通过对声频信号的分析,将声频分类为特定的场景类型。该技术可广泛应用于智能设备、声频监控等领域。声学场景自上而下可分为高层级场景,再细分为低层级场景。与直接针对低层级场景分类的方法不同,根据该层级关系提出一种基于注意力的双层级并行网络用于声学场景分类。首先基于残差网络构建并行的高低层级声学场景分类模型,从高层级分类模型间层特征中获取全局参考特征。然后根据全局参考特征和低层级分类模型特征间距离计算注意力权重,使低层级分类模型关注重要特征。最后利用增强推理层融合高低层级分类模型的输出。并行网络在DCASE2019任务1数据集上的准确率为89.5%,应用增强推理层后的准确率为90.1%,验证了所提网络模型和增强推理层的有效性。
- 杨雪同夏秀渝
- 关键词:注意力
- 基于BLSTM-CTC的语音特征的音素识别研究被引量:2
- 2022年
- 音音素是自然语言中的最小建模单元,音素识别模型的优劣直接影响关键词检索、连续语音识别的性能。本文首先针对幅度特征MSRCC和相位特征PSRCC进行了一系列对比实验研究,发现融合幅度特征和相位特征可以取得更好的识别效果;接着比较分析了几种深度神经网络的优缺点,并将它们用于音素识别,仿真实验表明基于BLSTM-CTC的声学模型相比于其他模型具有更好的识别性能。
- 吴丹丹夏秀渝
- 关键词:音素识别语音特征
- 制服智能选号型装置的研究与设计被引量:1
- 2014年
- 针对目前国内制服号型匹配作业效率与精准度低的现状,设计出一种基于配衣参数因子的智能选制服号型装置,能实现快速、智能、精准的对个人制服号型的选择;该装置以超声波身高测量仪、电子体重计、头围测量仪、脚长测量仪、测量控制电路、数据传输转换单元等组成人体测量硬件系统,其作用主要是用于快速采集人体相关测量指标数据;在软件设计方面采用智能选号型算法,其目的是对所采集数据进行智能定量分析,最后准确的匹配出个人制服号型;试验结果表明,该装置设计理论充分且性能良好,具有广泛的应用推广前景。
- 叶于林夏秀渝刘厚雯
- 基于变步长LMS算法的声音处理方法及系统
- 本发明公开了基于变步长LMS算法的声音处理方法及系统,其中,声音处理方法包括步骤:S1、计算当前时刻的增益值g(n),所述增益值g(n)的计算式为:g(n)=g(n‑1)+u(n‑1)*e(n‑1)*P<Sub>x</S...
- 潘帆 许芳芳何培宇夏秀渝
- 文献传递
- 一种改进的广义旁瓣对消阵列语音增强算法
- 2024年
- 传统广义旁瓣对消(generalized sidelobe cancellation,GSC)算法在复杂声学环境下性能较差,语音增强效果不理想,需要加强其去噪能力以提高输出语音质量。对此,提出一种改进型广义旁瓣对消算法。构建基于频域GSC和时域GSC两级滤波的系统结构,利用一个选择滤波器输出两级滤波中质量较好的语音;并将GSC上支路权值修改为可自适应调节的形式,提高算法的适应性;GSC权值迭代时采用一种变步长自适应算法,步长因子根据信号信干噪比实时调整,防止滤波器权值发散。实验结果表明,相比于传统GSC算法,新算法在SINR、PESQ、STOI和SDR等指标上都有提升。
- 童环夏秀渝
- 关键词:麦克风阵列语音增强GSC
- 听觉模型鲁棒性特征研究及应用被引量:1
- 2024年
- 人类的听觉系统具有非常精细而巧妙的结构,即使在嘈杂的环境中,也能准确地理解语音。采用精细的耳蜗模型作为前端处理可以实现更好的语音处理。利用快速压缩的非对称谐振器级联(CARFAC)作为人耳外周模型,结合听觉稳定图像得到精确的皮层前听觉模型。在听觉模型的基础上提取较准确的基音轮廓,利用基音信息进行声场景分析,合成鲁棒性语音特征,并将其送入神经网络进行监督训练,以实现语音增强。实验结果表明,噪声条件下,由听觉模型提取的特征在各语音评价指标下都有较好的体现,可以更好表征语音信号,具有一定的鲁棒性。
- 王文华夏秀渝
- 关键词:语音增强系统基音提取
- 一种适用于双讲情况的回声消除结构
- 2022年
- 双端通话情况下自适应回声消除的性能发生恶化,甚至可能导致自适应滤波器发散,严重地影响免提通话的质量。因此必须在回声消除系统中使用双话检测(Double Talk Detection,DTD)来控制自适应滤波器系数的更新。针对这一问题,本文采用了一种改进的回声消除结构,在该结构中采用的双端检测算法和非线性处理模块有效提高了双话情况下回声消除系统的性能。
- 任思明夏秀渝
- 关键词:回声消除自适应滤波器互相关
- 基于LSTM的关键词识别系统设计被引量:4
- 2022年
- 为快速、准确地判断语音流中是否含有关键词,提出一种基于LSTM两步检索的关键词识别系统。将连续语音流分割成独立音节,然后采用过零率直方图进行初步检索,基于过零率直方图的相似度比较的计算量小,可快速排除非关键词。对初检时判断为关键词的音频片段进行精检,使用基于LSTM的分级系统进行音素识别,通过贪心搜索算法解码以确认是否为目标关键词。仿真结果表明,基于LSTM的网络能更有效提取音素特征,基于两步检索LSTM的关键词识别系统计算量小、速度快、识别率较高,且易于动态扩展目标关键词,具有较好的实时性。
- 何蕊伽夏秀渝
- 关键词:关键词识别语音分割音素识别循环神经网络
- 基于神经网络和卡尔曼滤波算法的说话人识别被引量:1
- 2008年
- 首先从语音信号中提取出特征参数:线性预测倒谱系数(LPCC)和用小波包提取的小波特征参数(WPC);语音特征分类模型则选择多层前馈式神经网络(MBP网络),并将奇异值分解运用到扩展卡尔曼滤波(EKF)算法中作为神经网络的学习算法。仿真结果表明,小波特征参数具有良好的识别效果;同时采用改进后的扩展卡尔曼滤波(EKF)算法使人工神经网络具有更稳定、更准确的分类性能。
- 张余生夏秀渝杨莎