徐晓娜
- 作品数:12 被引量:50H指数:5
- 供职机构:中央民族大学信息工程学院更多>>
- 发文基金:国家自然科学基金教育部人文社会科学研究基金中国科学院战略性先导科技专项更多>>
- 相关领域:自动化与计算机技术电子电信一般工业技术更多>>
- 磁流体-螺旋组合密封对液体介质的密封性能研究被引量:6
- 2022年
- 磁流体旋转密封液体时,磁流体与被密封液体间相对运动致使其界面发生稳定性问题,密封性能较差。而螺旋密封在主轴旋转时利用流体动压反输可阻止被密封液体泄漏。为了提高旋转密封性能,设计了磁流体密封与螺旋密封组合的密封结构,搭建了组合密封实验台,理论和实验研究结果表明,该组合密封结构既能解决磁流体密封在较高转速时的失效问题,又能解决螺旋密封在停车及低速时的泄漏问题,实现不同转速下较稳定的密封效果。
- 王虎军何新智高中泉徐晓娜
- 关键词:磁流体密封
- 基于深度特征学习的藏语语音识别被引量:8
- 2015年
- 根据听觉语音学的知识,提出使用稀疏自动编码器在MFCC特征基础上进行深度学习,提取了深度特征模仿听觉神经的稀疏触动信号,有利于HMM模型语音识别精度的提高.实验结果显示,学习到的深度特征较MFCC特征在藏语语音识别正确率方面有明显提高.
- 王辉赵悦刘晓凤徐晓娜周楠许彦敏
- 青海土族和藏族侧面部轮廓形状及其变异:基于标志点的几何形态测量分析被引量:12
- 2014年
- 运用几何形态测量方法分析现代中国人群的侧面轮廓形状及变异.采用基于标志点的几何形态学测量方法对青海互助土族自治县的土族、藏族侧面轮廓形状进行了分析.特征点集的分析显示,土族人群额部的形态变异较小,鼻部较大,唇部及颏部的形态变异最大;藏族人群额部的形态变异较小,鼻部的形态变异较大.土族、藏族眉间点附近变异都较大.平均图形的对比显示,土族、藏族发际点都表现为男性比女性更靠后,鼻下点至鼻尖点间的区域都表现为女性比男性稍上翘.藏族发际点比土族更加靠后,额部更后倾些.主成分分析中,散点图的分布特征在土族和藏族中体现出相似性,都可以根据纵轴将男女大致分开.男女分布范围坐标端点位置的差异显示,女性侧面轮廓呈鼻部不突出,鼻部与额部呈明显圆弧过渡,额部较陡直且与唇部、颏部几乎在同一垂直平面;男性鼻部较突出,额部较低平,鼻凹点凹陷明显,颏部较回缩.异速生长分析中,土族、藏族都表现为男性颏部随侧面尺寸的增大由较突出变为明显回缩;女性的变化主要体现在额部,尺寸值最大时,额部呈明显的圆弧形,而尺寸值最小时,额部相对较竖直.这些相似性可能反映了中国人群面部共同的形态特征表现.
- 李海军徐晓娜
- 关键词:土族藏族体质特征
- 基于Transformer的藏语多方言语音合成
- 2025年
- Tacotron模型的应用在藏语端到端语音合成取得了较好的效果,然而基于循环神经网络(RNN)的模型存在训练和预测效率较低以及长距离信息丢失问题。为进一步提升藏语语音合成效果,提出了一种基于Transformer的端到端语音合成模型来实现藏语多方言的语音合成。上述模型使用多头注意力机制并行构建编码器(Encoder)与解码器(Decoder)中的隐藏状态,从而有效解决了建模长距离信息相关性的问题,并且能够发挥多GPU并行训练的优势。选用三种不同的合成基元(藏文字,拉丁字母,藏文部件)作为声学模型的输入,使用transformer Text-To-Speech(TTS)网络生成梅尔谱图,然后使用训练好的WaveNet将梅尔谱转化为最终的语音波形。进行了多项对比实验,首先对比了Tacotron与基于transformer的端到端模型应用于藏语多方言语音合成的效果,并且对比了三种合成基元在本文模型上的表现,除此之外,还进行了单GPU训练与多GPU并行训练的对比实验。实验结果显示,基于Transformer的端到端语音合成模型应用于藏语多方言语音合成的效果比Tacotron模型更好,选用拉丁字母为合成基元并且采用多个GPU并行训练得到的音频具有更好的清晰度和自然度。
- 徐晓娜李宁赵悦
- 关键词:语音合成
- 基于KCCA的特征融合方法及人耳人脸多模态识别被引量:5
- 2008年
- 针对非打扰识别问题,鉴于人耳人脸特殊的生理位置关系,提出一种基于二者信息融合的多模态生物特征识别方法.该方法首先采集侧面视角人脸图像,然后将核方法引入到典型相关分析(CCA)中,提出基于核CCA的特征融合方法,并应用其提取人耳人脸的关联特征进行个体的分类识别.仿真实验结果证明了基于KCCA的特征融合方法的有效性.与人耳或侧面人脸单一模态的识别相比,基于人耳人脸的多模态识别的性能显著提高,这为非打扰式生物特征识别提供了一条有效途径.
- 徐晓娜穆志纯潘秀琴赵悦
- 关键词:人耳识别核方法
- 人耳和侧面人脸融合的多模态身份识别被引量:5
- 2007年
- 首先分别对人耳和侧面人脸建立基于全空间线性判别分析(FSLDA)的分类器;然后采用贝叶斯决策理论中常见的积、和、中值多分类器融合算法,并对投票算法进行了改进。实验结果表明,与单一的人耳或侧面人脸特征识别比较,人耳和侧面人脸融合的多模态识别率得到提高,并扩大了识别范围。
- 徐晓娜穆志纯
- 关键词:人耳识别决策层融合
- 基于主动形状模型的人耳图像归一化研究
- 人耳识别技术已经成为一种新的生物特征识别技术。人耳图像的归一化在人耳识别中具有相当重要的意义,为后续的工作提供了前提。但传统的归一化方法往往是通过手动实现的。本文提出了一种新的基于改进的主动形状模型(ASM,Active...
- 高淑欣穆志纯袁立徐晓娜
- 关键词:人耳图像归一化主动形状模型
- 文献传递
- 端到端语音到语音翻译的优化方法综述
- 2025年
- 语音到语音翻译(S2ST)是智能语音领域中新兴的研究方向,旨在将一种语言的语音准确翻译成另一种语言的语音。随着人们对跨语言交流需求的增加,S2ST受到广泛的关注,相关研究也不断涌现。传统的级联模型在S2ST过程中存在诸多问题,如错误传播、推理延迟和无法翻译无文字系统的语言等,因此如何通过端到端模型实现直接S2ST成为当前研究的重点。在全面调查端到端S2ST的基础上,详细分析和归纳了端到端S2ST的各种模型,综述了已有的相关技术,将端到端S2ST面临的挑战总结为建模负担、数据稀缺和现实应用三类问题,并重点探讨了现有工作是如何解决这三类问题的。大语言模型(LLM)强大的理解和生成能力为S2ST提供了新的可能性,同时也带来了更多的挑战。因此,讨论了LLM在S2ST中的应用,并设想了未来可能的发展方向。
- 宗伟赵悦赵悦徐晓娜
- 基于瓶颈特征的藏语拉萨话连续语音识别研究被引量:9
- 2018年
- 基于从深度神经网络提取的瓶颈特征具有语音长时相关性和紧凑表示的特点,将瓶颈特征及其与MFCC的复合特征用于藏语连续语音识别任务中,可以代替传统的MFCC特征进行GMM-HMM声学建模。在藏语拉萨话连续语音识别任务中的实验表明,瓶颈特征的复合特征取得比深度神经网络后验特征和单瓶颈特征更好的识别表现。
- 周楠赵悦李要嫱徐晓娜才旺拉姆吴立成
- 关键词:连续语音识别
- 临近最优主动学习的藏语语音识别方法研究被引量:3
- 2018年
- 语音识别模型需要大量带标注语音语料进行训练,作为少数民族语言的藏语,由于语音标注专家十分匮乏,人工标注语音语料是一件非常费时费力的工作。然而,主动学习方法可以根据语音识别的目标从大量未标注的语音数据中挑选一些具有价值的样本交给用户进行标注,以便利用少量高质量的训练样本构建与大数据量训练方式一样精准的识别模型。研究了基于主动学习的藏语拉萨话语音语料选择方法,提出了一种临近最优的批量样本选择目标函数,并验证了其具有submodular函数性质。通过实验验证,该方法能够使用较少的训练数据保证语音识别模型的精度,从而减少了人工标注语料的工作量。
- 赵悦李要嫱徐晓娜吴立成