国家自然科学基金(61163032)
- 作品数:3 被引量:20H指数:3
- 相关作者:艾斯卡尔艾木都拉艾克白尔帕塔尔向露宗成庆艾克白尔·帕塔尔更多>>
- 相关机构:新疆大学中国科学院自动化研究所更多>>
- 发文基金:国家自然科学基金教育部“新世纪优秀人才支持计划”新疆维吾尔自治区高技术研究发展计划项目更多>>
- 相关领域:自动化与计算机技术电子电信更多>>
- 基于电话语料的维吾尔连续音素识别被引量:4
- 2012年
- 结合维吾尔语的语音特征和语义信息,在大量电话语音语料库的基础上,以建立维吾尔语连续音素识别平台为目标,通过构建隐马尔科夫模型工具HTK(Hidden Markov Model Toolkit)工具实现了维吾尔语连续音素识别算法:首先根据具体技术指标完成了较大规模电话语音语料库的录制和标注工作;确定音素为基元,通过训练获得了每个音素的HMM(Hidden Markov Model)声学模型,随后对输入的语音进行识别,声学模型在不同的高斯混合数目下,得出了识别结果;统计了32个音素的识别率并对它进行分析,为了进一步提高识别率奠定了基础。
- 米日古力.阿布都热素艾克白尔帕塔尔艾斯卡尔艾木都拉
- 关键词:维吾尔语声学模型
- 融合多策略的维吾尔语词干提取方法被引量:13
- 2015年
- 维吾尔语是形态变化复杂的黏着性语言,维吾尔语词干词缀切分对维吾尔语信息处理具有非常重要的意义,但到目前为止,维吾尔语词干提取的性能仍存在较大的改进空间。该文以N-gram模型为基本框架,根据维吾尔语的构词约束条件,提出了融合词性特征和上下文词干信息的维吾尔语词干提取模型。实验结果表明,词性特征和上下文词干信息可以显著提高维吾尔语词干提取的准确率,与基准系统比较,融入了词性特征和上下文词干信息的实验准确率分别达到了95.19%和96.60%。
- 赛迪亚古丽.艾尼瓦尔向露宗成庆艾克白尔帕塔尔艾斯卡尔艾木都拉
- 关键词:维吾尔语词干提取N-GRAM模型
- 维吾尔文无监督自动切分及无监督特征选择被引量:3
- 2013年
- 维吾尔文常用切分方法会产生大量的语义抽象甚至多义的词特征,因此学习算法难以发现高维数据中隐藏的结构.提出一种无监督切分方法 dme-TS和一种无监督特征选择方法 UMRMR-UFS.dme-TS从大规模生语料中自动获取单词Bi-gram及上下文语境信息,并将相邻单词间的t-测试差、互信息及双词上下文邻接对熵的线性融合作为一个组合统计量(dme)来评价单词间的结合能力,从而将文本切分成语义具体的独立语言单位的特征集合.UMRMR-UFS用一种综合考虑最大相关度和最小冗余的无监督特征选择标准(UMRMR)来评价每一个特征的重要性,并将最重要的特征依次移入到特征子集中.实验结果表明dme-TS能有效控制原始特征集的规模,提高特征项本身的质量,用UMRMR-UFS的输出来表征文本时,学习算法也表现出其最高的性能.
- 吐尔地·托合提艾克白尔·帕塔尔艾斯卡尔·艾木都拉
- 关键词:互信息