国家自然科学基金(61032008) 作品数:19 被引量:115 H指数:6 相关作者: 于洪志 李亚超 加羊吉 海银花 江涛 更多>> 相关机构: 西北民族大学 新疆大学 内蒙古大学 更多>> 发文基金: 国家自然科学基金 中央高校基本科研业务费专项资金 国家社会科学基金 更多>> 相关领域: 自动化与计算机技术 语言文字 电子电信 更多>>
融合音节特征的最大熵藏文词性标注研究 被引量:15 2013年 藏文词性标注是藏文信息处理中非常重要的基础性问题,该文以最大熵模型为基本框架,根据藏文的构词特征及统计分析结果,定义并选取特征模板,研究了融合语言特征的最大熵藏文词性标注模型。实验结果表明,最大熵模型能够较好的处理藏文词性标注问题,音节特征可以显著提高藏文词性标注的效果,与基准系统相比使错误率降低了6.4%。 于洪志 李亚超 汪昆 冷本扎西关键词:藏文 词性标注 最大熵 低数据资源条件下基于结构信息共享的无切分维文文档识别字符建模 被引量:4 2015年 无切分维吾尔文文档识别技术能够有效避免字符切分错误,但是对于低数据资源的新样本类型,原有模型往往难以获得较高的识别性能。为此,该文提出共享常用维文字体间相对稳定的字符结构信息,并用Bootstrap方法提高样本利用效率的解决方法。通过在实际书籍样本上的实验表明,仅利用规模约原始训练样本1/5的新类型样本,该方法在测试集上的平均字符识别准确率就可以达到95.05%;而与常用的最大后验概率估计方法相比,也能使识别错误率相对降低55.76%-63.84%。因此,该方法能够有效解决低数据资源条件下的维文字符建模问题,实现对新样本类型的高性能识别。 姜志威 丁晓青 彭良瑞 刘长松关键词:文字识别 隐马尔可夫模型 统计学习 维吾尔文 一种提高维吾尔语-汉语词语对齐的方法研究 被引量:9 2012年 维吾尔语是典型的粘着性语言,其复杂的形态以及众多的词缀影响维吾尔语-汉语词语对齐的质量.本文提出对维吾尔语词进行形态分析并词干与词缀分离,再进行对齐;并根据维吾尔语遵循语音和谐规律的特点,对维吾尔语词缀的变体采用统一的表示方法,使得词缀呈现相同的形式.通过以上方法欲达到抑制维汉词语对齐中数据稀疏现象.本文利用此方法处理了新疆多语种信息技术重点实验室提供的维汉双语语料,再利用GIZA++进行对齐,试验结果表明,此方法对词语对齐效果起到了明显的积极作用,而且对维汉机器翻译的质量也有显著的提高. 麦热哈巴·艾力 王志洋 吐尔根·依布拉音关键词:词对齐 维吾尔语 形态分析 基于KNN的中文文本分类性能研究 被引量:1 2011年 本文针对文本分类的文本表示、分类器等关键技术进行了研究,并且使用基于K最近邻(k-NearestNeighbor,KNN)分类算法在系统上实现了文本分类器。在此基础上通过实验数据针对样本集、K的取值等因素对分类效果的影响做了详细的研究比较,通过对性能变化原因分析,提出了最优性能解决方案。 王勇 徐涛 于洪志 江涛关键词:文本分类 KNN 特征降维 字符识别研究现状和发展趋势计量分析 被引量:4 2018年 为了探究字符识别领域的研究现状和发展趋势,整理Web of Science中近20年以字符识别为主题的典型文献作为研究对象,采用文献计量分析方法,利用CiteSpace可视化分析工具绘制知识网络图谱,系统科学地分析字符识别领域的研究国家、研究机构、研究热点以及核心文献,理清研究发展脉络。研究发现,字符识别的理论研究已经相对成熟,研究内容主要集中在算法或模型优化,以提高字符识别在实际应用中的识别准确率。通过上述工作,希望为我国研究人员了解字符识别的相关研究提供进一步的参考和帮助。 郝辉 哈力木拉提.买买提 乔萨础拉 苏佩佩关键词:字符识别 文献计量分析 CITESPACE 蒙古语熟语资源库的初步构建 2014年 随着信息社会的迅猛发展,蒙古语熟语的语汇和应用面临着巨大挑战。构建"熟语资源库"是保护、开发和利用蒙古语熟语资源的最佳途径,也是机器翻译、语料库加工、文本校对等多个领域提供形式化知识从而能够解决蒙古文信息处理研究的燃眉之急。同时将其研究成果拓展到教学领域,提升蒙古语言文字的教学效率。目前,该资源库处于初步开发阶段。从资源库的规模与结构、属性字段及管理软件设计、应用前景分析等方面介绍该资源库的总概貌。 海银花 那顺乌日图 额尔敦朝鲁关键词:蒙古语 基于改进卡方统计量的藏文文本表示方法 被引量:4 2014年 藏文文本表示是将非结构化的藏文文本转换为计算机能够处理的数据形式,是藏文文本分类、文本聚类等领域特征抽取的前提。传统的藏文文本表示方法较少考虑特征项之间的关联度,容易造成语义损失。为此,结合向量空间模型,提出一种新的藏文文本表示方法。提取文本中词频统计TF-IDF值较高的部分词项作为对比词项,对藏文文本进行断句处理,以每个句子作为一个语境主题,利用卡方统计量计算文本中词项与对比词项的关联程度。实验结果表明,与传统的向量空间模型相比,该方法能更准确地表示藏文文本。 徐涛 于洪志 加羊吉关键词:藏文信息处理 文本表示 向量空间模型 “蒙古语名词语义信息词典”数据库的构建 被引量:4 2012年 "名词语义信息词典"是"蒙古语语义信息词典"的分库,是整个蒙古语语言知识库的组成部分。"名词语义词典"翔实描述了每一个词语的语义分类、搭配规则、配价等方面的语义属性。 海银花 那顺乌日图关键词:蒙古语 名词 维吾尔语词尾对汉维统计机器翻译影响的研究 被引量:8 2014年 维吾尔语属于阿尔泰语系,是典型的黏着语,构形词尾在维吾尔语中占很重要的地位,这与汉语差别很大。针对维吾尔语的形态特点,分析汉维统计机器翻译中维吾尔语构形词尾的作用,利用Cherio搭建一个基于层次短语的汉维统计机器翻译系统。使用词级粒度、词干级粒度、词干词尾级粒度的汉维平行语料进行对比实验,探讨不同粒度对汉维统计机器翻译系统的影响。实验结果表明,该汉维统计机器翻译系统可以提高汉维统计翻译的质量,BLEU值达到0.1972。 米莉万.雪合来提 麦热哈巴艾力 吐尔根.依布拉音 姜文斌关键词:词尾 统计机器翻译 语言模型 基于条件随机场的藏语自动分词方法研究与实现 被引量:29 2013年 藏语自动分词是藏语信息处理的基础性关键问题,而紧缩词识别是藏语分词中的重点和难点。目前公开的紧缩词识别方法都是基于规则的方法,需要词库支持。该文提出了一种基于条件随机场的紧缩词识别方法,并在此基础上实现了基于条件随机场的藏语自动分词系统。实验结果表明,基于条件随机场的紧缩词识别方法快速、有效,而且可以方便地与分词模块相结合,显著提高了藏语分词的效果。 李亚超 加羊吉 宗成庆 于洪志关键词:条件随机场 格助词