王花
- 作品数:6 被引量:8H指数:2
- 供职机构:新疆大学信息科学与工程学院更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术语言文字更多>>
- 基于位置概率模型的哈萨克语人名识别被引量:1
- 2010年
- 针对哈萨克语文本中人名构成特点,提出了一种基于位置概率模型的哈萨克语人名可信度计算方法,构建了一个哈萨克语人名识别系统。系统分为训练和识别两个模块,识别过程是:首先从训练语料中提取特征进行训练,得到一个特征训练模型,然后利用训练好的特征模型及少量的附加规则,对测试文本中的人名进行识别,实验结果表明此方法可行。
- 冯鲸华古丽拉.阿东别克吴守用王花
- 关键词:实体名识别
- 基于语料的哈萨克语词频统计的研究
- 词频统计在信息处理中发挥重要作用。哈萨克语作为新疆少数民族语言之一,词频统计作为自然语言处理的基础性课题成为需要迫切解决的问题,介绍了Zipf定律及哈萨克语词频统计之间的联系。首先将输入的连续哈萨克语字符串进行分词处理,...
- 王花古丽拉·阿东别克
- 关键词:幂律
- 文献传递
- 基于语料的哈萨克语词频统计研究被引量:6
- 2010年
- 哈萨克语作为新疆少数民族语言之一,其词频统计作为自然语言处理的基础性课题,成为需要迫切解决的问题。基于此,介绍Zapf定律及哈萨克语词频统计之间的联系。对连续输入哈萨克语字符串进行切分,再输入切分后的哈萨克语词串,由此得到哈萨克语词典。在词典中存储词形不同的哈语词组,以及这些词组出现的频率,并进行哈萨克语的统计实验,结果说明哈萨克语词频之间存在内在联系,同时验证哈萨克词频符合Zapf的幂率定律。
- 王花古丽拉.阿东别克
- 基于语料的哈萨克语词频统计的研究
- 词频统计在信息处理中发挥重要作用。哈萨克语作为新疆少数民族语言之一,词频统计作为自然语言处理的基础性课题成为需要迫切解决的问题,介绍了Zipf定律及哈萨克语词频统计之间的联系。首先将输入的连续哈萨克语字符串进行分词处理,...
- 王花古丽拉·阿东别克
- 关键词:幂律
- 文献传递
- 基于SVM的哈萨克语文本分类被引量:2
- 2010年
- 介绍了支持向量机(SVM)和k-最近邻法(kNN)分类算法的思想和两种哈萨克语特征提取方法。对SVM、kNN和Bayes算法在哈萨克语文本分类的实验进行了比较。实验结果表明:在处理哈萨克语文本分类问题上,SVM较kNN和Bayes有较好的分类效果。由于哈萨克文单词的语素和构形的特点,若对哈萨克语词缀进行切分,则会降低文本分类的准确率和查全率。
- 王花古丽拉.阿东别克吴守用
- 关键词:文本分类支持向量机
- 基于语料库的哈萨克文统计研究
- 词汇是语言系统中最活跃、最具有生命力的元素,哈萨克语词汇的研究对哈萨克语语言教学、词典编纂、及语音信息处理等领域有广泛应用。本文首先将连续输入哈萨克语字符串进行提取,由此得到哈萨克语词典。词典中存储了词形不同的哈语单词,...
- 王花
- 文献传递