卡哈尔江·阿比的热西提
- 作品数:15 被引量:52H指数:5
- 供职机构:新疆大学更多>>
- 发文基金:国家自然科学基金国家重点基础研究发展计划新疆维吾尔自治区重点实验室开放课题基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种用于术语管理及抽取的分析方法
- 本发明公开了一种用于术语管理及抽取的分析方法,该方法包括如下步骤:S1.创建维吾尔语倒排索引;S2.输出创建好的维吾尔语倒排索引文件;S3.检查创建的维吾尔语倒排索引文件的准确性;S4.加密维吾尔语倒排索引;S5.检查加...
- 卡哈尔江·阿比的热西提米尔夏提·力提甫吐尔根·依布拉音阿里木·库尔班王路路买合木提·买买提吴浩
- 文献传递
- 基于用户关系的维吾尔文微博数据获取方法的研究被引量:4
- 2015年
- 目前,互联网上的大部分群体性数据资源集中在微博、论坛等社交网络上.跨语言社会舆情分析是我国智能信息处理的一个研究热点.维吾尔语是我国主要少数民族语言之一,为了构建一个好的跨语言舆情分析系统,维吾尔文微博的数据获取显得尤为重要.维吾尔文微博数据获取最大的难点是微博开发商不提供API.本文以技术和经济为基础的"Guduk"微博为研究对象,提出了一种基于用户关系的维吾尔文微博数据获取爬虫系统方案,此方案解决了在不提供API情况下的数据获取难点.本文的研究为跨语言舆情分析系统提供大量的维吾尔文社交网络数据资源、数据获取方法和技术.
- 亚森·伊斯马伊力吐尔根·依布拉音卡哈尔江·阿比的热西提
- 关键词:跨语言舆情数据获取用户关系网络爬虫
- 基于众包的维吾尔语事件标注研究被引量:1
- 2015年
- 大规模标注语料库在自然语言处理的语义理解和算法研究等领域有重要作用.本文针对维吾尔语事件标注语料空白以及标注仅仅涉及简单的人类智能的事实,提出了一种基于众包的维吾尔语事件标注方法.在制定了维吾尔语事件标注规范之后,建立了三层架构的标注体系,并提出质量控制机制.维吾尔语事件标注语料库为维吾尔语事件的研究提供了重要的资源支持.
- 陈昊吐尔根·依布拉音卡哈尔江·阿比的热西提艾山·吾买尔
- 关键词:维吾尔语语料库众包
- 一种基于深度学习的维吾尔文命名实体识别方法
- 本发明公开了一种基于深度学习的维吾尔文命名实体识别方法,该方法包括如下步骤:(1)对维吾尔文本进行分词,对词分别进行字符提取和音节切分;(2)用双向LSTM网络对提取的字符分别获得前向和反向字符向量,并将它们拼接到一起形...
- 买合木提·买买提艾山·吾买尔吐尔根·依布拉音王路路卡哈尔江·阿比的热西提
- 文献传递
- 汉维时间数字和量词的识别与翻译研究被引量:8
- 2016年
- 统计机器翻译对时间、数字、量词的泛化能力较弱,为了提高汉维机器翻译系统对时间、数字和量词短语的翻译性能,该文利用双语语料库挖掘并提取汉语时间、数字、量词表达与翻译模式,实现了基于模板的时间、数字、无歧义量词翻译方法及基于上下文的有歧义量词翻译方法。时间、数字、无歧义量词、有歧义量词的翻译F值达到了93.23%、90.15%、96.55%、87.58%,实验证明,该方法具有简单高效的优点。
- 阿依古丽·哈力克艾山·吾买尔吐尔根·伊布拉音卡哈尔江·阿比的热西提买合木提·买买提
- 关键词:翻译规则翻译模板
- 基于CRF和半监督学习的维吾尔文命名实体识别被引量:14
- 2018年
- 目前,维吾尔文命名实体识别研究主要集中在单类实体,且没有引入半监督学习方法,从而无法利用未标注语料的无监督语义和结构信息。该文以条件随机场为基本框架,提出了一种基于半监督学习的维吾尔文命名实体识别方法。通过引入词法特征、词典特征、以及基于词向量的无监督学习特征,对比不同特征对识别的影响,并对模型进行优化。实验表明,CRF模型融合多种特征时维吾尔文命名实体识别的F值达到87.43%,说明词法特征和无监督学习特征的有机结合,可以大大减少人工选取特征的工作量,同时也可提高维吾尔文命名实体识别的性能;CRF模型相比于神经网络模型,更适合用于实际应用中。
- 王路路王路路艾山·吾买尔买合木提·买买提卡哈尔江·阿比的热西提
- 关键词:条件随机场半监督学习
- 基于Bi-LSTM-CRF模型的维吾尔语词干提取的研究被引量:6
- 2019年
- 词干提取是维吾尔语自然语言处理中的基础性研究,其提取质量直接影响其他任务的性能。但目前维吾尔语词干提取研究存在过度切分、不切分和歧义切分等问题,这些问题导致词干提取质量不高,对后续任务的性能影响较大。因此该文提出了基于Bi-LSTM-CRF的维吾尔语词干提取模型,将字符作为最小切分单位,选取维吾尔语字符特征、音类特征以及语音特征为候选特征,结合模型进行实验。实验表明,该文提出的Bi-LSTM-CRF模型在维吾尔语词干提取任务上,F1值达到了88%,在融入手工提取的候选特征之后,F1值提高了1.8个点,有效提高了词干提取的准确性,缓解了上述问题带来的影响。
- 古丽尼格尔·阿不都外力吐尔根·依布拉音卡哈尔江·阿比的热西提王路路
- 关键词:维吾尔语词干提取
- 基于Kinect的命名实体标注工具的研究与实现
- 2018年
- 目前语料库构建是自然语言处理技术的基础工作。但是通过传统的鼠标键盘进行长期操作对标注人员身体带来了一定的负面影响。为了避免鼠标键盘操作的弊端,将Kinect人体动作和命名实体标注工作有机结合,研究实现了基于Ki-nect的命名实体标注工具。实验结果表明,该工具不仅改善了标注人员标注方式,提高了标注效率。
- 阿里木·库尔班阿地拉吐热尼萨·麦麦提明解文琴吐尔根·依布拉音卡哈尔江·阿比的热西提
- 关键词:KINECT维吾尔语语料库建设
- CRF与规则相结合的维吾尔文地名识别研究被引量:9
- 2017年
- 该文通过维吾尔文地名的分析研究,提出了一种基于条件随机场和规则的维吾尔文地名识别方法。根据维吾尔文地名黏着性、音译等特点,针对维吾尔文地名识别任务,在词汇和词性特征基础之上,引入音节、词向量获取的相似单词、常用地名词典、地名特征词、地名词缀等特征进行实验,结果表明这些特征对识别性能有较大的影响。通过对错误识别结果分析,该文提出了基于规则的后处理,进一步提高了识别性能,准确率达到94.68%,召回率达到89.52%,F值达到92.03%。
- 买合木提·买买提卡哈尔江·阿比的热西提卡哈尔江·阿比的热西提吐尔根·依布拉音艾山·吾买尔
- 关键词:维吾尔文地名条件随机场
- 乌兹别克语词干提取算法的比较研究被引量:2
- 2020年
- 黏着语的自然语言处理中,词干提取作为一项基础的预处理任务,对其他任务的性能影响较大。现有的乌兹别克语词干提取任务仍依赖基于规则的方法,且实验效果不太理想。该文将乌兹别克语词干提取任务视为序列标注问题进行处理,以字符为最小单位进行切分,分别构建了基于条件随机场(CRF)和门控循环单元网络(Bi-GRU)的乌兹别克语词干提取模型。实验结果表明,基于序列标注的乌兹别克语词干提取模型与基于规则的方法相比不仅降低了人工成本,而且在性能方面有较为显著的提升。
- 吾买尔江·买买提明古丽尼格尔·阿不都外力买合木提·买买提卡哈尔江·阿比的热西提吐尔根·依布拉音
- 关键词:词干提取