才让加
- 作品数:60 被引量:130H指数:7
- 供职机构:青海师范大学计算机学院更多>>
- 发文基金:国家自然科学基金国家社会科学基金青海省科技厅基金更多>>
- 相关领域:自动化与计算机技术语言文字文化科学理学更多>>
- 基于深度学习的古汉语命名实体识别研究被引量:2
- 2020年
- 命名实体识别是自然语言处理的基础任务之一。而目前中文命名实体识别研究大多是面向现代汉语的,针对古汉语的这方面研究工作涉及较少。因此,本文以《战国策》为例,根据古汉语独特的子语言特征,利用网格长短期记忆(Lattice LSTM)神经网络构建命名实体识别模型以解决古汉语中的信息提取问题。实验结果表明,Lattice LSTM能够学会从语境中自动找到所有与词典匹配的词汇,以取得较好的命名实体识别性能。实验结果中的F1值达到92.16%。
- 卓玛措桑杰端珠才让加
- 关键词:神经网络模型古汉语命名实体识别条件随机场
- 藏药研究中信息化技术的适用性探讨
- 2009年
- 探讨信息化技术在藏药研究中的应用。针对文献数据信息化系统、藏药服用指导信息化系统和药效评价信息化系统,根据藏药科学体系复杂的特点,以及藏药效应评价多靶点的特征,探讨藏药研究中信息化技术的针对性和适用性。
- 童丽才让加
- 关键词:藏药信息化技术
- 自学习和回译的双向增强藏汉机器翻译方法
- 2024年
- 近年来在神经机器翻译框架内利用源端或目标端单语文本数据的工作机制引起了广泛关注和研究。在提出的众多方案中,回译被视为提高低资源神经机器翻译性能最有前景的方法之一。虽然该方法具有低廉的可操作性,但是其有效性在很大程度上依赖于利用现有双语平行数据训练的初始回译模型本身的性能。为改善藏汉对齐数据在规模上受限条件下的机器翻译性能,利用目标端单语数据,通过逐步接替式采用自学习和回译方法以改进反向和正向模型,使用20M句子规模的汉语单语数据,在藏汉神经机器翻译任务上,利用双向增强方法的正向和反向模型在测试集上的性能比只使用平行数据训练的Transformer模型分别增长了3.1和8.2个BLEU分值,证实了该方法的有效性。
- 桑杰端珠才让加
- 关键词:机器翻译神经网络回译自学习
- 神经网络藏文分词方法研究被引量:9
- 2018年
- 藏文分词是各类藏文自然语言处理的首要任务,藏文分词的性能直接影响下游的其他自然语言处理任务的性能。传统上多数研究者使用线性统计方法进行藏文分词的研究,但是此类方法需要大量人工设计的语言学特征。研究提出了一种藏文分词的神经网络构架,这种构架只需监督式训练的标注数据和无监督学习嵌入表示的未标注语料,而无需介入人工特征工程。通过对CNN、BiLSTM、和CRF三种网络的有效组合,使分词模型在测试数据集上的准确率、召回率和F1值分别达到了93.4%、94.2%和94.1%,超越了各类基准模型的表现。
- 桑杰端珠才让加
- 关键词:藏文分词神经网络CNNCRF
- 一道选择题的推广
- 2015年
- 本文通过对一道选择题的推广研究,给出了该类问题的一般解法,并揭示了m·→OA+n·→OB+p·→OC=0与S△BOC·→OA+S△COA·→OB+S△AOB·→OC=0问题的等价性实质.
- 才让加
- 面向汉藏机器翻译后处理的藏文虚词纠错模型被引量:8
- 2021年
- 机器翻译是自然语言处理的主要分支之一,在促进政治、经济、文化交流等方面起着重要作用。目前汉藏机器翻译质量还有待提高,汉文到藏文的译文中容易出现语法错误,尤其普遍存在藏文虚词的翻译错误。分析汉藏机器翻译译文中的藏文虚词错误类型,并究其自动纠错方法是提高汉藏机器翻译性能最有效的方法。在分析汉藏机器翻译译文中虚词错误类型的基础上,利用大规模藏文文本对Bert进行预训练。然后面向汉藏机器翻译译文中的虚词错误类型,针对性的对Bert预训练模型进行微调,以完成一种面向汉藏机器翻译后处理的Bert藏文虚词纠错模型的训练。经实验,模型的纠错准确率、召回率和F1值分别达95.64%,93.27%,94.44%,表明上述模型的藏文虚词纠错性能较好。
- 华果才让班玛宝桑杰端珠才让加
- 关键词:机器翻译
- 基于藏语语料库的词类分类方法研究
- 本文根据藏语语料库建设的实际需求,提出了一个基于语料库的藏语词类标注和分类方法,以其为藏语语料库建设提供一个可供参考的标准和方法。
- 才让加吉太加
- 关键词:藏语语料库词类语法信息
- 面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究被引量:18
- 2011年
- 双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。目前国内外已建立了各类汉英双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库。为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,需要对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础。主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术。最终研究结果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库。
- 才让加
- 关键词:对齐技术
- 基于数字实体特征的藏文问答数据集构建
- 2025年
- 藏文问答系统是藏语自然语言处理领域中具有广泛发展前景的研究方向之一。同时,藏文问答系统的发展面临着众多挑战。该文针对藏文问答数据集匮乏、人工数据集构建的低效问题,提出一种BERT-BiLSTM-CRF与先验知识相结合的数据集构建方法:首先,详细分析藏文数字实体的特征并在藏文数字实体分类的基础上,采用BERT-BiLSTM-CRF模型识别藏文数字实体,作为问答三元组(S,Q,A)中的答案(A),经测试,此方法在测试集上的F值可达84.67%;其次,利用藏文数字实体与疑问词间的先验对应关系,设计一种基于数字实体的藏文问题生成算法,以自动生成藏文问题(即问答三元组中的Q);最后,合并原文(S)、问题(Q)和答案(A)来构建三元组藏文问答数据集。通过该方法构建了规模为139786个问答三元组的藏文问答数据集,为进一步研究藏文问答系统奠定了数据基础。
- 官却才让杨毛加柔特班玛宝才让加
- 关键词:自然语言处理问答系统
- 基于图解析的端到端片段藏文语义角色标注方法
- 2025年
- 语义角色标注作为通往语义理解的重要途径,在机器翻译、信息抽取和问答系统中具有广泛的应用价值.本文通过借鉴英文和汉文中较为成熟的语义角色标注方法,在已有藏文语义标注体系和方法的基础上,提出一种基于图解析的端到端片段(span)藏文语义角色标注方法.该方法将基于片段的藏文语义角色标注转换成基于词的图解析任务,可分为语义角色标注到图的转换和图至语义角色标注的恢复两个阶段.第一阶段采用藏文预训练语言模型(TiUniLM)进行动态词嵌入,并通过引入谓词标识器P,自动指定谓词,然后通过设计"门控"机制长短时记忆网络(GM-LSTM)对时序特征进一步建模.第二阶段使用Viterbi约束解码,对不合法的图进行校正.最后,通过在TSRLD-Span上的实验表明,该方法在测试集上的最佳F1值可达89.69%,相比基线模型,性能具有显著提升,验证了该方法的有效性.
- 班玛宝罗鹏头旦才让头旦才让才让加才让加
- 关键词:片段