何彦青
- 作品数:51 被引量:129H指数:7
- 供职机构:中国科学技术信息研究所更多>>
- 发文基金:国家自然科学基金国际科技合作与交流专项项目中日国际合作项目更多>>
- 相关领域:自动化与计算机技术文化科学语言文字医药卫生更多>>
- 基于“松弛尺度”的短语翻译对抽取方法被引量:6
- 2007年
- 短语对抽取是基于短语统计机器翻译方法的关键技术。当前广泛使用的Och提出的短语对抽取方法,过于依赖词对齐结果,因而只能抽取与词对齐完全相容的短语对。本文给出一种基于"松弛尺度"的短语抽取方法,对不能完全相容的短语对,结合词性标注信息和词典信息来判断是否进行抽取,放松"完全相容"的限制,可以保证为更多的源短语找到目标短语。实验表明,该抽取方法的性能比Och的方法有明显的改善和提高。
- 何彦青周玉宗成庆王霞
- 关键词:人工智能机器翻译统计机器翻译
- 文本信息的翻译方法、装置及终端设备
- 本申请涉及自然语言处理领域,公开了一种文本信息的翻译方法、装置、终端设备及计算机可读存储介质,其中,文本信息的翻译方法包括:对待翻译文本信息进行解析,确定待翻译文本信息的主题文本与版式信息;基于主题文本与版式信息,确定待...
- 石崇德何彦青许德山
- 文献传递
- 2015全国机器翻译研讨会ISTIC评测报告被引量:4
- 2016年
- 中国科学技术信息研究所(ISTIC)机器翻译研发工程历史悠久,几经变迁。本文在回顾ISTIC机器翻译发展历史的基础上,介绍了最近参加第十一届全国机器翻译研讨会机器翻译评测(简称CWMT’2015)系统的具体表现。CWMT’2015评比中,ISTIC参加了维汉、藏汉、蒙汉三个机器翻译评测项目。本文阐述了本单位机器翻译系统的实现框架以及实施细节,并分析了它们在评测数据上的性能表现。
- 何彦青孟令恩丁亮石崇德李颖王莉军孙瑶
- 关键词:机器翻译
- 基于领域知识库的科技术语信息匹配模型研究被引量:6
- 2019年
- 【目的/意义】全面分析中外科技文献可以把握当前某个领域或主题的研究热点和研究趋势,为了应对机器翻译在分析海量外文科技文献时存在的科技术语翻译'领域不一致'问题,需要对科技术语信息匹配进行研究。【方法/过程】提出了一种基于领域知识库的科技术语信息匹配模型,通过利用领域知识库构建领域多义术语词典,为科技术语匹配更多翻译候选,并结合语言学特征、领域信息以及LSTM语言模型来挑选最合适译文。【结果/结论】用化工领域的数据进行测试,验证模型的有效性,为深入分析外文文献中的技术理论提供了可靠又便捷的方法。
- 孙玥莹何彦青吴广印
- 关键词:信息匹配机器翻译领域知识库
- 句子对齐技术研究进展
- 近年来,由于统计方法在自然语言处理领域得到广泛运用,大规模语料库的作用得以凸显。其中,大规模的双语对齐语料库因为包含有两种不同语言之间的互译对照信息而在机器翻译、双语词典编撰、术语抽取、跨语言信息检索和计算机辅助翻译等自...
- 何彦青于薇王惠临
- 关键词:句子对齐词典机器翻译
- 基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法被引量:3
- 2022年
- 【目的】针对现有话题检测方法对数据内在结构信息利用不够充分的问题,提出基于共享最近邻和马尔科夫聚类的网络新闻话题检测方法,实现网络新闻话题的有效检测。【方法】通过综合考虑网络新闻间的共享最近邻个数、秩次等信息刻画新闻间的关联强度、构建共享最近邻图,并解决数据内在结构信息利用不充分的问题;利用降维、最优话题个数的决策、马尔科夫聚类、基于紧密中心度的自动话题描述等技术提升网络新闻话题检测效果。【结果】在两个网络新闻数据集上的实验结果表明,所提方法得到的ARI值更高,分别达到0.86和0.97。参与比较的LDA、K-Means、GMM等话题检测方法在两个网络新闻数据集上的ARI值均分别低于0.75和0.90。【局限】未在其他领域数据集以及多语言数据集上进一步验证。【结论】所提方法可以有效提升网络新闻话题检测性能,为话题检测关键技术研究提供有价值的参考。
- 吴振峰兰天王猛猛浦墨张昱刘志辉何彦青
- 关键词:共享最近邻网络新闻
- 引入源端信息的IPC和CLC类目自动映射研究
- 2025年
- 国际专利分类法(International Patent Classification,IPC)是专利文献分类和检索的国际标准;中国图书馆分类法(Chinese library classification,CLC)是我国图书期刊的大型综合性分类法。自动准确地建立IPC类目和CLC类目之间的映射对实现专利文献和图书期刊文献的跨库检索和交叉浏览有着重要的意义。针对当前研究中仅使用IPC中文译本类目描述文本来建立其与CLC类目之间的映射,完全忽略IPC原版英语类目描述文本信息的不足,该文提出了一种基于神经网络的IPC和CLC类目自动映射方法,通过引入源端信息(英语端信息)实现自动映射。首先分别通过预训练语言模型BERT和XLM-R生成IPC类目描述文本和CLC类目描述文本的词表征;然后利用多头注意力机制融合IPC类目的BERT模型词表征和XLM-R模型词表征,以及CLC类目的BERT模型词表征和XLM-R模型词表征,最后使用两个前馈神经网络层建立IPC类目和CLC类目之间的映射。在公开数据集上的实验结果表明,该文提出的方法显著优于当前最优方法,且其性能更稳定、泛化性更强。
- 钟易佳李茂西王倩黄琪何彦青
- 关键词:中国图书馆分类法
- 基于BERT和多相似度融合的句子对齐方法研究被引量:7
- 2021年
- 【目的】实现双语句子的自动对齐,为构建双语平行语料库、跨语言信息检索等自然语言处理任务提供技术支持。【方法】将BERT预训练引入句子对齐方法中,通过双向Transformer提取特征,每一个词汇由位置嵌入向量、单词嵌入向量、句子切分嵌入向量三种向量叠加表征词汇的语义信息,进而对源语言与译文、目标语言与译文实施双向度量,融合BLEU得分、余弦相似度和曼哈顿距离三种相似度进行句子对齐。【结果】通过两种任务验证方法的有效性。在平行语料库过滤任务中,召回率为97.84%;在可比语料过滤任务中,当噪声比率分别为20%、50%、90%时,精确率依次为99.47%、98.31%、95.00%。【局限】文本向量化与相似度计算方法可以采用更具有语义表征的方式进行改进。【结论】本方法在平行语料过滤和可比语料过滤两个任务中均优于基线系统,能够获得大规模、高质量的平行语料。
- 刘文斌何彦青吴振峰董诚
- 关键词:机器翻译句子对齐平行语料
- 中日两国机器翻译研究进展及比较被引量:3
- 2011年
- 机器翻译研究用计算机实现不同自然语言之间的翻译。自第一台计算机诞生开始,人们一直在研究和探索高质量高效率的机器翻译技术。近年来,基于规则的机器翻译、基于实例的机器翻译和基于统计的机器翻译这几种主要的翻译模式共同存在且相互补充,并有不断融合之势。随着中国和日本在科技、经济和文化交流的不断深入,机器翻译研究对于打破汉语和日语之间的语言壁垒进而推进中日两国各个领域的交流与合作具有重要的应用价值。中国和日本两国机器翻译研究人员已经开展了大量的汉日/日汉机器翻译的理论研究与系统研制,已取得了有效的成果,但距离大规模实际应用和高标准的翻译质量的要求尚有差距。为此,中日两国机器翻译人员有必要在汉日/日汉机器翻译技术与系统研制方面展开合作,特别是在对齐平行文本、实例词典、专业术语词典以及句法分析等共同课题方面展开合作。文章介绍了中日两国机器翻译研究的进展并加以比较,对中日两国在机器翻译领域的合作做了分析与展望。
- 张均胜何彦青李颖王惠临
- 关键词:机器翻译
- 机器翻译系统融合方法及其应用探究
- 2011年
- 多机器翻译系统融合技术能够对不同机器翻译系统的输出结果有效地进行融合,产生更好的翻译性能,因此该技术成为机器翻译研究领域的一个热点问题。文章介绍了中国科学技术信息研究所(ISTIC)参加第七届全国机器翻译研讨会机器翻译评测的情况。本单位参加了英汉科技领域的机器翻译评测项目。文章阐述了本单位机器翻译系统的实现框架以及实施细节,并分析了它们在评测数据上的性能表现,最后对机器翻译系统融合方法目前的现状进行讨论,并对该系统融合方法进行总结和展望。
- 何彦青石崇德于薇张均胜王惠临
- 关键词:机器翻译自然语言处理