孙凯
- 作品数:3 被引量:9H指数:2
- 供职机构:中国科学技术大学信息科学技术学院自动化系更多>>
- 发文基金:国家自然科学基金中国科学院战略性先导科技专项更多>>
- 相关领域:自动化与计算机技术天文地球更多>>
- 一种基于词素媒介的汉蒙统计机器翻译方法被引量:2
- 2017年
- 汉蒙语形态差异性及平行语料库规模小制约了汉蒙统计机器翻译性能的提升。该文将蒙古语形态信息引入汉蒙统计机器翻译中,通过将蒙古语切分成词素的形式,构造汉语词和蒙古语词素,以及蒙古语词素和蒙古语的映射关系,弥补汉蒙形态结构上的非对称性,并将词素作为中间语言,通过训练汉语—蒙古语词素以及蒙古语词素-蒙古语统计机器翻译系统,构建出新的短语翻译表和调序模型,并采用多路径解码及多特征的方式融入汉蒙统计机器翻译。实验结果表明,将基于词素媒介构建出的短语翻译表和调序模型引入现有统计机器翻译方法,使得译文在BLEU值上比基线系统有了明显提高,一定程度上消解了数据稀疏和形态差异对汉蒙统计机器翻译的影响。该方法是一种通用的方法,通过词素和短语两个层面信息的结合,实现了两种语言在形态结构上的对称,不仅适用于汉蒙统计机器翻译,还适用于形态非对称且低资源的语言对。
- 杨振新李淼陈雷卫林钰陈晟孙凯
- 关键词:中间语言词素统计机器翻译
- 基于气温和DC-BP-NN的河西走廊月度ETo估算模型被引量:5
- 2015年
- 针对参考作物蒸散量(Reference crop evapotranspiration,ETo)估算模型中,标准估算模型——FAO PenmanMonteith(FAO-PM)模型需要充分的气象数据,而基于气温的估算模型精度不足的问题,参考FAO-PM模型结构,基于气温和月序数,融合分治法(Divide and conquer,DC)和误差反向传播神经网络(Back propagation neural network,BP-NN),提出了一种采用DC-BP-NN的月度ETo估算模型;以FAO-PM模型计算的ETo为标准,利用河西走廊酒泉气象站1958年1月—2013年9月的月度气象数据,将DC-BP-NN模型与其余6种基于气温的ETo估算模型(Blaney-Criddle模型、Hargreaves-Samani模型、2种改进的Hargreaves-Samani模型、BP-NN模型、BP-NN1模型)进行对比。结果表明,DC-BP-NN模型的估算精度(均方根误差5.99 mm/月,平均偏差0.99 mm/月,平均绝对百分误差7.18%,决定系数0.988 6)优于其余6种ETo估算模型,该模型可以用于河西走廊农田气象数据不充分条件下的月度ETo估算。
- 陈晟李淼陈雷杨振新孙凯
- 关键词:参考作物蒸散量分治法
- 基于正文特征和网页结构的网页正文抽取方法被引量:2
- 2017年
- Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。
- 胡露露刘小勤孙凯
- 关键词:信息抽取网页结构正则表达式