国家自然科学基金(60473140)
- 作品数:4 被引量:67H指数:3
- 相关作者:朱靖波王会珍陈文亮姚天顺朱慕华更多>>
- 相关机构:东北大学更多>>
- 发文基金:国家自然科学基金教育部“新世纪优秀人才支持计划”国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术更多>>
- 基于谓词驱动模板的汉日机器翻译方法
- 本篇文章通过对汉语中谓词以及结构辅助词的分析研究提出了一种基于谓词驱动模板的机器翻译方法。谓词驱动模板方法将谓词以及结构辅助词固化在模板中,实现句子级的结构精确匹配,从而在模板库中找到最适合的翻译模板进行翻译。根据汉语中...
- 陈晴姚天顺张俐姜涛石磊李彦丹肖桐
- 关键词:谓词
- 文献传递
- 基于主动学习的自适应话题追踪
- 针对话题追踪任务中话题漂移现象带来的问题,本文提出了一种基于主动学习的自适应技术ATAL。该技术采用基于流的主动学习框架,无监督地通过话题向量转移和特征权值调整两种方式自适应的更新话题模型。在更新话题模型的过程中,尝试确...
- 王会珍张希娟朱靖波张斌
- 关键词:特征权值
- 文献传递
- 主动学习中后验概率尖锐现象的平滑处理
- 在主动学习中,朴素贝叶斯分类器的后验概率尖锐现象严重影响对候选朱标样本信息量的正确评估, 降低基于不确定性的采样机制的性能。为了解决朴素贝叶斯分类器后验概率尖锐的问题,本文提出了一种采样平滑技术,对朴素贝叶斯分类器的后验...
- 张希娟朱靖波
- 关键词:朴素贝叶斯分类器
- 文献传递
- 应用支持向量机进行中文分词
- 本文首次使用SVM方法来完成中文分词的任务,使用上下文窗体属性和基于规则的属性对样本进行刻画。在实验中我们发现上下文窗体的长度及多项式核函数的参数d对实验性能影响很大。选取较多的上下文信息并不能使分类效果提高,在一定程度...
- 任飞亮石磊姚天顺
- 关键词:支持向量机中文分词
- 文献传递
- 基于多层次特征集成的中文实体指代识别被引量:3
- 2007年
- 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件随机场模型的特征集成能力,综合使用字符、拼音、词及词性、各类专名列表、频次统计等各层次特征提高识别性能。本文利用流水线框架,分三个阶段标注实体指代的各项信息。基于本方法的指代识别系统参加了2007年自动内容抽取(ACE07)中文EMD评测,系统的ACE Value值名列第二。
- 张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
- 关键词:计算机应用中文信息处理条件随机场模型
- 基于改进型Dotplotting的文本分割模型
- Dotplotting是文本分割领域的著名算法,本文在对Dotplotting算法改进的基础上,提出了 MMS模型。原始的Dotplotting算法仅考虑了语义段落间相似度来进行分割,而MMS模型综合考虑语义段落内部相似...
- 叶娜罗海涛郑妍朱靖波张斌
- 关键词:文本分割
- 文献传递
- 基于二维动态规划的文本分割模型
- 本文提出一种全局优化的文本分割模型,其中设计了基于语段内部词汇相似度、语段间词汇相似度和语段长度的分割方式评价函数,并采用二维动态规划来寻找全局最优解。模型基于如下假设:语段内部词汇相似度越大,语段间词汇相似度越小,语段...
- 叶娜郑妍朱靖波张斌
- 关键词:文本分割
- 文献传递
- 基于多层次特征集成的中文实体指代识别
- 实体指代识别(Entity Mention Detection,EMD)是识别文本中对实体的指代(Mention)的任务,包括专名、普通名词、代词指代的识别。本文提出一种基于多层次特征集成的中文实体指代识别方法,利用条件...
- 张海雷曹菲菲陈文亮任飞亮王会珍朱靖波
- 关键词:条件随机场模型
- 文献传递
- 基于词分布的初始点选取方法
- 本文选用动态聚类算法对汉语的词进行同义词聚类分析。在该任务中,为了改善初始点给动态聚类算法全局最优性造成的严重影响,本文提出了一种根据词在文本类别中的分布选择初始点的方法。此方法在k-均值和k-中心点这两种典型的动态聚类...
- 季铎朱靖波
- 关键词:词聚类
- 文献传递
- 基于二部图最大匹配的汉日词对齐
- 该文提出了基于二部图的词对齐模型:利用二部图为双语句对建模,利用词形、语义、词性和共现等信息计算单词间的相似度,利用加权二部图最大匹配获得最终对齐结果。实验表明,该方法在一定程度上解决了当前很多词对齐方法存在的未登录词问...
- 吴宏林刘绍明
- 关键词:词对齐二部图
- 文献传递