毛奇
- 作品数:2 被引量:15H指数:2
- 供职机构:南京大学计算机科学与技术系计算机软件新技术国家重点实验室更多>>
- 发文基金:国家高技术研究发展计划国家科技基础条件平台建设计划国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 一种基于共坐标上升算法的人名识别方法被引量:2
- 2010年
- 共坐标上升算法(coordinate ascent algorithm)是一种迭代优化技术,可以用来指导特征权值的训练。提出一种基于该算法的中国人名识别方法,避免了已有的一些方法中人为指定特征权值的问题,更好地体现特征之间存在的隐含关系。该方法从基础语料中获取特征库及成名概率词典,在训练语料上提取相应特征后,采用共坐标上升学习算法训练得到特征权重以及成名阈值参数,运用学习得到的各参数对普通文本中的中国人名进行识别。提出的方法无需对训练语料进行人工标注,在人名识别时也无需进行分词和词性标注处理,代价低、性能优良、有较好的实用性,在开放测试集上F1值达到93.02%。
- 戴播毛奇袁春风
- 关键词:人名识别
- 基于标点符号分割的汉语句法分析算法被引量:13
- 2007年
- 目前大部分句法解析器都忽略标点符号这一重要的句法特征或者只进行非常简单的处理。本文根据标点符号的句法结构特性,提出单独解析块的概念,并且根据标点符号在句子中的特有特征和位置关系,给出了基于决策树算法(Id3)单独解析块识别方法,将标点融入汉语句法分析中。本文所用的实验数据(包括训练集和测试集)均来自中文宾州树库5.0。对句长大于40个词的汉语长句单独进行了实验,句法分析精度和召回率分别提高1.59%和0.93%,同时时间开销降低了近2/3。实验结果表明,标点对汉语长句句法分析非常有利,系统性能获得了较大提高。
- 毛奇连乐新周文翠袁春风
- 关键词:计算机应用中文信息处理