崔世起
- 作品数:4 被引量:52H指数:2
- 供职机构:中国科学院计算技术研究所更多>>
- 发文基金:国家高技术研究发展计划更多>>
- 相关领域:自动化与计算机技术语言文字文化科学更多>>
- 中文缩略语自动抽取初探
- 汉语中许多新生的词语都是短语的缩略形式。对缩略语的检测是未登录词识别的一部分,但用来作为训练语料的缩略语词典资源却很稀缺。本文提出一种在生语料中自动抽取中文缩略语的方法,首先获取候选缩略语集和源短语库,然后利用语言模型和...
- 崔世起刘群林守勋孟遥于浩西野文人
- 关键词:缩略语
- 文献传递
- 中文缩略语自动抽取初探
- 汉语中许多新生的词语都是短语的缩略形式.对缩略语的检测是未登录词识别的一部分,但用来作为训练语料的缩略语词典资源却很稀缺.本文提出一种在生语料中自动抽取中文缩略语的方法,首先获取候选缩略语集和源短语库,然后利用语言模型和...
- 崔世起刘群林守勋孟遥于浩西野文人
- 关键词:缩略语
- 文献传递
- 基于大规模语料库的新词检测被引量:40
- 2006年
- 自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.
- 崔世起刘群孟遥于浩西野文人
- 关键词:新词
- 中文新词检测与分析
- 本文在基于词的串频统计基础上,利用语言学的知识把新词检测问题进行分类细化。首先利用熟语料训练得到垃圾串词典、垃圾头词典、垃圾尾词典、词缀字词典以及独立词概率等参数,然后针对不同模式的新词采取不同的垃圾串过滤算法,提高了新...
- 崔世起
- 文献传递