您的位置: 专家智库 > >

崔世起

作品数:4 被引量:52H指数:2
供职机构:中国科学院计算技术研究所更多>>
发文基金:国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术语言文字文化科学更多>>

文献类型

  • 2篇会议论文
  • 1篇期刊文章
  • 1篇学位论文

领域

  • 3篇自动化与计算...
  • 1篇文化科学
  • 1篇语言文字

主题

  • 2篇缩略
  • 2篇缩略语
  • 2篇自动抽取
  • 2篇新词
  • 2篇略语
  • 2篇抽取
  • 1篇语料
  • 1篇中文
  • 1篇中文新词
  • 1篇垃圾
  • 1篇大规模语料
  • 1篇大规模语料库

机构

  • 4篇中国科学院
  • 1篇中国科学院研...
  • 1篇中国科学院大...

作者

  • 4篇崔世起
  • 1篇于浩
  • 1篇孟遥
  • 1篇西野文人
  • 1篇刘群

传媒

  • 1篇计算机研究与...
  • 1篇全国第八届计...
  • 1篇全国第八届计...

年份

  • 2篇2006
  • 2篇2005
4 条 记 录,以下是 1-4
排序方式:
中文缩略语自动抽取初探
汉语中许多新生的词语都是短语的缩略形式。对缩略语的检测是未登录词识别的一部分,但用来作为训练语料的缩略语词典资源却很稀缺。本文提出一种在生语料中自动抽取中文缩略语的方法,首先获取候选缩略语集和源短语库,然后利用语言模型和...
崔世起刘群林守勋孟遥于浩西野文人
关键词:缩略语
文献传递
中文缩略语自动抽取初探
汉语中许多新生的词语都是短语的缩略形式.对缩略语的检测是未登录词识别的一部分,但用来作为训练语料的缩略语词典资源却很稀缺.本文提出一种在生语料中自动抽取中文缩略语的方法,首先获取候选缩略语集和源短语库,然后利用语言模型和...
崔世起刘群林守勋孟遥于浩西野文人
关键词:缩略语
文献传递
基于大规模语料库的新词检测被引量:40
2006年
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.
崔世起刘群孟遥于浩西野文人
关键词:新词
中文新词检测与分析
本文在基于词的串频统计基础上,利用语言学的知识把新词检测问题进行分类细化。首先利用熟语料训练得到垃圾串词典、垃圾头词典、垃圾尾词典、词缀字词典以及独立词概率等参数,然后针对不同模式的新词采取不同的垃圾串过滤算法,提高了新...
崔世起
文献传递
共1页<1>
聚类工具0