您的位置: 专家智库 > >

于浩

作品数:1 被引量:40H指数:1
供职机构:中国科学院大学更多>>
发文基金:国家高技术研究发展计划更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇语料
  • 1篇新词
  • 1篇垃圾
  • 1篇大规模语料
  • 1篇大规模语料库

机构

  • 1篇中国科学院
  • 1篇中国科学院研...
  • 1篇中国科学院大...

作者

  • 1篇于浩
  • 1篇孟遥
  • 1篇西野文人
  • 1篇刘群
  • 1篇崔世起

传媒

  • 1篇计算机研究与...

年份

  • 1篇2006
1 条 记 录,以下是 1-1
排序方式:
基于大规模语料库的新词检测被引量:40
2006年
自然语言的发展提出了快速跟踪新词的要求.提出了一种基于大规模语料库的新词检测方法,首先在大规模的Internet生语料上进行中文词法切分,然后在分词的基础上进行频度统计得到大量的候选新词.针对二元新词、三元新词、四元新词等的常见模式,用自学习的方法产生3个垃圾词典和一个词缀词典对候选新词进行垃圾过滤,最后使用词性过滤规则和独立词概率技术进一步过滤.据此实现了一个基于Internet的进行在线新词检测的系统,并取得了令人满意的性能.系统已经可以应用到新词检测、术语库建立、热点命名实体统计和词典编纂等领域.
崔世起刘群孟遥于浩西野文人
关键词:新词
共1页<1>
聚类工具0