丁玲
- 作品数:2 被引量:0H指数:0
- 供职机构:哈尔滨工业大学深圳研究生院更多>>
- 相关领域:自动化与计算机技术更多>>
- 关于领域语料库的研究
- 2014年
- 在网络信息愈加庞杂的背景下,分类技术被广泛的采用,但分类技术一般都需要标准的语料作为训练集,而这些语料往往是通过人工标注的方法来满足其标准性和准确性。这样开发周期相对较长、工作量大,而且不易改变分类。本文针对这一问题,研究如何根据各领域网站的本体结构从中获取语料并将这些语料按照给定的分类体系重新组织净化,最终获得高质量的分类语料库。
- 何焱丁玲
- 关键词:语料库本体结构
- 基于锚文本的领域语料库自动构建
- 随着互联网技术的飞速发展,不同领域网络信息的种类和组成形式愈加复杂,每个网站节点都具有复杂的分类体系结构,并且包含丰富的文本信息,如何将大量的文本信息标注到对应正确类别体系中,将标注好的文本集合构建成一个领域语料库,成为...
- 丁玲
- 关键词:锚文本网页结构
- 文献传递