您的位置: 专家智库 > >

刘秋水

作品数:3 被引量:8H指数:2
供职机构:大连理工大学电子科学与技术学院计算机科学与工程系更多>>
发文基金:国家自然科学基金更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇期刊文章
  • 1篇学位论文
  • 1篇会议论文

领域

  • 3篇自动化与计算...

主题

  • 2篇信息抽取
  • 2篇抽取
  • 1篇段落
  • 1篇段落结构
  • 1篇信息提取
  • 1篇信息熵
  • 1篇语义距离
  • 1篇数据流
  • 1篇频繁模式挖掘
  • 1篇频繁模式挖掘...
  • 1篇前缀
  • 1篇前缀树
  • 1篇网页
  • 1篇网页正文
  • 1篇流数据
  • 1篇模式挖掘算法
  • 1篇WEB信息
  • 1篇WEB信息抽...
  • 1篇DOM树

机构

  • 3篇大连理工大学

作者

  • 3篇刘秋水
  • 2篇孟军
  • 1篇姜军晓
  • 1篇王秀坤

传媒

  • 1篇计算机工程与...

年份

  • 1篇2009
  • 1篇2008
  • 1篇2007
3 条 记 录,以下是 1-3
排序方式:
节点频度和语义距离相结合的网页正文信息抽取被引量:6
2009年
提出了一种带有节点频度的扩展DOM树模型—BF-DOM树模型(Block node Frequency-Document Object Module),并基于此模型进行网页正文信息的抽取。该方法通过向DOM树的某些节点上添加频度和相关度属性来构造文中新的模型,再结合语义距离抽取网页正文信息。方法主要基于以下三点考虑:在同源的网页集合内噪音节点的频度值很高;正文信息一般由非链接文字组成;与正文相关的链接和文章标题有较近的语义距离。针对8个网站的实验表明,该方法能有效地抽取正文信息,召回率和准确率都在96%以上,优于基于信息熵的抽取方法。
孟军刘秋水王秀坤
关键词:信息提取语义距离
基于滑动窗口的流数据频繁模式挖掘算法
本文采用一种基于滑动窗口的流数据频繁模式算法 DSFP-SW(Data Stream Frequent Pattern based-on Sliding Window)进行批处理式挖掘。该算法将滑动窗口划分为几个基本的窗...
孟军姜军晓刘秋水
关键词:数据流前缀树
文献传递
Web信息抽取与网页摘要的研究与应用
准确地提取出网页的主题内容并生成文档摘要已经成为一个非常重要而有意义的研究方向。随着万维网的飞速发展,在Internet上形成了不计其数的以HTML网页形式存在的信息源,但是Web页面通常含有很多用户并不关心的信息,如广...
刘秋水
关键词:DOM树信息抽取信息熵段落结构
文献传递
共1页<1>
聚类工具0