您的位置: 专家智库 > >

胡露露

作品数:1 被引量:2H指数:1
供职机构:中国科学院安徽光学精密机械研究所更多>>
发文基金:中国科学院战略性先导科技专项更多>>
相关领域:自动化与计算机技术更多>>

文献类型

  • 1篇中文期刊文章

领域

  • 1篇自动化与计算...

主题

  • 1篇信息抽取
  • 1篇正文
  • 1篇正文内容
  • 1篇正则
  • 1篇正则表达式
  • 1篇网页
  • 1篇网页结构
  • 1篇网页正文
  • 1篇抽取
  • 1篇抽取方法

机构

  • 1篇中国科学院
  • 1篇中国科学技术...

作者

  • 1篇刘小勤
  • 1篇孙凯
  • 1篇胡露露

传媒

  • 1篇大气与环境光...

年份

  • 1篇2017
1 条 记 录,以下是 1-1
排序方式:
基于正文特征和网页结构的网页正文抽取方法被引量:2
2017年
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。
胡露露刘小勤孙凯
关键词:信息抽取网页结构正则表达式
共1页<1>
聚类工具0