2025年11月19日
星期三
|
欢迎来到三亚市图书馆•公共文化服务平台
登录
|
注册
|
进入后台
[
APP下载]
[
APP下载]
扫一扫,既下载
全民阅读
职业技能
专家智库
参考咨询
您的位置:
专家智库
>
>
胡露露
作品数:
1
被引量:2
H指数:1
供职机构:
中国科学院安徽光学精密机械研究所
更多>>
发文基金:
中国科学院战略性先导科技专项
更多>>
相关领域:
自动化与计算机技术
更多>>
合作作者
孙凯
中国科学技术大学信息科学技术学...
刘小勤
中国科学院安徽光学精密机械研究...
作品列表
供职机构
相关作者
所获基金
研究领域
题名
作者
机构
关键词
文摘
任意字段
作者
题名
机构
关键词
文摘
任意字段
在结果中检索
文献类型
1篇
中文期刊文章
领域
1篇
自动化与计算...
主题
1篇
信息抽取
1篇
正文
1篇
正文内容
1篇
正则
1篇
正则表达式
1篇
网页
1篇
网页结构
1篇
网页正文
1篇
抽取
1篇
抽取方法
机构
1篇
中国科学院
1篇
中国科学技术...
作者
1篇
刘小勤
1篇
孙凯
1篇
胡露露
传媒
1篇
大气与环境光...
年份
1篇
2017
共
1
条 记 录,以下是 1-1
全选
清除
导出
排序方式:
相关度排序
被引量排序
时效排序
基于正文特征和网页结构的网页正文抽取方法
被引量:2
2017年
Web信息抽取技术一直是信息技术领域的研究热点。而且,近年来,DIV+CSS的网页布局方法开始普遍应用于网页设计中。基于此,提出了一种较为简单和实用的基于正文特征和网页结构的新闻网页正文抽取方法。首先识别和提取网页正文内容块,然后利用正则表达式滤除内容块中的HTML标记并提取网页正文。实验结果表明,该方法对正文抽取具有较高的通用性与准确率。
胡露露
刘小勤
孙凯
关键词:
信息抽取
网页结构
正则表达式
全选
清除
导出
共1页
<
1
>
聚类工具
0
执行
隐藏
清空
用户登录
用户反馈
标题:
*标题长度不超过50
邮箱:
*
反馈意见:
反馈意见字数长度不超过255
验证码:
看不清楚?点击换一张