刘宇
- 作品数:4 被引量:35H指数:2
- 供职机构:浙江大学软件学院更多>>
- 相关领域:自动化与计算机技术理学经济管理更多>>
- 基于Scrapy的深层网络爬虫研究被引量:29
- 2017年
- 随着大数据时代的到来,网络爬虫已经成为很普遍的技术,无论是做项目、科研、创业或者写论文,获得大量数据并且对数据进行分析都是必不可少的。但是目前存在深层网(Deep Web)的数据量是表层网(Surface Web)数据量的数百倍,乃至上千倍。传统的爬虫对表层网数据进行获取已经无法满足我们的需求,同时因为深层网数据通常没有各种复杂的标签结构等,使得其本身更加清晰,干净,故而我们深入研究深层网络爬虫是非常有必要的。本文将会通过Python的Scrapy爬虫框架,对深层网络爬虫进行研究,通过分析深层网络特点制定合适的Scrapy爬虫策略,最后通过实际操作,对指定的爬虫策略进行验证。
- 刘宇郑成焕
- 关键词:网络爬虫PYTHON
- 基于决策树算法的爬虫识别技术被引量:4
- 2017年
- 网络爬虫指的是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本^([1])。但是实际上爬虫还分为正规爬虫和非正规爬虫,所谓的正规爬虫就是通过正规途径和手段获取网站信息和数据,非正规爬虫又称为恶意爬虫,主要用于非法盗窃数据,给网站服务器增加负担以及偷窥一些敏感信息数据等。本文将会基于决策树算法设计一种新爬虫检测技术,并根据爬虫检测结果提供一些反爬机制,对恶意爬虫进行进行评屏蔽等,进而实现对网站和服务器以及部分数据,信息的保护,降低互联网资源重叠现象。
- 刘宇程学林
- 关键词:网络爬虫
- 基于Petri网的航班延误问题分析被引量:2
- 2017年
- 航班延误是指航班降落时间(航班实际到港挡轮挡时间)比计划降落时间(航班时刻表上的时间)延迟15分钟以上或航班取消的情况。航班延误问题是各个国家、各个航空公司高度重视的事情,因为它不仅仅会影响用户的出行安排、出行心情,也会影响到航空公司的效率,甚至是一个国家的名声。笔者将通过对数据的基础采集、系统整理进行层次分析,搭建了有色Petri模型以及时间Petri网模型,通过链式分析、波及分析等,制作出模型优化解决方案,综合性分析我国航班延误问题是否在全球范围内最严重以及造成航班延误的原因,最后提出相关的改进措施。
- 刘宇宋国宇郑成焕
- 关键词:航班延误时间PETRI网有色PETRI网层次分析
- 基于因子分析法对长吉珲高铁带动旅游经济发展进行研究
- 2017年
- 影响游客选择出游目的地的因素,包括交通因素、食宿因素、消费、娱乐设施、亲友意见、空间距离、旅游氛围、景观口碑8个。通过对每个因素评分和Matlab计算综合评定KMO数值为0.65,大于0.5,说明各指标间具备相关性,适合使用因子分析法进行分析,进而使用因子分析法对长吉珲高铁带动旅游经济发展进行相关研究。
- 刘宇郑成焕
- 关键词:目的地选择