Keywords:Python;The crawler;Proprietary information;HTML ;Scrapy ; Big data; Grasping algorithm 目录 摘要i Abstractii 目录iii 1绪论1 1.1研究背景与爬虫介绍1 1.2国内外研究
Keywords: Python;The crawler;Proprietary information;HTML ;Scrapy ; Big data; Grasping algorithm
目录
摘要 i
Abstract ii
目录 iii
1 绪论 1
1.1 研究背景与爬虫介绍 1
1.2 国内外研究现状与展望 1
1.3 研究内容 2
1.3.1 目的与内容 2
1.3.2 研究学习中的关键和重点问题: 3
2 相关理论及关键技术 4
2.1 关键模块BEAUTIFULSOUP的理解 4
2.2 SCRAPY爬虫框架 4
2.3 REQUESTS引用 6
2.4 HTTP协议解析 7
2.4.1 HTTP具有两种信息传输方式:: 7
2.4.2 三种资源指定: 7
2.5 以上方法中新增加有: 7
2.6 BEAUTIFULSOUP的具体运用: 8
2.7 正则表达式与模块REQUESTS 9
2.7.1 正则表达式 9
2.7.2 正则表达式操作 10
3 Python爬虫框架介绍 11
4 爬虫结构设计与第三方库调用 12
4.1 PYTHON爬虫的结构设计 12
4.2 准备开发环境 12
4.3 爬取网页与网页请求 13
4.4 URL管理器与下载器 13
4.5 请求头参数 15
4.6 数据存储器 16
5 程序设计和实验过程程序设计和实验过程 17
5.1 MYSQL数据库配置 17
5.1.1 MYSQL配置与登录 17
5.1.2 MYSQL库与表的简历和链接 18
5.2 PYTHON模块设计 19
5.2.1 doc建立 20
5.2.2 Login建立 20
5.2.3 HTMLParser与XPath 22
5.2.4 storage建立 24
5.2.5 主文件目录 24
6 实验结果分析 27
7 总结与未来展望 34
8 项目衍生和补缺 35
8.1 反爬虫设计了解 35
8.1.1 设计需求 35
8.1.2 反爬虫分类 35
8.1.3 反爬虫网址常用方法 35
8.2 SCRAPY的深层网络爬虫 36
8.2.1 深层网络爬虫研究目的 36
8.2.2 通过Scrapy实现深层网数据提取 36
8.2.3 通过传递Cookies获得数据 36
致谢 38
参考文献 39
1 绪论
本章节主要介绍了现阶段庞大网络数据中存在的一些问题,并简单地介绍了网络爬虫。
1.1 研究背景与爬虫介绍
网络爬虫,顾名思义可以理解为一个由数据收集器虚构的蜘蛛,在互联网中爬虫就像一个蜘蛛一样,遍布织网散落整个web,其中一些特定的爬虫就是运用主题网页的URL地址来登录网址。通过访问一个网页的源代码来开始向特定的方向延伸,通过有规律的变量进行爬取,为寻找下一个网页而生成与网站相连的链接,最后循环爬取直到整个系统设定的开端与结束截止,整个互联网就像一张巨大的网,每一个模块都几乎有办法相连,而爬虫就像在期间行走自如的蜘蛛,可以源源不断的获取需要的数据[1]。
但现在由于网络数据太过庞大,许多网站和抓取软件都不能进行一对一的抓取,导致数据的乱杂无章或是数据的不准确等原因,这也是我们研究此课题的原因,可以做到一对一的爬取所需数据,保证数据的实时更新并有效获取并整理数据。
此项目通过对Python在爬虫方面的应用来实现,同时关联数据库MYSQL,经过代码的编写即时爬取相关影视数据,对所选出的数据进行处理分析排名,用户可以即时查询到片源的基本信息和排名,从而快速的挑选出来。用户可以通过这个程序框架有效的找到自己想要观看的影视作品,在满满信息中迅速获取关键有效的那一些,python的特色就在于拥有urllib、urllib2等模块,这就是拥有众多的强大模块的python之所以被普遍运用的原因,在爬取方面是一个巨大的语言优势,作为python的开源框架模块,Scrapy在多个平台都具有强大的兼容性类似于Windows和Linux操作系统中都能有效的调用,因为有时候需要抓取的网页信息量很大,这时候就可以发挥出Scrapy的优势,为专门定制的爬虫提供有效的开源环境。
计算至今,在互联网上的网页数量已经以亿万计数,巨大的网络信息量在运用爬虫上面也是有巨大的挑战与苦难,大量的信息量需要数以万计的变量来定制特定的爬虫,同时对IP和服务器的需求也是远远大于供给,在web中URL的数量每年都在呈指数增加叠加,从而在庞大的网站中一个爬虫都需要消耗很多时间去爬取。