本文和现阶段部分爬虫都是以上多种爬虫的结合。 1.2国内外研究现状与展望 随着“互联网+”这个概念的普及,再加上信息在网络汇总的爆发性增长,传统
本文和现阶段部分爬虫都是以上多种爬虫的结合。
1.2 国内外研究现状与展望
随着“互联网+”这个概念的普及,再加上信息在网络汇总的爆发性增长,传统的系统和搜索引擎都存在一个严重的问题,就是大量的信息获取导致内容的偏差逐步增加,提升了爬取难度的同时也会出现很多无关的信息。因此,许多改进的爬虫可以整理提取和一些机械性的整理工作。
目前较流行的国内外搜索引擎有百度、Google、Yahoo、Infoseek、Inktomi、Teoma、LiveSearch等。
爬虫在开发中会遇到很多受阻挠的问题,例如很多网站存在一些反爬虫设置,通过IP的限制和强制登录退出来阻止我们访问界面。
现在国内外已经拥有很多出色的爬虫,这些爬虫的研究可以帮助我们在各个领域快速的获取信息,这个世界从古至今都是依靠数据活着,在古代可能是通过烽火来传递信息而到了现在我们已经有很多的方法去沟通和交流,对个人也好国家也好甚至世界,信息的收集是永远不能小视的,这是一个大数据的时代,而在未来互联网+的概念会更加深入的进入人们的视野从而影响我们的生活,在以后的生活中爬虫带给我们的利益将会被放大,许多研究已经表明,信息获取的速度可以提升整体人类学习和认知的广泛。
1.3 研究内容
本节主要介绍了课题的目的与内容,介绍了课题中的关键和难点的地方。
1.3.1 目的与内容
通过本次对爬虫的学习能有效的了解python的核心内容和关键技术,类似于Scrapy和很多开源的框架的学习对之后的运用也会起到关键的作用。
通过实现原型程序来探索爬虫的框架和需要学习的方向,从而调整自己学习的思路,从设计到实现,真正做到了解python了解现代的网络爬虫。并针对特定的主题制作专一的爬虫实现高效及时。
用正则表达式将一个URL连接中的特定信息进行分析提取,找到每个影片在网页源中的特定规律从而进行相关信息的提取和整理。
此爬虫依靠影视网站豆瓣来爬取相关信息,并以影视为特定主题来设计整体的框架和程序源。
为了用多个变量来打开加密网页,现将python伪装成为自动登录的页面。
利用python自带的模块库类似requests和urllib[2]
通过正则提取信息,经过联动将信息存入本地和MYSQL数据库中。
通过运用python经典的框架来撰写本次的爬虫,经过代码的编写即时爬取相关影视数据,对自动将排名信息列出,同时存入本地MYSQL,分类收集信息,利用可视化工具对数据进行观察修改。具体要做到和实现如下功能:
1.通过观察网站URL来实现不同主体
2.提升捕获数据能力
3.网页内容分辨实现
4.主体的有用性
5.关于对线程并发的处理。
6.对于缓存和并发请求的处理
7.对反扒机制的应对
8.对于网络时延等的处理。
9.对于数据的存储格式与形式
1.3.2 研究学习中的关键和重点问题:
1.在爬取网站中会遇到众多反爬虫设计,类如封锁IP,被迫登出,停止访问,通过解密和间接网页访问是爬取数据的关键。
2.解决URL重复问题也是一个难点。在信息庞大的网页中有效的并快速地提取数据也是编程的难点。
3.多线程并发实现,根据本身CPU和服务器的资源设计相应的框架和模块运用。
4.首先由于网络数据太过庞大,可能会出现一定的误差和抓取的难度,其次许多网站具有相对严格的网络安全协议,不能简单的抓取到数据,可能会被许多网站拒绝访问,从而造成数据缺失和数据错误,最后要保证程序运行的即时性和同步效果需要很精巧的算法和深厚的编程知识,这也是本课题最终的目的和最难的一点,从开题角度只能大概估测一些易见的难点和核心,在研究的过程中可能出现若干问题和错误,希望在实验和测试中加以改正,完成课题。