您的位置:首页 >新闻资讯 > 正文

动态代理IP爬虫前期准备

来源:互联网 作者:admin 时间:2019-10-18 16:19:07

  爬虫需要做哪些准备工作呢?如果想要爬虫获得好的效果,只是靠编写好的爬虫程序是不够的,因为你的程序很有可能刚进行就被网站的反爬虫策略给封了。


  所以,在我们进行爬虫之前,需要做以下准备工作。


动态代理IP爬虫前期准备


  (一)反爬虫策略分析:


  (1)单个ip不带cookie访问多次,ip不一会被封


  (2)首次访问返回cookie值,带同一个cookie值连续访问,几分钟被封;带不同cookie值访问,大约十分钟之后,IP还是被封了。


  (3)单个ip低速访问(10s以上),不会被封


  (二) 爬虫策略分析:


  简单来说,有这么几个防止反爬方法:


  带随机User Agent:最简单,新手也都会


  设置爬取间隔时间: 简单,但是大大降低效率


  带可用cookie:可难可容易找规律,会需要带上一些认证或者解密的数值去计算


  使用代理:简单粗暴有效,但是维护代理是个问题


  由于单个ip怎么样都会被封,所以我投向了代理的怀抱,常见的有代理IP如ET代理


  爬虫策略大致如下:


  三个随机:随机UA,随机代理,随机cookie


  对于使用免费代理:


  可以参考git上的一个开源项目:jhao104/proxy。用了几个类似的,感觉这个是最好的,它主要用flask做了一个api来实时刷新可用ip,不仅可以抓取各大主流免费代理ip,还能定时检验ip的可用性。但是这个项目还是有一个问题,比如当我设定抓取的间隔为10秒之后,执行任务的时间可能大于10s,会报一个warning引发整个程序暂停。


  对于使用付费代理:


  如果想要保证爬虫的质量,大家可以选择高质量的付费代理IP。


  以上准备就是爬虫前的准备工作,之后就是爬虫程序的编写了。


相关文章内容简介