Python爬虫抓取技术的门道

发布时间：2019-06-18 15:59:18 所属栏目：优化来源：千锋python学院

导读：副标题#e# web是一个开放的平台，这也奠定了web从90年代初诞生直至今日将近30年来蓬勃的发展。然而，正所谓成也萧何败也萧何，开放的特性、搜索引擎以及简单易学的html、css技术使得web成为了互联网领域里最为流行和成熟的信息传播媒介;但如今作为商业化软

基于webgl的检查

var canvas = document.createElement('canvas'); 
var gl = canvas.getContext('webgl'); 
var debugInfo = gl.getExtension('WEBGL_debug_renderer_info'); 
var vendor = gl.getParameter(debugInfo.UNMASKED_VENDOR_WEBGL); 
var renderer = gl.getParameter(debugInfo.UNMASKED_RENDERER_WEBGL); 
if(vendor == 'Brian Paul' && renderer == 'Mesa OffScreen') { 
 console.log('Chrome headless detected'); 
}

基于浏览器hairline特性的检查

if(!Modernizr['hairline']) { 
 console.log('It may be Chrome headless'); 
}

基于错误img src属性生成的img对象的检查

var body = document.getElementsByTagName('body')[0]; 
var image = document.createElement('img'); 
image.src = 'http://iloveponeydotcom32188.jg'; 
image.setAttribute('id', 'fakeimage'); 
body.appendChild(image); 
image.onerror = function(){ 
 if(image.width == 0 && image.height == 0) { 
 console.log('Chrome headless detected'); 
 } 
}

基于以上的一些浏览器特性的判断，基本可以通杀市面上大多数 Headless Browser 程序。在这一层面上，实际上是将网页抓取的门槛提高，要求编写爬虫程序的开发者不得不修改浏览器内核的C++代码，重新编译一个浏览器，并且，以上几点特征是对浏览器内核的改动其实并不小，如果你曾尝试过编译Blink内核或Gecko内核你会明白这对于一个“脚本小子”来说有多难~

更进一步，我们还可以基于浏览器的 UserAgent 字段描述的浏览器品牌、版本型号信息，对js运行时、DOM和BOM的各个原生对象的属性及方法进行检验，观察其特征是否符合该版本的浏览器所应具备的特征。

这种方式被称为浏览器指纹检查技术，依托于大型web站对各型号浏览器api信息的收集。而作为编写爬虫程序的进攻一方，则可以在 Headless Browser 运行时里预注入一些js逻辑，伪造浏览器的特征。

另外，在研究浏览器端利用js api进行 Robots Browser Detect 时，我们发现了一个有趣的小技巧，你可以把一个预注入的js函数，伪装成一个Native Function，来看看下面代码：

var fakeAlert = (function(){}).bind(null); 
console.log(window.alert.toString()); // function alert() { [native code] } 
console.log(fakeAlert.toString()); // function () { [native code] }

爬虫进攻方可能会预注入一些js方法，把原生的一些api外面包装一层proxy function作为hook，然后再用这个假的js api去覆盖原生api。如果防御者在对此做检查判断时是基于把函数toString之后对[native code]的检查，那么就会被绕过。所以需要更严格的检查，因为bind(null)伪造的方法，在toString之后是不带函数名的，因此你需要在toString之后检查函数名是否为空。

这个技巧有什么用呢?这里延伸一下，反抓取的防御者有一种Robot Detect的办法是在js运行时主动抛出一个alert，文案可以写一些与业务逻辑相关的，正常的用户点确定按钮时必定会有一个1s甚至更长的延时，由于浏览器里alert会阻塞js代码运行(实际上在v8里他会把这个isolate上下文以类似进程挂起的方式暂停执行)，所以爬虫程序作为攻击者可以选择以上面的技巧在页面所有js运行以前预注入一段js代码，把alert、prompt、confirm等弹窗方法全部hook伪造。如果防御者在弹窗代码之前先检验下自己调用的alert方法还是不是原生的，这条路就被封死了。

反爬虫的银弹

目前的反抓取、机器人检查手段，最可靠的还是验证码技术。但验证码并不意味着一定要强迫用户输入一连串字母数字，也有很多基于用户鼠标、触屏(移动端)等行为的行为验证技术，这其中最为成熟的当属Google reCAPTCHA，基于机器学习的方式对用户与爬虫进行区分。

基于以上诸多对用户与爬虫的识别区分技术，网站的防御方最终要做的是封禁ip地址或是对这个ip的来访用户施以高强度的验证码策略。这样一来，进攻方不得不购买ip代理池来抓取网站信息内容，否则单个ip地址很容易被封导致无法抓取。抓取与反抓取的门槛被提高到了ip代理池经济费用的层面。

机器人协议

除此之外，在爬虫抓取技术领域还有一个“白道”的手段，叫做robots协议。Allow和Disallow声明了对各个UA爬虫的抓取授权。

不过，这只是一个君子协议，虽具有法律效益，但只能够限制那些商业搜索引擎的蜘蛛程序，你无法对那些“野爬爱好者”加以限制。

写在最后

对网页内容的抓取与反制，注定是一个魔高一尺道高一丈的猫鼠游戏，你永远不可能以某一种技术彻底封死爬虫程序的路，你能做的只是提高攻击者的抓取成本，并对于未授权的抓取行为做到较为精确的获悉。

（编辑：常州站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/3

首页

为啥外链仍然是排名的	详解，百度冰桶算法，
什么叫做烽火算法，烽	浅聊简单搜索永无广告