由于这个例子比较简单,所以这里我就省略掉分析请求的步骤了,直接来分析一下浏览器看到的效果与源码分别长什么样,找找有没有什么突破口吧。
这是浏览器看到的效果:
可以在源码中看到部分内容被
<span class="context_kwx"></span>
替换。
打开浏览器的
开发者模式
,看看隐藏的文字是什么样子的:
cdn.nlark.com/yuque/0/2020/webp/1313084/1589287177467-0a19a791-7fd1-4fc8-9664-92c0faf93a5b.webp">
第二个是下图中在返回时的判断语句,同样是对 Node 中不存在的属性进行判断,所以也需要在这里进行相应的修改。
第二个修改点可以像这样改:
以上两点修改完后就可以获取到所有被替换过的字符了,接下来只需要把它们替换进 HTML 里就可以还原出正常的页面。替换的步骤这里就不再演示了,因为非常简单,一看就会。当然反爬虫有很多的方法,这个只是其中一个,所以只是大概的讲述了下。但是不管使用什么方式采集数据都是一个长期的过程,所以需要配合代理才能更好的获取数据,而亿牛云提供的爬虫代理就能更好的助力我们进行数据采集,尤其是加强版,效果会更好。
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。