Python异步加载怎么爬取图片

发布时间：2021-11-25 09:13:51 阅读：281 作者：iii 栏目：大数据

Python开发者专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

这篇文章主要讲解了“Python异步加载怎么爬取图片”，文中的讲解内容简单清晰，易于学习与理解，下面请大家跟着小编的思路慢慢深入，一起来研究和学习“Python异步加载怎么爬取图片”吧！

何为异步加载？

想理解异步加载技术，先要知道传统的网页是如何加载的，首先，传统的网页更新内容需要对整个页面进行刷新更新，资源浪费较大，但是现在常用的异步加载技术（AJAX：JavaScript和XML）指的就是一种交互式网页应用技术，如没有翻页，一致下滑可以不断更新网页部分数据信息，同时当前网页基础框架和网址等信息都不变指的就是异步加载技术，大大的节约了网络资源。

还有一种判断是否使用了异步加载的方法，就是通过查看数据是否在网页源代码中。

使用了异步加载的网页后，网页中的内容在HTML中是找不到文本信息的，这时候通过常规三大爬取库是抓不到信息的，因此需要逆向去寻找推导出来网页是如何加载数据的过程，这个过程就叫做逆向工程。

如何实现逆向工程？

Python异步加载怎么爬取图片

以Pexels网站为例，我们来看一下如何实现逆向工程：

打卡Chrome浏览器对应Pexels网站，右键检查，打开网页源代码，选择Network选项卡。
继续手动下滑网页，会发现XHR文件在不断加载更新，通过上图红框可以发现在固定变化的URL

https://www.pexels.com/search/book/?format=js&seed=&page=2&type=

https://www.pexels.com/search/book/?format=js&seed=&page=3&type=

https://www.pexels.com/search/book/?format=js&seed=&page=4&type=

尝试删除上述URL中的部分，得到

https://www.pexels.com/search/book/? page=2发现也可以返回正常的网页

Python异步加载怎么爬取图片

这样就逆向推导出来了真实的网页URL，也知道了网页的变化规律，可以开始进行数据爬取了。

由于Pexels图片网站设置了比较严格的反扒机制，后续我们来讲如何破解，我们用hippopx图片网站来进行实践练习，此网站也有大量精美免费无版权图片，大家可尝试看看。

详细代码如下：

import requestsfrom lxml import etreeimport osheaders={"accept": "xxxx","cookie": "xxxx","User-Agent": "xxxx","referer": "xxxx"}list=[]file='存储路径'url='https://www.hippopx.com/'html=requests.get(url,headers=headers)selector=etree.HTML(html.text)imgs=selector.xpath('//*[@id="flow"]/li/figure/a/img')for img in imgs:   photo=img.get('src')   list.append(photo)for item in list:   print(item)   data=requests.get(item,headers=headers)   fp= open(file+'/'+item.split('/')[-1],'wb')   fp.write(data.content)   fp.close()