温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Python异步加载怎么爬取图片

发布时间:2021-11-25 09:13:51 来源:亿速云 阅读:276 作者:iii 栏目:大数据

这篇文章主要讲解了“Python异步加载怎么爬取图片”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“Python异步加载怎么爬取图片”吧!

何为异步加载?

        想理解异步加载技术,先要知道传统的网页是如何加载的,首先,传统的网页更新内容需要对整个页面进行刷新更新,资源浪费较大,但是现在常用的异步加载技术(AJAX:JavaScript和XML)指的就是一种交互式网页应用技术,如没有翻页,一致下滑可以不断更新网页部分数据信息,同时当前网页基础框架和网址等信息都不变指的就是异步加载技术,大大的节约了网络资源。

        还有一种判断是否使用了异步加载的方法,就是通过查看数据是否在网页源代码中。

        使用了异步加载的网页后,网页中的内容在HTML中是找不到文本信息的,这时候通过常规三大爬取库是抓不到信息的,因此需要逆向去寻找推导出来网页是如何加载数据的过程,这个过程就叫做逆向工程。

如何实现逆向工程?

Python异步加载怎么爬取图片

以Pexels网站为例,我们来看一下如何实现逆向工程:

  1. 打卡Chrome浏览器对应Pexels网站,右键检查,打开网页源代码,选择Network选项卡。

  2. 继续手动下滑网页,会发现XHR文件在不断加载更新,通过上图红框可以发现在固定变化的URL

https://www.pexels.com/search/book/?format=js&seed=&page=2&type=

https://www.pexels.com/search/book/?format=js&seed=&page=3&type=

https://www.pexels.com/search/book/?format=js&seed=&page=4&type=

  1. 尝试删除上述URL中的部分,得到

https://www.pexels.com/search/book/? page=2发现也可以返回正常的网页

Python异步加载怎么爬取图片

        这样就逆向推导出来了真实的网页URL,也知道了网页的变化规律,可以开始进行数据爬取了。

        由于Pexels图片网站设置了比较严格的反扒机制,后续我们来讲如何破解,我们用hippopx图片网站来进行实践练习,此网站也有大量精美免费无版权图片,大家可尝试看看。

详细代码如下:

import requestsfrom lxml import etreeimport osheaders={"accept": "xxxx","cookie": "xxxx","User-Agent": "xxxx","referer": "xxxx"}list=[]file='存储路径'url='https://www.hippopx.com/'html=requests.get(url,headers=headers)selector=etree.HTML(html.text)imgs=selector.xpath('//*[@id="flow"]/li/figure/a/img')for img in imgs:   photo=img.get('src')   list.append(photo)for item in list:   print(item)   data=requests.get(item,headers=headers)   fp= open(file+'/'+item.split('/')[-1],'wb')   fp.write(data.content)   fp.close()

运行结果如下:

Python异步加载怎么爬取图片

存储图片如下:

Python异步加载怎么爬取图片

感谢各位的阅读,以上就是“Python异步加载怎么爬取图片”的内容了,经过本文的学习后,相信大家对Python异步加载怎么爬取图片这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI