这篇文章给大家分享的是有关Python如何批量爬取某网站图片的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。
Requests re os time 如果没有安装的请自己安装一下,pycharm中打开终端输入命令就可以安装
IDE : pycharm
python 版本: 3.8.1
https://www.vmgirls.com/9384.html
-------------------废话不多说了,不懂的可以给我留言哦,接下来我们一步一步来操作------------------
1.请求网页
# 请求网页 import requests response=requests.get('https://www.vmgirls.com/9384.html') print(response.text)
发现请求到的是403,直接禁止了我们访问,requests库会告诉他我们是python过来的,他知道我们是一个python禁止我们反爬
解决:
我们可以伪装头,把头设置一下
# 请求网页 import requests headers={ 'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36' }response=requests.get('https://www.vmgirls.com/9384.html',headers=headers) print(response.request.headers)
执行结果:
这样头就伪装了
2.解析网页
# 请求网页 import requests import reheaders={ 'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36' }response=requests.get('https://www.vmgirls.com/9384.html',headers=headers) # print(response.request.headers) # print(response.text) html=response.text#解析网页urls=re.findall('<img alt=".*?">
结果:
可能对re.findall后面不太理解怎么来的,关键就是要找到图片的dom然后根据re库的一个匹配规则来匹配,要匹配的用(.*?)来表示,不需要匹配的用.*?来代替就可以了,
打开网址,按f12查看源码找到图片的代码
复制图片代码,打开网页源码按 ctrl+f 进行搜索,找到图片源码的位置
3.保存图片
具体可以看源码,我给这些图片创建了一个文件夹(需要os库),并且命了名,这样分类下次看小姐姐就比较容易找到啦
import time import requestsimport reimport osheaders={ 'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36' }response=requests.get('https://www.vmgirls.com/9384.html',headers=headers) # print(response.request.headers) # print(response.text) html=response.text# 解析网页# 目录名字dir_name=re.findall('<img alt="(.*?)">
感谢各位的阅读!关于“Python如何批量爬取某网站图片”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。