小编给大家分享一下如何使用Python爬虫实现自动下载图片,希望大家阅读完这篇文章之后都有所收获,下面让我们一起去探讨吧!
python的数据类型:1. 数字类型,包括int(整型)、long(长整型)和float(浮点型)。2.字符串,分别是str类型和unicode类型。3.布尔型,Python布尔类型也是用于逻辑运算,有两个值:True(真)和False(假)。4.列表,列表是Python中使用最频繁的数据类型,集合中可以放任何数据类型。5. 元组,元组用”()”标识,内部元素用逗号隔开。6. 字典,字典是一种键值对的集合。7. 集合,集合是一个无序的、不重复的数据组合。
python爬虫支持模块多、代码简洁、开发效率高 ,是我们进行网络爬虫可以选取的好工具。对于一个个的爬取下载,势必会消耗我们大量的时间,使用Python爬虫就可以解决这个问题,即可以实现自动下载。
一、自动下载图片流程
1、总结网址规律,以便根据网址访问网页;
2、根据网址规律,循环爬取并返回网页;
3、利用正则表达式提取并返回图片。
二、使用Python爬虫实现自动下载图片步骤
1、导入相关包
import requests
import importlib
import urllib
import re
import os
import sys
importlib.reload(sys)
2、定义网页访问函数
cookie获得方式:正常访问此页面,鼠标右键检查或F12-在Network处查看自己的cookie,由于cookie很长且每个用户的cookie不同,故代码中将cookie省略了,读者可查看自己浏览器的cookie,将其加入代码中。
def askURL(url):
head = {
"Accept": "image/webp,image/apng,image/*,*/*;q=0.8",
"Accept-Language": "zh-CN,zh;q=0.9",
"Connection": "keep-alive",
"Cookie": " ",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/
71.0.3578.98 Safari/537.36"
}
s = quote(url, safe=string.printable) # 中文转utf8字符,否则会报ascii错
print(s)
request = urllib.request.Request(s, headers=head)
html = ""
try:
response = urllib.request.urlopen(request)
html = response.read().decode("utf-8")
print(html)
except urllib.error.URLError as e:
if hasattr(e, "code"):
print(e.code)
if hasattr(e, "reason"):
print(e.reason)
return html
3、提取图片并返回
根据返回的html网页可以看到,网页中包含图片的url共有四种类型,分别是objURL、middleURL、hoverURL和thumbURL,故利用正则表达式返回四种类型的链接并合并。
i = 1
def savePic(url):
global i #
html = askURL(url)
pic_url = re.findall('"objURL":"(.*?)",', html, re.S) # re.S表示让换行符包含在字符中
pic_url2 = re.findall('"middleURL":"(.*?)",', html, re.S)
pic_url3 = re.findall('"hoverURL":"(.*?)",', html, re.S)
pic_url4 = re.findall('"thumbURL":"(.*?)",', html, re.S)
result = pic_url2 + pic_url + pic_url4 + pic_url3
for item in result:
print("已下载" + str(i) + "张图片")
# 定义异常控制
try:
pic = requests.get(item, timeout=5)
except Exception:
print("当前图片无法下载")
continue
# 保存图片
string = 'D:/MyData/Python爬虫/图片/'+word+"/"+str(i)+".jpg"
fp = open(string, 'wb')
fp.write(pic.content)
fp.close()
i += 1
4、定义主函数
if __name__ == '__main__': # 主程序
word = input("请输入想要下载的图片:")
# 根据搜索的关键字判断存放该类别的文件夹是否存在,不存在则创建
road = "D:/MyData/Python爬虫/图片下载器/" + word
if not os.path.exists(road):
os.mkdir(road)
# 根据输入的内容构建url列表,此处只访问了四页验证效果
urls = [
'https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word='
+ word '.format(str(i)) for i in range(0, 40, 10)]
for url in urls:
print(url)
downloadPic(url)
print("下载完成!")
看完了这篇文章,相信你对“如何使用Python爬虫实现自动下载图片”有了一定的了解,如果想了解更多相关知识,欢迎关注亿速云行业资讯频道,感谢各位的阅读!
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
原文链接:https://www.py.cn/spider/example/23378.html