这篇文章主要为大家展示了“如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地”这篇文章吧。
每次当你爬取一篇文章时,不管是从csdn或者其他网站,基本内容都是保存在一个富文本编辑器中,将内容提取出来还是一个html,保存之后图片还在别人的图片服务器上。我今天要说的就是将图片保存之后并将它的src属性替换成本地的地址。并且以次替换,按照原文章排版顺序替换。
#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time : 2018/11/5 15:06# @Author : jia.zhao# @Desc : # @File : img_test.py# @Software: PyCharmimport urllib.requestimport redef getHtml(url): # 通过urllib去请求 page = urllib.request.urlopen(url) # 读取页面内容 html = page.read() return htmldef getImg(html): reg = r'src="(.+?\.jpg)" pic_ext' imgre = re.compile(reg) # Python3需要加的 html = html.decode('utf-8') # 找到所有匹配项 imglist = re.findall(imgre, html) x = 0 # 循环 for i in range(len(imglist)): # 保存图片 # urllib.request.urlretrieve(imgurl, 'img/%s.jpg' % x) # 根据每个图片的src的内容进行替换 html = re.sub(imglist[i], "G:/pachong/img/%s.jpg" % str(i), html) x += 1 print(html)html = getHtml("http://tieba.baidu.com/p/2460150866")print(getImg(html))
这个demo知识贴吧的一个帖子里的图片,大家可以依据自己的需求去更改此代码。
以上是“如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
原文链接:https://my.oschina.net/u/4080705/blog/4419383