如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地

发布时间：2022-01-13 15:05:32 阅读：169 作者：小新栏目：大数据

Python开发者专用服务器限时活动，0元免费领，库存有限，领完即止！点击查看>>

这篇文章主要为大家展示了“如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地”，内容简而易懂，条理清晰，希望能够帮助大家解决疑惑，下面让小编带领大家一起研究并学习一下“如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地”这篇文章吧。

每次当你爬取一篇文章时，不管是从csdn或者其他网站，基本内容都是保存在一个富文本编辑器中，将内容提取出来还是一个html,保存之后图片还在别人的图片服务器上。我今天要说的就是将图片保存之后并将它的src属性替换成本地的地址。并且以次替换，按照原文章排版顺序替换。

#!/usr/bin/env python# -*- coding: utf-8 -*-# @Time    : 2018/11/5 15:06# @Author  : jia.zhao# @Desc    : # @File    : img_test.py# @Software: PyCharmimport urllib.requestimport redef getHtml(url):    # 通过urllib去请求    page = urllib.request.urlopen(url)    # 读取页面内容    html = page.read()    return htmldef getImg(html):    reg = r'src="(.+?\.jpg)" pic_ext'    imgre = re.compile(reg)    # Python3需要加的    html = html.decode('utf-8')    # 找到所有匹配项    imglist = re.findall(imgre, html)    x = 0    # 循环    for i in range(len(imglist)):        # 保存图片        # urllib.request.urlretrieve(imgurl, 'img/%s.jpg' % x)        # 根据每个图片的src的内容进行替换        html = re.sub(imglist[i], "G:/pachong/img/%s.jpg" % str(i), html)        x += 1    print(html)html = getHtml("http://tieba.baidu.com/p/2460150866")print(getImg(html))

这个demo知识贴吧的一个帖子里的图片，大家可以依据自己的需求去更改此代码。

以上是“如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注亿速云行业资讯频道！

亿速云「云服务器」，即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘，价格低至29元/月。点击查看>>

向AI问一下细节

如何使用python爬取网站文章将图片保存到本地并将HTML的src属性更改到本地

猜你喜欢

最新资讯

相关推荐

开发者交流群：

相关标签