Python中怎么利用正则抓取数据,针对这个问题,这篇文章详细介绍了相对应的分析和解答,希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。
1、正则表达式基础
(1)一般字符
(2)预定义字符集
(3)数量词
(4)边界匹配
备注:最常用的一种匹配方式(.*?)代表匹配任意字符
2、re模块使用方法
re模块使得Python拥有全部的正则表达式功能。
常用函数1:search()函数匹配并提取第一个符合规律的内容,返回一个正则表达对象
常用函数2:findall()函数匹配所有符合规律的内容,并以列表的形式返回结果
备注:一般在爬取数据时候还是以findall使用居多
re模块修饰符
3、案例实践
案例名称:爬取《斗破苍穹》全文小说
网络链接:http://www.doupoxs.com/doupocangqiong/
爬取思路:
(1)打开网页,了解网页URL信息,通过打开第一章和第二章发现链接如下
http://www.doupoxs.com/doupocangqiong/1.html
http://www.doupoxs.com/doupocangqiong/2.html
http://www.doupoxs.com/doupocangqiong/3.html
明显链接通过数字递加来对每一章节进行分页。
(2)爬取全文信息,查找对应的位置如下
(3)数据存储到TXT文本中
4、详细代码如下:
import requestsimport reimport timeheaders={"User-Agent":请求头}f=open('doupo.txt','a+')def get_info(url): res=requests.get(url,headers=headers) if res.status_code==200: contents = re.findall('<p>(.*?)<p>',res.content.decode('utf-8'),re.S) for content in contents: f.write(content+'\n') print(content) else: passif __name__=='__main__': urls=['http://www.doupoxs.com/doupocangqiong/{}.html'.format(i) for i in range(2,10)] for url in urls: get_info(url) time.sleep(1) f.close()
运行结果如下:
关于Python中怎么利用正则抓取数据问题的解答就分享到这里了,希望以上内容可以对大家有一定的帮助,如果你还有很多疑惑没有解开,可以关注亿速云行业资讯频道了解更多相关知识。
亿速云「云服务器」,即开即用、新一代英特尔至强铂金CPU、三副本存储NVMe SSD云盘,价格低至29元/月。点击查看>>
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。
原文链接:https://my.oschina.net/u/4607696/blog/4702496