温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Python系列爬虫如何进行携程旅游景点数据爬取与可视化

发布时间:2021-10-09 16:24:25 来源:亿速云 阅读:848 作者:柒染 栏目:编程语言

今天就跟大家聊聊有关Python系列爬虫如何进行携程旅游景点数据爬取与可视化,可能很多人都不太了解,为了让大家更加了解,小编给大家总结了以下内容,希望大家根据这篇文章可以有所收获。

前言

今天我们就用爬虫携程旅游景点数据爬取与可视化并做简单的数据可视化分析呗。让我们愉快地开始吧~

开发工具

Python版本:3.6.4
相关模块:

bs4模块;

jieba模块;

pyecharts模块;

wordcloud模块;

requests模块;

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

数据爬取

首先,我们来明确一下我们想要爬取的数据是哪些,这里为了方便起见,我们只爬取北京市的旅游景点数据,如下图所示:

Python系列爬虫如何进行携程旅游景点数据爬取与可视化

即我们需要爬取的数据为北京市所有景点的名称,位置,评分等数据。明确了我们的爬取目标,就可以开始写代码啦~

代码实现起来其实也很简单,可以发现景点信息页的url变化规律如下:

'https://you.ctrip.com/sight/beijing1/s0-p页码.html#sightname'

那么我们只需要逐一请求所有相关网页,并借助bs4解析并提取我们需要的数据即可。同时,为了避免爬虫被封,我们每请求10次网页,就更换一个代理,代理来源则是网上爬取的免费代理。

具体而言,代码实现如下:

'''携程旅游景点爬虫'''

代码运行效果如下:

Python系列爬虫如何进行携程旅游景点数据爬取与可视化

All done~完整源代码详见个人简介或者私信获取相关文件。

数据可视化

老规矩,写完爬虫可视化一波数据,方便起见,还是用刚刚爬取的北京景点数据吧~

首先,把所有景点的位置信息做成词云看看?

Python系列爬虫如何进行携程旅游景点数据爬取与可视化

看看景点的评分分布呗:

Python系列爬虫如何进行携程旅游景点数据爬取与可视化

再来统计一下景区评级分布呗:

Python系列爬虫如何进行携程旅游景点数据爬取与可视化

其中,5A级景区有:

故宫

再来看看价格分布呗:

Python系列爬虫如何进行携程旅游景点数据爬取与可视化

最后看看评论最多的8个景区是啥如何?

Python系列爬虫如何进行携程旅游景点数据爬取与可视化


看完上述内容,你们对Python系列爬虫如何进行携程旅游景点数据爬取与可视化有进一步的了解吗?如果还想了解更多知识或者相关内容,请关注亿速云行业资讯频道,感谢大家的支持。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI