温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

Python怎么爬取安居客租房数据并设置排除自己条件以外的数据

发布时间:2021-10-26 09:20:03 来源:亿速云 阅读:225 作者:柒染 栏目:大数据

本篇文章给大家分享的是有关Python怎么爬取安居客租房数据并设置排除自己条件以外的数据,小编觉得挺实用的,因此分享给大家学习,希望大家阅读完这篇文章后可以有所收获,话不多说,跟着小编一起来看看吧。

前言

小编可能准备去深圳,需要租房子,在网上先查了查,有很多租房软件,安居客,贝壳等,也向身边的人问了问,安居客听到的次数多一些,于是选择安居客去查看一些租房信息。

在浏览过程中,虽然安居客有过滤标签,按价格,区域,房型,类型这四个来过滤的,但感觉还是不是理想中的信息,而且特别多,看不过来。

所以小编决定使用 python 爬取上面的数据,并自己设置过滤条件,从很多房源中过滤出自己需要的房源,既提高效率,又能找到比较理想的。.

Python怎么爬取安居客租房数据并设置排除自己条件以外的数据

Python怎么爬取安居客租房数据并设置排除自己条件以外的数据

区域因为不太了解每个行政区的范围,所以不知道每个区域的距离,只选择某个区又太单一了,不能了解整体,所以区域选择默认的全部标签。

一页有 60 条数据,有 50 页,可以得到 3000 条数据,这些足够了,多了也看不过来。

爬虫的逻辑是不难,从第一页一直到最后一页,先爬取每一页房源链接,从爬取房源链接中的详细信息。

主要爬取标题,房屋信息,房屋有的设施,房源概况:

Python怎么爬取安居客租房数据并设置排除自己条件以外的数据

核心代码如下:

Python怎么爬取安居客租房数据并设置排除自己条件以外的数据

第二个问题就是会遇到验证码,可能是点击字体的,可能是滑块,很麻烦,所以这个小编是在程序中判断是否出现验证码。

出现验证码程序会输出提示,手动点击验证码后,按回车继续爬取,在爬取过程中小编只遇到过一次验证码。

其他的逻辑比较简单,感兴趣的参考源码即可。

 数据过滤

获得数据就可以自己设置过滤条件了,因为小编需要知道每条房源在哪里,先构造每条房源的区域:

Python怎么爬取安居客租房数据并设置排除自己条件以外的数据

Python怎么爬取安居客租房数据并设置排除自己条件以外的数据

标签中如果有【号线】代表有地铁几号线,那概况中应该也会提到地铁要不然让人怀疑是骗人的,所以以这两个进行过滤,2000 多条一下就过滤剩下 500 多条:

Python怎么爬取安居客租房数据并设置排除自己条件以外的数据

过滤后一下剩下 200 多条,还是有点多,现在是包含所有区域的:

Python怎么爬取安居客租房数据并设置排除自己条件以外的数据

小编抽取了几条数据,点开链接,大部分还是都能接受。为了点题,现在的我应该表示很伤心。

以上就是Python怎么爬取安居客租房数据并设置排除自己条件以外的数据,小编相信有部分知识点可能是我们日常工作会见到或用到的。希望你能通过这篇文章学到更多知识。更多详情敬请关注亿速云行业资讯频道。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI