温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

python spider成交数据及在售数据爬取方法是什么

发布时间:2022-01-12 15:57:39 来源:亿速云 阅读:138 作者:iii 栏目:大数据

今天小编给大家分享一下python spider成交数据及在售数据爬取方法是什么的相关知识点,内容详细,逻辑清晰,相信大部分人都还太了解这方面的知识,所以分享这篇文章给大家参考一下,希望大家阅读完这篇文章后有所收获,下面我们一起来了解一下吧。

目录结构:

python spider成交数据及在售数据爬取方法是什么


  • HomeLinkTest : Android 工程(用于破解链家App签名验证内容)


  • jsonSource: 链家客户端json传内容样本,包含(成交商品列表页,成交商品详情页,成交商品更多内容页)(在售商品列表页,在售商品详情页,在售商品更多内容页)


  • spider:链家爬虫脚本(python脚本)(爬取PC端在线数据,移动端在售数据和成交数据)




实现功能:

一. web界面爬取

爬取web界面在售内容 https://bj.lianjia.com/ershoufang/ 仅爬取在售内容(使用正则表达式进行内容匹配,进行结果输出)(常用爬虫方法,分析界面html进行内容获取,使用动态代理伪装客户端进行访问具体内容进参考代码)

python LianjiaSpider/spider/salingInfoSpider.py

使用代理服务器(开源地址):

https://raw.githubusercontent.com/fate0/proxylist/master/proxy.list

(工程内代理服务器内容可用于其他工程)
进行代理服务器设置,抓取到内容后进行相对目录excle目录内容存储,运行图如图所示:
(输入页数为链家PC页面当前第几页内容)

python spider成交数据及在售数据爬取方法是什么


爬取结果图如图所示(在相对salingInfoSpider.py目录生成LianJiaSpider.xls excle表格):


python spider成交数据及在售数据爬取方法是什么



python spider成交数据及在售数据爬取方法是什么

二.移动端数据爬取(在售,成交)

基于链家app:https://bj.lianjia.com/ 针对其签名校验进行破解

获取对应的json内容,进行自动爬取(仅做技术交流,请勿进行商业应用或其他侵权行为)

  • 在售数据爬取:


python LianjiaSpider/spider/zaishou/zaiShouSpider.py
 

设置爬取页数和一页多少数据


python spider成交数据及在售数据爬取方法是什么


结果生成在同级目录中生成excle,如图所示:


python spider成交数据及在售数据爬取方法是什么


成交数据爬取:


python LianjiaSpider/spider/zaishou/chengJiaoJiaSpider.py
 

修改全局设置,注销手动输入,或使用手动输入:


python spider成交数据及在售数据爬取方法是什么


chengJiaoJiaSpider.py中可设置爬取页数,其实位置,从第0页开始,所以是-100开始


成交数据如图所示:

python spider成交数据及在售数据爬取方法是什么


python spider成交数据及在售数据爬取方法是什么


  • 在售及成交数据自动爬取:

python LianjiaSpider/spider/Spider_Thread_Manager.py

以上就是“python spider成交数据及在售数据爬取方法是什么”这篇文章的所有内容,感谢各位的阅读!相信大家阅读完这篇文章都有很大的收获,小编每天都会为大家更新不同的知识,如果还想学习更多的知识,请关注亿速云行业资讯频道。

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI