这篇文章主要讲解了“怎么运用Python进行数据分析房地产市场”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“怎么运用Python进行数据分析房地产市场”吧!
土地市场数据一般会公示在当地的公共资源交易中心,但经常会出现只公示当周或当月数据的情况,因此,我们可以去找专业的土地网站获取交易数据。
本文以土流网为例,这个网站结构简单,简单的url翻页构造,然后用xpath解析数据即可。限于篇幅,爬虫代码不做赘述,仅提供核心代码。
def main(): for page in range(1,46): #这里设置页数 url = 'https://www.tudinet.com/market-213-0-0-0/list-o1ctime-pg{}.html'.format(page) print(url) headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36', } response = requests.request("GET", url, headers = headers) #print(response.status_code) if response.status_code == 200: re = response.content.decode('utf-8') print("正在提取第" + str(page) + "页") time.sleep(random.uniform(1,2)) print("-" * 80) # print(re) parse = etree.HTML(re) #解析网页 items = parse.xpath('.//div[@class="land-l-cont"]/dl') parse_page(items) if len(items) < 10: print('获取完成') break if __name__ == '__main__': time.sleep(random.uniform(1,2)) main()
运行爬虫代码,提取到广州1238块土地数据。以下为简单清洗后部分数据:
土地成交状态
近10年广州土地招拍挂成交情况
2011年至2016年广州市土地招拍挂成交土地较少,2016年成交规划建筑面积仅为77.30万㎡。2017年以后成交规模开始步入高潮,2018年成交规划建筑面积达到1635.50万㎡。
2019年以来广州土地招拍挂成交面积(万㎡)
近10年来广州成交土地主要以工业用地、其他用地和住宅用地为主,工业用地占比高达41.19%,这也是广州工业企业发达的重要动因。
土地成交区域
近10年广州各区土地招拍挂成交面积(万㎡)
从成交区域来看,南沙区和番禺区各年都有一定土地成交,越秀区和天河区成交土地较少。2020年以来,南沙区土地市场火热,成交面积远高于广州其他地区。
房产市场分析主要包括新房和二手房交易市场,由于一般的房产信息发布平台二手房数量远大于新房,为尽可能获取更大样本数据,提高分析的准确性,本文以广州二手房成交数据进行房产市场分析。
本文通过Python获取房天下公布的广州二手房成交数据。房天下的爬虫也较为简单,爬虫逻辑类似贝壳找房,唯一需要注意的是当遍历完一个子地区后跳转下一个子地区的处理。以下给出核心代码:
def main(): #增城a080;番禺a078;南沙a084;花都a0639;白云a076;海珠a074;越秀a072;荔湾a071;天河a073;从化a079;黄埔a075 district_list = ['a084', 'a078','a080', 'a0639','a076', 'a074','a072', 'a071','a073', 'a079','a075'] #地区 for district in district_list: for page in range(1,101): #这里设置页数 url = 'https://gz.esf.fang.com/chengjiao-{0}/i3{1}/'.format(district, page) print(url) headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36', } response = requests.request("GET", url, headers = headers) if response.status_code == 200: re = response.content.decode('utf-8') print("正在提取" + district +'第' + str(page) + "页") time.sleep(random.uniform(1,2)) print("-" * 80) # print(re) parse = etree.HTML(re) # 解析网页 items = parse.xpath('.//div[@name="div_houselist"]/dl') parse_page(items) if len(items) < 30: #遍历完子地区后跳转 print('获取完成') break if __name__ == '__main__': time.sleep(random.uniform(1,2)) main()
代码运行几分钟就提取下22170套广州二手房数据,简单清洗后部分数据展示如下:
量价走势
近5年广州二手房量价走势
2020年1月至6月,广州二手房均价与2019年基本持平。从成交量来看,2月份受疫情影响仅成交70套二手房,3月份以来,疫情逐渐得到控制,房产市场向好,6月份成交二手房1337套。
房价分布
2020年上半年广州各区二手房均价(元/㎡)
从楼盘成交来看,2020年1月至6月广州二手房成交数量最多的楼盘为位于增城区的锦绣天伦花园,共计成交78套,成交均价为18565.40元/㎡。
相关性分析
import pandas as pd import matplotlib.pyplot as plt import matplotlib as mpl import seaborn as sns %matplotlib inline sns.set_style('white') #设置图形背景样式为白色 df = pd.read_excel("D:\data\地产数据分析\广州二手房.xlsx") df = df[['室','厅','面积(㎡)','层数','成交单价(元/㎡)']] #选择需要的列 df.rename(columns={'室': 'room', '厅': 'hall', '面积(㎡)': 'area', '层数': 'floor', '成交单价(元/㎡)': 'price'}, inplace=True) fig,axes=plt.subplots(1,2,figsize=(12,5)) sns.regplot(x= 'room',y='price',data=df,color='r',marker='+',ax=axes[0]) sns.regplot(x='hall',y='price',data=df,color='g',marker='*',ax=axes[1])
感谢各位的阅读,以上就是“怎么运用Python进行数据分析房地产市场”的内容了,经过本文的学习后,相信大家对怎么运用Python进行数据分析房地产市场这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。