CDA人工智能学院致力于以优质的人工智能在线教育资源助力学员的DT职业梦想!课程内容涵盖数据分析、机器学习、深度学习、人工智能、TensorFlow、PyTorch、知识图谱等众多核心技术及行业案例,让每一个学员都可以在线灵活学习,快速掌握AI时代的前沿技术。PS:私信我即可获取《银牌会员》1个月免费试听机会
CDA数据分析师 出品
作者:Mika
数据:真达
后期:泽龙
【导读】
今天让我们来聊一聊北京的二手房市场现状。
代码链接:https://edu.cda.cn/group/19/thread/241
Show me data,用数据说话
今天我们聊一聊 北京二手房数据
点击下方视频,先睹为快:
点击观看
对于许多在一线城市打拼的人群而言,能够在大城市安家,扎根下来都是为止奋斗的梦想。但一线城市的突破天际房价也让很多人望而却步。
转眼间2020年已经过半,大家买房子、买房子的愿望实现了吗?你关注的房子降价了吗?
之前DT财经的《我只有300万预算,能在上海买到什么样的房子?》分析了上海二手房的房价,引起了很多人的反响。
那么帝都的二手房市场又是怎样的呢?这次我们用Python来分析下北京的二手房数据。

我们使用Python获取了链家网上北京市16个区的二手房数据。首先导入要使用的数据处理包pandas,可视化工具pyecharts和plotly。
01数据读入
使用循环读入数据集,然后进行去重处理,查看一下数据集大小,可以看到去重之后一共有4403条数据。
预览以下数据:
df_all.head(2)
02数据预处理
我们对数据集的各个特征进行提取和处理,以便后续的数据分析工作,主要处理工作包含:

进一步处理楼层、建筑年份和房屋朝向字段。

03数据探索和可视化
以下仅列出关键部分数据可视化分析代码:
近一年北京二手房房价走势图
首先我们看到近一年来,北京二手房房价的走势图,可以看到有回调的趋势,目前的均价在每平方米57589的样子。
北京不同区域的二手房房源数量

那么北京各个区域的二手房源分布如何呢?

经过统计可以看到,朝阳区的二手房数量遥遥领先,达到25648.其次是丰台,共11094。之后海淀、昌平、大兴紧随其后。
北京不同区域的二手房均

不同区域的二手房价又是怎样的呢?西城区一马当先,以114980元每平米的价格领跑北京的二手房市场。其次,东城区以97295每平米排在第二位。海淀区以85954每平米的价格排在第三位。
代码如下:
北京二手房都处在什么价位

那么在北京买一套二手房到底要花多少钱?接着我们分析了二手房的价位,从图中可以看到总价在300-500万内的最多,占比达到35.9%。500-800万的占比26.54%。300万以下的占比19.54%。
代码如下:
北京二手房房龄分布

那么这些二手房的房龄都有多久了呢?可以看到房龄在20年以上的最多,有10946套占比33.73%,其次房龄在15-20年的有7835套,占比24.15%。5年以内的仅有1441套,占比4.44%。
是否靠近地铁和房屋单价的关系

一般来说,靠近地铁越近的房子房价越高,从分布的箱线图可以看出,以中位数来看,靠近地铁的房子单价比不不靠近地铁的房子每平米高12317元。
不同朝向的房屋数量分布

房屋朝向方面,朝南的自然是最多的,占比达到68.97%。其次是朝东的,占比18.25%。
不同房屋结构的数量分布

房屋结构方面,板楼是最多的占比64.39%。其次是塔楼,占比16.85%。板楼塔楼结合的占比16.45%。
房屋面积和房屋价格的关系

从散点图可以看出,房屋的面积和房屋价格呈现正相关,计算皮尔逊相关系数的值为0.67,为强相关。
代码如下:
卧室数量和房屋价格的关系

从分布的箱线图可以看出,卧室数量越多,面积越大,则房屋总价越高。房价呈现右偏分布,且离群值较多。
客厅数量和房屋价格的关系

客厅和卧室一样反映在房屋的面积上,客厅 数越多,则房屋总价越高。
代码如下:
装修类型和房屋单价的关系

不同装修类型花费的成本不同,从装修类型看,精装的房子单价最高,然后是简装、毛坯。
点击链接即可获取代码:https://edu.cda.cn/group/19/thread/241

关注“CDA人工智能学院”,回复“录播”获取更多人工智能精选直播视频!