Analysis of estate beijing data 数据分析
2023-12-08: 基于提供数据,可以分析北京22/23年房价变化
2023-10-25: 为方便数据管理,原先eroom_xxxx_.csv等历史报价快照,被分别移入bj_data(beijing 北京), hz_data(hangzhou 杭州), sh_data(shanghai 上海), sz_data(shenzhen 深圳), gz_data(guangzhou 广州)等目录
这是一个使用Python编写的链家房价获取和数据分析脚本。通过这个脚本,您可以爬取链家网站上公开的房屋信息,并进行数据分析和可视化。
因为前两年在关注北京二手房市场,但搜索发现的一些链家获取缺少更新,也不支持数据分析的功能,因此开发了这个项目。我们可以看到相比前两年,房价跌了还是涨了,挂牌多了还是少了,有效帮助购房人。
链家网站上的公开房屋信息,包括房屋价格、面积、所在区域、房型等
可以根据用户的需求自定义爬取的区域等参数。
![image](https://private-user-images.githubusercontent.com/2771082/277205447-09117727-c8af-4633-897c-6434883fff95.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzkxNjc4ODIsIm5iZiI6MTczOTE2NzU4MiwicGF0aCI6Ii8yNzcxMDgyLzI3NzIwNTQ0Ny0wOTExNzcyNy1jOGFmLTQ2MzMtODk3Yy02NDM0ODgzZmZmOTUucG5nP1gtQW16LUFsZ29yaXRobT1BV1M0LUhNQUMtU0hBMjU2JlgtQW16LUNyZWRlbnRpYWw9QUtJQVZDT0RZTFNBNTNQUUs0WkElMkYyMDI1MDIxMCUyRnVzLWVhc3QtMSUyRnMzJTJGYXdzNF9yZXF1ZXN0JlgtQW16LURhdGU9MjAyNTAyMTBUMDYwNjIyWiZYLUFtei1FeHBpcmVzPTMwMCZYLUFtei1TaWduYXR1cmU9MDNiNDg5MjU5M2RhZDJjZGZiMWZhYTljNDc0MGNiMDUxYzczOTRhZDQ5OWVhNjg4NTU5MTAyZTg5NDBjNGFmYSZYLUFtei1TaWduZWRIZWFkZXJzPWhvc3QifQ.Z4KpQSki35dTQhKbDA4yZ7hcwrcF0Gw2MpzkFPYaCPU)
提供了多种数据分析功能,例如计算平均房价、绘制房价分布直方图等。
提供基于多组房价数据的挂牌价格变化查找分析功能
提供小区级别平均价格变化分析功能
本项目默认行为对北京链家数据获取(其它城市仅示例),可修改后支持其它地区,如杭州,武汉,深圳等地区获取(上海相对特殊一点,需要一些小改动) 简单修改代码如:
'https://bj.lianjia.com/ershoufang/' -> 'https://hz.lianjia.com/ershoufang/'
- 安装所需的依赖库。
pip install pandas
pip install lxml
pip install bs4
- 运行获取
无参数运行,默认处理beijing,各个区数据,比如东城区
python eroom_finder.py --city_name bj
指定参数运行: (1) 指定其它城市 (2) 指定特定区域(比如四惠)
python eroom_finder.py --city_name bj --area_name small
之后你会看到结果如eroom_time__20221227_detail__1672138021__*.csv
- 运行数据分析:小区平均价格统计
python eroom_price_adjust_tracker.py
脚本将会将爬取的数据保存为 final_community_eroom_stats_size_*.csv 文件, *为软件运行的YYYYMMDD。
基于结果进行进一步的可视化分析,如
![image](https://private-user-images.githubusercontent.com/2771082/278065498-8903e445-39c0-4086-9a1b-3c71315bd06d.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzkxNjc4ODIsIm5iZiI6MTczOTE2NzU4MiwicGF0aCI6Ii8yNzcxMDgyLzI3ODA2NTQ5OC04OTAzZTQ0NS0zOWMwLTQwODYtOWExYi0zYzcxMzE1YmQwNmQucG5nP1gtQW16LUFsZ29yaXRobT1BV1M0LUhNQUMtU0hBMjU2JlgtQW16LUNyZWRlbnRpYWw9QUtJQVZDT0RZTFNBNTNQUUs0WkElMkYyMDI1MDIxMCUyRnVzLWVhc3QtMSUyRnMzJTJGYXdzNF9yZXF1ZXN0JlgtQW16LURhdGU9MjAyNTAyMTBUMDYwNjIyWiZYLUFtei1FeHBpcmVzPTMwMCZYLUFtei1TaWduYXR1cmU9Y2NiZDk0NDk2Y2U3ZTQ5OGQ0N2E4ZmFkY2VkZDMwZGYxOTM4MzliYzA5OTE1ZTJlNWM0MTljMzNmZGI0MGViYiZYLUFtei1TaWduZWRIZWFkZXJzPWhvc3QifQ.ezyrxLWQni1PfPi5MiePgROj79hWC8fb01xFyIpJYqU)
- 运行数据分析:房价变化统计
python eroom_district_comparer.py
脚本将会将爬取的数据保存为 stats_info_updated_*.csv 文件。
基于历史数据,可以方便分析出特定房源的挂牌价变化情况,挂牌上架下架(重新上架)时间
![image](https://private-user-images.githubusercontent.com/2771082/278065870-48ebcadd-acb8-488e-af25-46fb9f908c9c.png?jwt=eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJpc3MiOiJnaXRodWIuY29tIiwiYXVkIjoicmF3LmdpdGh1YnVzZXJjb250ZW50LmNvbSIsImtleSI6ImtleTUiLCJleHAiOjE3MzkxNjc4ODIsIm5iZiI6MTczOTE2NzU4MiwicGF0aCI6Ii8yNzcxMDgyLzI3ODA2NTg3MC00OGViY2FkZC1hY2I4LTQ4OGUtYWYyNS00NmZiOWY5MDhjOWMucG5nP1gtQW16LUFsZ29yaXRobT1BV1M0LUhNQUMtU0hBMjU2JlgtQW16LUNyZWRlbnRpYWw9QUtJQVZDT0RZTFNBNTNQUUs0WkElMkYyMDI1MDIxMCUyRnVzLWVhc3QtMSUyRnMzJTJGYXdzNF9yZXF1ZXN0JlgtQW16LURhdGU9MjAyNTAyMTBUMDYwNjIyWiZYLUFtei1FeHBpcmVzPTMwMCZYLUFtei1TaWduYXR1cmU9ZTc0NzU3MzBiNDAxYzg5NjNhZTAzNDYwNzVkMDY4NDc2YWNlYjQ0YzA0MWQwMjU3ZTc0NzUyZmEzZDA1NGM1NyZYLUFtei1TaWduZWRIZWFkZXJzPWhvc3QifQ.yws4Wco-N-CWyZDQ5LS8fXdcSl3zjr6dAeKm_KKGIEg)
本项目永远作为一个免费项目使用,仅用于学习交流使用,使用者不得用于谋利或访问非公开数据
本项目并不保证历史数据的准确性,希望帮助到有相关需要的购房人,不对数据准确性/一致性承担法律或相关任何责任,使用者请自行甄别判断。
请尊重链家网站的使用规则,本程序只可用于适度访问公开数据,严禁修改本程序访过于频繁地进行访问,严禁修改本程序访问任何非公开数据。
数据只能用于个人使用,不支持数据共享,不能用于任何商业用途,请遵守中国相关法律
欢迎对本项目提出改进建议和提交贡献代码。如果您发现了 bug,请在 GitHub 上提交 issue