-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy path小结.txt
25 lines (18 loc) · 1.82 KB
/
小结.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
这是一个初级的爬虫,主要通过使用request beautifulsoap两个Python库实现,代码中有简要的注释。
爬取的对象是安居客网站上广州各个区租房(约1200个/区)的月租金、户型、地址。
通过本次实践,有了许多收获,主要在于两个方面:网页访问原理的理解和Python3的使用。
通过在浏览器地址栏输入url,即网址,可以发出访问请求,随即对方服务器返回html,即网页,到本地,浏览器解码成我们看到的样子。
注意到,这时候网页已经保存,并不是和对方服务器保持持续通信的,可以在本地进行访问与修改html的内容,通过在想查看的位置右键“检查”,可以看到对应代码。
eg.
<p>
<strong>强烈建议:</strong>
请在电脑的陪同下,阅读本文。本文以实战为主,阅读过程如稍有不适,还望多加练习。
</p>
这段代码可以包含一些属性和内容,而对于爬取来说就对应着定位词和所需要的内容。
即找到了网页所需要的内容,检查,找到其属性筛选出来,导出就完成了。
爬虫用request,爬下来网页,再用beautifulsoap寻找所需要的内容,再按所需格式修改一下就可以导出了。
Python3 的time库和random库这次也用到了。
time.sleep(x)是为了访问时,不要访问得太快,每抓取一个页面休息1-5秒,以防被封ip; random主要是为了选取不同的浏览器座位访问的header文件的一部分发过去,减少被封的风险。
还有一个办法,但我没找到详细的相关资料,就是使用不同的ip,可以供下次爬虫时使用。
主要参考:
[1]Jack-Cui.《一小时入门 Python 3 网络爬虫》.https://gitbook.cn/books/59b541bb3d49c37f032b67f1/index.html