小结.txt

  这是一个初级的爬虫，主要通过使用request beautifulsoap两个Python库实现，代码中有简要的注释。
  
  爬取的对象是安居客网站上广州各个区租房（约1200个/区）的月租金、户型、地址。
  
  通过本次实践，有了许多收获，主要在于两个方面：网页访问原理的理解和Python3的使用。
  
  通过在浏览器地址栏输入url，即网址，可以发出访问请求，随即对方服务器返回html，即网页，到本地，浏览器解码成我们看到的样子。
  注意到，这时候网页已经保存，并不是和对方服务器保持持续通信的，可以在本地进行访问与修改html的内容，通过在想查看的位置右键“检查”，可以看到对应代码。
  eg.
  <p>
    <strong>强烈建议：</strong>
    请在电脑的陪同下，阅读本文。本文以实战为主，阅读过程如稍有不适，还望多加练习。
  </p>
  这段代码可以包含一些属性和内容，而对于爬取来说就对应着定位词和所需要的内容。
  即找到了网页所需要的内容，检查，找到其属性筛选出来，导出就完成了。
  
  爬虫用request，爬下来网页，再用beautifulsoap寻找所需要的内容，再按所需格式修改一下就可以导出了。

  Python3 的time库和random库这次也用到了。
  time.sleep(x)是为了访问时，不要访问得太快，每抓取一个页面休息1-5秒，以防被封ip； random主要是为了选取不同的浏览器座位访问的header文件的一部分发过去，减少被封的风险。
  还有一个办法，但我没找到详细的相关资料，就是使用不同的ip，可以供下次爬虫时使用。
  

  主要参考：
[1]Jack-Cui.《一小时入门 Python 3 网络爬虫》.https://gitbook.cn/books/59b541bb3d49c37f032b67f1/index.html