Skip to content

Latest commit

 

History

History
28 lines (7 loc) · 860 Bytes

crawling_basic.md

File metadata and controls

28 lines (7 loc) · 860 Bytes

Web Crawling

Web Crawling usually refers to dealing with large data-sets where you develop your own crawlers (or bots) which crawl to the deepest of the web pages.

브라우저를 통해서 내눈에 보이는 정보를 수집 하는것을 크로울링이나 스크래핑을 한다라고 표현.

크로울링과 스크래핑의 차이

크로울링은 무작위로, 주기적으로, 크로울러라는것이 돌아다니면서 내가 정해놓은 규칙에 맞게 데이터를 수집을 한다. 데이터의 양을 우선으로 하면서, 일정한 시간 간격으로 수집 비교적 규칙적

스크래핑은 타겟이 되는 데이터가 명확함. 사이트에서 정보를 가져오는것은 맞지만. 크로울링 보다는 범위가 작음.

html 로 마크업 된 데이터를 찾아서 가지고 온다.