크롤링과 스크래핑 및 unix명령어 기초지식(1)

크롤링과 스크래핑

  • 웹페이지에의 정보를 추출하기 위한 프로그램을 웹 크롤러(Web Crawler) 또는 단순하게 크롤러(Crawler)라고 한다.
    크롤러는 스파이더(Spider) 또는 봇(Bot)이라고 부르기도 하는데, 예를 들어 구글에서 우리가 검색할 경우 빠르게 검색 할 수 있는 이유
    중의 하나는 바로 웹검색 엔진이 미리 전 세계의 웹사이트를 수집하고 저장함으로 가능한 일이다. 또한 RSS 리더는 사람 대신 크롤러가
    RSS 피드를 확인하고, 변경 사항이 있는 경우에 업데이트된 항목이 있다고 알려주기도 한다. 가장 공감할 수 있는 부분은 바로 트위터,
    페이스북 등의 SNS에서 웹 페이지 URL을 공유하면 페이지의 제목과 이미지를 미리 보기로 출력해 주는데, 이것도 크롤러가 해당 페이
    지를 방문해서 관련된 정보를 추출하기 때문에 가능한 것이다.

    그렇다면 크롤러와 스크래핑 두 용어의 차이점은 무엇인가???

  • 크롤링
    웹 페이지의 하이퍼링크를 순회하면서 웹 페이지를 다운로드 하는 작업

  • 스크래핑
    다운로드한 웹 페이지에서 필요한 정보를 추출하는 작업

그렇다면 우리는 결국 크롤링한 후 스크래핑까지 하게 되는 일련의 작업을 앞으로 할 것이라고 생각한다.

Wget으로 크롤링하기

가장 먼저 Wget으로 크롤링하는 법을 소개 할 것이다. 크롤링과 스크래핑이 무엇인지 감을 잡기 위함이다.

W