Category: crawling

Scrapy 웹 크롤링 04 - 실습

Scrapy PracticeDaum 크롤링하기 다음 디지털 뉴스 페이지에서 현재 URL, 기사 타이틀에 걸려있는 href URL, 기사 페이지로 이동한 후 기사 제목, 기사 내용을 크롤링하는 것을 목표로 크롤러를 만들것 items.py 먼저, 크롤링 대상을 items를 활용하기 위해 items.py에 Field를 생성한다. 위에서 언급했던 사항뿐만 아니라

Scrapy 웹 크롤링 03 - Exports, Settings, pipeline

Exports 우리가 실행후 크롤링한 데이터를 저장하는 path를 실행할때마다 지정하거나 실행했는데, 일종의 template같이 미리 만들어 놓을 수 있는 기능이 Exports이다. Exports 참조 사이트 : https://docs.scrapy.org/en/latest/topics/feed-exports.html 1234# 아래 2가지 방법은 동일

Scrapy 웹 크롤링 02 - Spider, Scrapy selectors, Items

Spider Spider의 종류 (참고로, 아래 3가지 종류의 Spider는 잘 사용되지 않는다.) CrawlSpider XMLFeedSpider CSVFeedSpider SitemapSpider 12# 여러사이트를 크롤링하기 위한 spider를 생성scrapy genspider many_site hub.scraping.com spider 폴더의

Scrapy 웹 크롤링 01 - 환경설정 및 기초

Scrapy VS Beautiful SoupBeautiful Soup Beautiful Soup는 웹 상의 정보를 빠르게 크롤링 하기위한 도구이며, 정적인 정보를 가져 올 수 있다. 즉, 해당 API(URL)에 요청했을때 바로 가져올수 있는 정보들만 가져올 수 있다. 시간이 좀 더 걸린 후에 나오는 정보들은 가져올 수 없다는 것이다. 진입 장벽이 매우 낮고

크롤링과 스크래핑 및 unix명령어 기초지식(1)

크롤링과 스크래핑 웹페이지에의 정보를 추출하기 위한 프로그램을 웹 크롤러(Web Crawler) 또는 단순하게 크롤러(Crawler)라고 한다. 크롤러는 스파이더(Spider) 또는 봇(Bot)이라고 부르기도 하는데, 예를 들어 구글에서 우리가 검색할 경우 빠르게 검색 할 수 있는 이유 중의 하나는 바로 웹검색 엔진이 미리 전 세계의 웹사이트를 수집하고 저