Stack Building
블로그 게시물 제목 크롤링 본문
[2] encoding 이라는 이름의 함수를 정의한다. query를 인자로 받아 url의 쿼리 부분으로 파싱한다.
[3] query는 찾으려는 검색어로, 이를 UTF-8 (시스템이 사용하는 인코딩 방식)의 캐릭터 스트링으로 변환한다.
[4] 리스트 형식으로 되어있는 것을 해제해야 한다.
[5] 대문자로 전부 변환한다.
[6] 값을 리턴한다.
[10] 크롤링 작업에 필요한 라이브러리를 부착한다. 설치되어 있지 않으면 인스톨한다.
[13] 게시글 제목을 크롤링하는 함수 title catch를 정의한다. 인자로 쿼리와 페이지 수를 받는다.
[14] 임시로 데이터 프레임을 만든다.
[15]-[22] 지난 게시글과 같은 방식으로 크롤링하여 tmp에 저장한다. 이때 진행 정도를 파악하기 위해 크롤링 수행 중인 페이지를 출력한다.
[25] 검색어를 "크롤링이란"으로 지정하여 10페이지를 크롤링한다.
[27] 파일이 저장될 디렉토리를 설정한다.
[28] line 25에서 실행한 결과를 txt 파일로 저장한다.
텍스트 파일로 저장된 것을 확인할 수 있다.
'R' 카테고리의 다른 글
이미지 크롤링 (0) | 2019.03.27 |
---|---|
실시간 검색어 크롤링 (0) | 2019.03.17 |
R 정규표현식 연습 (0) | 2019.03.08 |
R 정규표현식 만들기 (0) | 2019.03.08 |
R 정규표현식 기초 (0) | 2019.03.07 |
Comments