Stack Building

블로그 게시물 제목 크롤링 본문

R

블로그 게시물 제목 크롤링

S00ahKim 2019. 3. 29. 08:57

[2] encoding 이라는 이름의 함수를 정의한다. query를 인자로 받아 url의 쿼리 부분으로 파싱한다.

[3] query는 찾으려는 검색어로, 이를 UTF-8 (시스템이 사용하는 인코딩 방식)의 캐릭터 스트링으로 변환한다.

[4] 리스트 형식으로 되어있는 것을 해제해야 한다.

[5] 대문자로 전부 변환한다.

[6] 값을 리턴한다.

 

[10] 크롤링 작업에 필요한 라이브러리를 부착한다. 설치되어 있지 않으면 인스톨한다.

[13] 게시글 제목을 크롤링하는 함수 title catch를 정의한다. 인자로 쿼리와 페이지 수를 받는다.

[14] 임시로 데이터 프레임을 만든다.

[15]-[22] 지난 게시글과 같은 방식으로 크롤링하여 tmp에 저장한다. 이때 진행 정도를 파악하기 위해 크롤링 수행 중인 페이지를 출력한다.

 

[25] 검색어를 "크롤링이란"으로 지정하여 10페이지를 크롤링한다.

[27] 파일이 저장될 디렉토리를 설정한다.

[28] line 25에서 실행한 결과를 txt 파일로 저장한다.

 

텍스트 파일로 저장된 것을 확인할 수 있다.

 

 

 

소스코드  statistical-analysis-with-R/크롤링/블로그 게시물 제목 크롤링.R

'R' 카테고리의 다른 글

이미지 크롤링  (0) 2019.03.27
실시간 검색어 크롤링  (0) 2019.03.17
R 정규표현식 연습  (0) 2019.03.08
R 정규표현식 만들기  (0) 2019.03.08
R 정규표현식 기초  (0) 2019.03.07
Comments