목록크롤링 (4)
Stack Building
https://blog.naver.com/21ahn/221329219163 [python] 대표적인 크롤링 3가지(html, Ajax, JavaScript) (Ask Django) 출처 AskDjangohttps://www.askcompany.kr/vod/crawling/127/ https://askdjango.git... blog.naver.com 요약 1. HTML BeautifulSoup으로 파싱해서 얻어오기 2. Ajax 랜더링 Network에서 데이터 주소 가져오기 3. JavaScript 소스 가져와서 정규표현식으로 처리하기 4. 그 외 Selenium 사용
[2] encoding 이라는 이름의 함수를 정의한다. query를 인자로 받아 url의 쿼리 부분으로 파싱한다. [3] query는 찾으려는 검색어로, 이를 UTF-8 (시스템이 사용하는 인코딩 방식)의 캐릭터 스트링으로 변환한다. [4] 리스트 형식으로 되어있는 것을 해제해야 한다. [5] 대문자로 전부 변환한다. [6] 값을 리턴한다. [10] 크롤링 작업에 필요한 라이브러리를 부착한다. 설치되어 있지 않으면 인스톨한다. [13] 게시글 제목을 크롤링하는 함수 title catch를 정의한다. 인자로 쿼리와 페이지 수를 받는다. [14] 임시로 데이터 프레임을 만든다. [15]-[22] 지난 게시글과 같은 방식으로 크롤링하여 tmp에 저장한다. 이때 진행 정도를 파악하기 위해 크롤링 수행 중인 페이..
[4]-[7] 필요한 패키지 부착[10] 크롤링을 해올 url을 지정한다.[12] 일반적으로 url은 검색어 쿼리가 부착된 형태이므로, 찾고자 하는 쿼리를 지정하여 url string을 만드는 방법도 있다. [16] url의 html을 읽어온다. [17] html의 a 태그 아래의 노드를 읽어 저장한다.[19] 이미지 태그의 패턴. (정규표현식 참고)[20] 패턴에 해당하는 노드만 필터링한다.[22]-[24] 이미지 태그의 하이퍼링크를 필터링한다.[26]-[27] 이미지가 저장될 디렉토리를 확인하고 원하는 곳과 다를 경우 워킹 디렉토리를 설정한다.[28] 두 번째 링크에 해당하는 파일을 다운로드한다.[30]-[32] 하이퍼링크 갯수만큼의 이미지를 특정 이름 형식으로 다운로드한다. 강아지 이미지 크롤링 예..
크롤링 특강 정리를 이제야 하기 시작한다. 코드 statistical-analysis-with-R/크롤링/실시간 검색어 크롤링.R [3] rvest 패키지가 필요하기 때문에 필요할 경우 인스톨한다.[5] 원하는 웹사이트의 url을 변수로 받는다.[6] 해당 url의 html을 읽어온다. 네이버는 utf-8로 인코딩된 사이트다.[7] 실검에 해당하는 태그가 span.ah_k라서 해당 노드를 읽어와서 텍스트화한다.이때, 해당하는 태그를 알고 싶다면 크롬의 개발자 도구를 이용하는 것이 편리[8] 1위부터 20위까지의 검색어를 인덱싱한다. 오늘의 실검 상황.