Stack Building
R 정규표현식 연습 본문
1. R에서 정규표현식을 지원하는 함수
수도 없이 많다. 문자열에 관련한 함수들에서는 상당히 많이 지원하는 듯.
gsub(), grep(), strsplit() 등등.
2. R 정규표현식 예제
(1) 텍스트 정리하기
R 공식 홈페이지의 텍스트를 긁어왔다. string에 담긴 내용은
위와 같다. 보다시피 공백이 많고 개행 문자도 포함되어 있어 지저분하다. 공백을 지운다.
gsub 함수를 사용하여 공백이 둘 이상인 부분을 하나로 만들었다.
깔끔하게 정리된 모습이다. 추가로 괄호 안의 내용을 삭제하고 본문만 남기고 싶어져 다음을 수행했다.
괄호 안의 내용이 전부 지워진 깔끔한 텍스트를 저장할 수 있다.
(2) 숫자 정리하기
위 예시에서 사용된 정규표현식의 의미는 "1부터 9까지의 수로 시작하고, 그 다음은 숫자들이 올 수도 있고 반복될 수도 있으며 그것으로 끝난다"는 뜻이다.
위 함수의 실행 결과는 아래와 같다.
숫자가 아닌 단어들은 전부 걸러졌고,
1부터 9까지가 아닌 수, 즉 0으로 시작하는 숫자와
숫자로 시작하지만 뒤에 문자나 공백이 포함되는 경우 역시 패턴과 일치하지 않는다.
만일 뒤에 소수점 세 자리 이상이면 이상한 결과라고 생각하여 제거하고 싶다면 아래와 같이 함수를 사용한다.
예제 소스
'R' 카테고리의 다른 글
블로그 게시물 제목 크롤링 (0) | 2019.03.29 |
---|---|
이미지 크롤링 (0) | 2019.03.27 |
실시간 검색어 크롤링 (0) | 2019.03.17 |
R 정규표현식 만들기 (0) | 2019.03.08 |
R 정규표현식 기초 (0) | 2019.03.07 |
Comments