Stack Building

R 정규표현식 연습 본문

R

R 정규표현식 연습

S00ahKim 2019. 3. 8. 16:15

1. R에서 정규표현식을 지원하는 함수

수도 없이 많다. 문자열에 관련한 함수들에서는 상당히 많이 지원하는 듯.

gsub(), grep(), strsplit() 등등.

 

 

 

 

2. R 정규표현식 예제

(1) 텍스트 정리하기

R 공식 홈페이지의 텍스트를 긁어왔다. string에 담긴 내용은

위와 같다. 보다시피 공백이 많고 개행 문자도 포함되어 있어 지저분하다. 공백을 지운다.

 

gsub 함수를 사용하여 공백이 둘 이상인 부분을 하나로 만들었다.

 

깔끔하게 정리된 모습이다. 추가로 괄호 안의 내용을 삭제하고 본문만 남기고 싶어져 다음을 수행했다.

 

괄호 안의 내용이 전부 지워진 깔끔한 텍스트를 저장할 수 있다.

 

(2) 숫자 정리하기

위 예시에서 사용된 정규표현식의 의미는 "1부터 9까지의 수로 시작하고, 그 다음은 숫자들이 올 수도 있고 반복될 수도 있으며 그것으로 끝난다"는 뜻이다.

 

위 함수의 실행 결과는 아래와 같다.

 

숫자가 아닌 단어들은 전부 걸러졌고,

1부터 9까지가 아닌 수, 즉 0으로 시작하는 숫자와

숫자로 시작하지만 뒤에 문자나 공백이 포함되는 경우 역시 패턴과 일치하지 않는다.

 

만일 뒤에 소수점 세 자리 이상이면 이상한 결과라고 생각하여 제거하고 싶다면 아래와 같이 함수를 사용한다.

 

 

 

예제 소스

     

 

 

 

'R' 카테고리의 다른 글

블로그 게시물 제목 크롤링  (0) 2019.03.29
이미지 크롤링  (0) 2019.03.27
실시간 검색어 크롤링  (0) 2019.03.17
R 정규표현식 만들기  (0) 2019.03.08
R 정규표현식 기초  (0) 2019.03.07
Comments