목록정규표현식 (3)
Stack Building
1. R에서 정규표현식을 지원하는 함수 수도 없이 많다. 문자열에 관련한 함수들에서는 상당히 많이 지원하는 듯. gsub(), grep(), strsplit() 등등. 2. R 정규표현식 예제 (1) 텍스트 정리하기 R 공식 홈페이지의 텍스트를 긁어왔다. string에 담긴 내용은 위와 같다. 보다시피 공백이 많고 개행 문자도 포함되어 있어 지저분하다. 공백을 지운다. gsub 함수를 사용하여 공백이 둘 이상인 부분을 하나로 만들었다. 깔끔하게 정리된 모습이다. 추가로 괄호 안의 내용을 삭제하고 본문만 남기고 싶어져 다음을 수행했다. 괄호 안의 내용이 전부 지워진 깔끔한 텍스트를 저장할 수 있다. (2) 숫자 정리하기 위 예시에서 사용된 정규표현식의 의미는 "1부터 9까지의 수로 시작하고, 그 다음은 숫..
1. 단어로 표현하기[] 안에 단어로 패턴을 지정할 수 있다. [:digit:] 혹은 \d : 숫자, 0,1,2,3,4,5,6,7,8,9, 동등한 표현 [0-9]. [:lower:] : 영문 소문자, 동등한 표현 [a-z]. [:upper:] : 영문 대문자, 동등한 표현 [A-Z]. [:alpha:] : 알파벳 대소문자, 동등한 표현 [[:lower:][:upper:]] 혹은 [A-z] [:alnum:] : 알파벳 숫자 문자, 동등한 표현 [[:alpha:][:digit:]] 혹은 [A-z0-9]. [:xdigit:] : 16진수 (밑이 16), 0 1 2 3 4 5 6 7 8 9 A B C D E F a b c d e f, 동등한 표현 [0-9A-Fa-f]. [:blank:] : 간격 문자, 즉 스페..
정규표현식regular expression/regex은 파이썬이나 자바 외 많은 프로그래밍 언어에서 지원하는 일종의 패턴 표기 방법으로, 특정한 규칙을 가진 문자열을 검색하는 데에 사용하기 용이하다. R 크롤링 특강을 수강하기 전에 미리 공부하면 좋다고 하여 포스팅을 정리하게 되었다. R에서 정규표현식은 크게 두 가지로 구분하여 작성한다. "\" 와 [ ] 이다. \는 파이썬에서 배웠던 이스케이프 코드를 생각나게 한다. 그 뒤에 어떤 문자를 붙이면 해당 문자를 검색하게 해주는 패턴이 된다. 예를 들어 알파벳 a를 찾고 싶을 경우의 정규식은 "\a"가 된다. 그러나 일부 글자의 경우 다른 것을 뜻한다고 미리 정해져있는 경우가 있다. w는 word의 약어로, 알파벳(영소문자, 영대문자), 숫자, 언더스코어(..