character
html_table()과 invalid multibyte string
library(rvest) rvest 패키지는 웹크롤링에 요긴하게 쓰인다. 그런데 이 패키지로 한글 표를 크롤링할 때에는 알려진 문제가 있다. 의 데이터를 크롤링해보자. url='http://fow.kr/find/af23c4ee03bd666' html=read_html(url,encoding='UTF-8')…
character
한글 초/중/종성 나누기: 키보드 기준
cho <- unlist(strsplit("ㄱㄲㄴㄷㄸㄹㅁㅂㅃㅅㅆㅇㅈㅉㅊㅋㅌㅍㅎ", "")) jung <- unlist(strsplit("ㅏㅐㅑㅒㅓㅔㅕㅖㅗㅘㅙㅚㅛㅜㅝㅞㅟㅠㅡㅢㅣ", "")) intToUtf8v <- Vectorize(intToUtf8) #jong2 <- c(" ", intToUtf8v(4520:(4520+26))) # 4520 = ㄱ #jong <-…