파일 읽기에서 BOM(Byte Order Marks)
첨부파일: 서울시 한강공원 이용객 현황 (2009_2013년).csv 책에는 BOM에 대해 자세하게 설명하였습니다. UTF-8-BOM의 경우 Notepad++에서 인코딩을 확인할 수 있습니다만, 또 뭐 굳이 그것때문에…
보호된 글: [공지] 데이터사이언스 문제해결 모임
모임 운영 방식 광범위한 데이터 사이언스 분야와 관련하여 자신의 경험을 소개하고, 문제를 제시합니다. 그러면 모임 참가자들이 서로 자신의 의견과 견해을 말하고, 토론합니다.…
여전히 data.table
db-benchmark 에서는 가장 최신의 오픈소스 툴을 사용하여 데이터 전처리 성능을 측정하고 있습니다. Polars라는 새로운 강자가 등장하긴 했지만, 여전히 data.table은 최상위권을 유지하고 있습니다. (여기서…
html_table()과 invalid multibyte string
library(rvest) rvest 패키지는 웹크롤링에 요긴하게 쓰인다. 그런데 이 패키지로 한글 표를 크롤링할 때에는 알려진 문제가 있다. 의 데이터를 크롤링해보자. url='http://fow.kr/find/af23c4ee03bd666' html=read_html(url,encoding='UTF-8')…
3판 맛보기) R에서 정수형(integer)과 실수형(numeric)
R에서 수치형(numeric)은 보통 실수를 의미한다.[아래 각주 1 참조] 실수는 많은 경우 출력되는 값과 저장된 값이 정확하게 일치하지 않는다. 왜냐하면 R에서 실수를…