3판 맛보기) 측정단위
이 책에서 자주 사용한 데이터 mtcars에는 mpg열이 있다. 여기서 mpg는 miles per gallon
을 의미한다. 마일(mile)과 갤런(gallon)은 길이와 부피를 측정하기 위해 영미국가에서
사용하는 단위이다. mpg 열은 1 마일(약 1.6 km)를 가기 위해 필요한 석유의 부피를 갤런
(약 3.7 L) 단위로 측정한 연비 단위이다. 하지만 마일과 갤런은 우리에게 생소하다. 우리는
길이와 부피를 측정할 때 국제 표준 단위인 미터(meter)와 리터(liter)를 쓰기 때문이다.
(중략)
R에서는 단위를 어떻게 다루고 있을까? 일단 대부분의 데이터들은 측정 단위를 포함하고
있지 않다. 적절한 단위는 사람이 직접 유추해야 하며, 여러 단위가 혼재할 때 서로 통일하
거나 변환하는 작업도 사람이 해야 한다.
R에는 이런 불편함을 해소하고자 여러 패키지가 개발되어 있다. 여러 패키지들 중에서
대표적인 units 패키지를 소개해보자. units 패키지를 활용하면 단위 변환을 쉽게 할 수
있으며, plot() 또는 ggplot() 결과 그래프에 단위가 저절로 포함된다.
# unix, sudo apt-get install libudunits2-dev # install.packages('units') library(units) library(dplyr) data(mtcars) help(mtcars)
mtcars에 대한 도움말을 보자. mpg의 단위는 miles per gallon(US)이고, disp의 단위는
cubic inch, hp의 단위는 Gross horsepower, wt의 단위는 1000 lbs(파운드), qsec의
단위는 1/4 mile time(1/4마일을 가는게 걸리는 초) 임을 확인할 수 있다. 모두 우리가
쉽게 접할 수 없는 단위이기 때문에 그 의미를 확인하기가 쉽지 않다.
(중략)
mpg는 포함되어 있지 않지만, 우리가 직접 정해줄 수 있다.
# 다음의 코드에서 `name=`에 단위의 이름을 정하고, `def=`로 정의를 적는다. # mpg는 마일(international_mile)을 US 액량 갤론(US_liquid_gallon)으로 나눠준 단위이다. install_unit(name = "mpg_US", def = "international_mile / US_liquid_gallon") units(mtcars$mpg) = 'mpg_US' # mpg의 단위를 mpg_US로 정한다. units(mtcars$mpg) = 'km/L' # mpg의 단위를 km/L로 변환한다. units(mtcars$wt) = 'kg' library(ggplot2) library(ggforce) # ggplot과 units를 함께 쓰기 위해서 필수! ggplot(data = mtcars) + geom_histogram(aes(x=wt), bins=10) ggplot(data = mtcars) + geom_point(aes(x=wt, y=mpg))
mpg는 쉽게 km/L 단위로 변환되었다!
출처> R로 하는 빅데이터 분석: 데이터 전처리와 시각화
Leave a comment