BLACK BOX 모형 살펴보기: 모형의 예측, 잔차 02

분석 9월 09, 2019 0 Comments

BLACK BOX 모형 살펴보기: 모형의 예측, 잔차 02

library(dplyr)
library(ggplot2)
library(randomForest)

TURE <- TRUE

모형, 잔차

여기서는 ICEbox 패키지와 plotmo 패키지를 사용하여 모형을 좀 더 살펴본다.

예제 모형

여기서는 지난 번, 그리고 지지난번의 예제 모형을 그대로 사용한다.

데이터 생성 모형은 다음과 같다.

\[y = x_1^2 + \frac{x_2}{|x_1|+0.1} + \Big(I(x_2<0)+I(x_2<1)\times x_3\Big) \times \frac{1}{5}(x_4+x_5+x_6+x_7+x_8)+e\]

\[e\sim\mathcal{N}(0,1)\]

이때 \(x_3\) 은 \(-1\), \(+1\) 값만 가질 수 있고, 나머지 변수들은 모두 연속형이다.

genData = function(N=1000, iseed=100) {
  set.seed(iseed)
  sdErr = 1

  x1 <- runif(N, -3, 3)
  x11 <- x1^2 

  x2 <- runif(N, -3, 3)
  x3 <- sample(c(-1, 1), N, replace=TRUE)

  ncolMatX <- 5
  ncolMatX2 <- 2

  require(mvtnorm)
  sigma <- matrix(
    rep(0.97, ncolMatX*ncolMatX),
    ncolMatX, ncolMatX)
  diag(sigma) = 1

  matX <- rmvnorm(N, mean=rep(0,ncolMatX), sigma=sigma)
  x40 <- apply(matX, 1, mean)/ncolMatX
  colnames(matX) <- paste0('x', 4:(ncolMatX+3))

  matX2 <- rmvnorm(N, mean=rep(0,ncolMatX2), sigma=diag(ncolMatX2))
  colnames(matX2) <- paste0('x', (ncolMatX+4):(ncolMatX+ncolMatX2+3))

  y <- x11 + x2/(abs(x1)+0.1) + (x2 < 0)*x40 + (x2<1)*x3 * x40 + rnorm(N, 0, sdErr)

  return(data.frame(y, x1, x2, x3, matX, matX2))
}

dat <- genData()

예제 모형의 실례인 dat에는 결과 변수 y와 설명변수 (후보) x1 ~ x10이 저장되어 있다. 결과 변수 y와 설명변수 x1 ~ x10의 관계는 다음과 같다.

pairs(dat)

plot of chunk unnamed-chunk-3

pairs(dat[,c("y", "x1", "x2", "x3")])

plot of chunk unnamed-chunk-3

pairs(dat[,c("y", paste0("x", 4:10))])

plot of chunk unnamed-chunk-3

위의 산점도를 보면 알겠지만, x1과 x2를 제외하고서는 y와 설명변수의 관계를 뚜렷이 알아내기는 힘들다. 그리고 x1과 y의 관계도 사실 어떤 관계라고 뚜렷이 설명하기 힘들다. 산점도와 회귀선을 그려보면 다음과 같다.

dat %>% ggplot(aes(x=x1, y=y)) + geom_point() + geom_smooth(method='loess', span=0.3)

plot of chunk unnamed-chunk-4

앞에서 회귀분석을 한 번 돌려보거나 랜덤포레스트로 변수 중요도를 알아보고, 모형과 잔차를 좀 더 잘 이해하는 방법을 시연해보았다.

특히 지난번에 설명한 모형과 잔차 시각화 방법은 랜덤포레스트 뿐 아니라 그래디언트 트리 부스팅과 인공 신경망 등에도 적용할 수 있는 범용 함수들이었다.

여기서도 흔히 말하는 블랙 박스 모형을 시각화하고, 자료와의 적합성을 알아보는 함수들을 소개한다.

비교를 위하여 같은 데이터를 다른 모형으로 적합시켜 본다.

fitLM <- lm(y ~ ., data=dat) ## linear model

fitRF <- randomForest(y ~ ., data=dat) ## Random Forest Model

library(gam) ## gam # install.packages('gam')
fitGAM <- gam(y ~ s(x1)+s(x2)+x3+s(x4)+s(x5)+s(x6)+s(x7)+s(x8)+s(x9)+s(x10),
              data=dat) # x3 is a categorical variable

library(gbm) # install.packages('gbm')
fitGBM <- gbm(y ~ ., data=dat, dist="gaussian", inter=2, n.trees=1000)

library(xgboost)
fitXGB <- xgboost(as.matrix(dat %>% select(-y)), label=dat[,"y"], 
                  objective = "reg:linear", verbose=0,
                  nrounds=1000)

library(nnet) ## nnet
set.seed(4)
fitNN10 <- nnet(y ~ ., data=dat,
                linout=TRUE, size=10, decay=0.01, maxit=1000, 
                trace=FALSE)
#fitNN20 <- nnet(y ~ ., linout=TRUE, size=20, data=dat)
fitNN40 <- nnet(y ~ ., linout=TRUE, size=40, data=dat, maxit=1000, trace=FALSE)
#fitNN80 <- nnet(y ~ ., linout=TRUE, size=80, data=dat)
#fitNN160 <- nnet(y ~ ., data=dat, 
#                 linout=TRUE, size=160, 
#                 MaxNWts= 10000, trace=FALSE,
#                 decay=0.01, maxit=10000)

Individual Conditional Expectation plot toolbox(`ICEbox`)

지난 포스트에서도 소개된 ICE는 ICEbox 패키지를 사용하여 시각화할 수도 있다. ICEbox::ice는 pdp::partial( , ice=TRUE)과 달리 데이터도 함께 그려보여 준다는 장점이 있다.

require(ICEbox)
iceRF = ice(object = fitRF, X = dat %>% select(-y), y = dat$y,
            predictor = "x1",
            frac_to_build = .1, verbose=FALSE)
plot(iceRF)

plot of chunk unnamed-chunk-6

frac_to_build=를 통해 자료의 몇 %를 활용할 것인지를 결정한다.

require(ICEbox)
iceRF30 = ice(object = fitRF, X = dat %>% select(-y), y = dat$y,
            predictor = "x1",
            frac_to_build = .3, verbose=FALSE)
plot(iceRF30)

plot of chunk unnamed-chunk-7

다른 모형들의 경우도 살펴보자.

plot(iceLM <- ice(fitLM, X = dat %>% select(-y), y = dat$y, predictor = "x1", frac_to_build = .1, verbose=FALSE))

plot of chunk unnamed-chunk-8

plot(iceRF <- ice(fitRF, X = dat %>% select(-y), y = dat$y, predictor = "x1", frac_to_build = .1, verbose=FALSE))

plot of chunk unnamed-chunk-8

plot(iceGAM <- ice(fitGAM, X = dat %>% select(-y), y = dat$y, predictor = "x1", frac_to_build = .1, verbose=FALSE))

plot of chunk unnamed-chunk-8

#plot(iceGBM <- ice(fitGBM, X = dat %>% select(-y), y = dat$y, predictor = "x1", frac_to_build = .1, n.trees=1000, verbose=FALSE))

plot(iceXGB <- ice(fitXGB, X = as.matrix(dat %>% select(-y)), y = dat$y, predictor = "x1", frac_to_build = .1, n.trees=1000, verbose=FALSE))

plot of chunk unnamed-chunk-8

plot(iceNN10 <- ice(fitNN10, X = dat %>% select(-y), y = dat$y, predictor = "x1", frac_to_build = .1, verbose=FALSE))

plot of chunk unnamed-chunk-8

plot(iceNN40 <- ice(fitNN40, X = dat %>% select(-y), y = dat$y, predictor = "x1", frac_to_build = .1, verbose=FALSE))

plot of chunk unnamed-chunk-8

clusterICE는 ICE 곡선을 군집화하여 보여준다. 무수히 중첩되어 있는 ICE 곡선을 몇 개의 군집으로 나눈 후 대표 곡선을 추려 보여주는 것이다. 다음은 위의 ICE 곡선을 4개의 군집으로 나눠서 시각화한다.

clusterICE(iceLM, nClusters = 4, plot_legend = TRUE, center=TRUE)

plot of chunk unnamed-chunk-9

clusterICE(iceRF, nClusters = 4, plot_legend = TRUE, center=TRUE)

plot of chunk unnamed-chunk-9

clusterICE(iceGAM, nClusters = 4, plot_legend = TRUE, center=TRUE)

plot of chunk unnamed-chunk-9

clusterICE(iceGBM, nClusters = 4, plot_legend = TRUE, center=TRUE)

plot of chunk unnamed-chunk-9

clusterICE(iceNN10, nClusters = 4, plot_legend = TRUE, center=TRUE)

plot of chunk unnamed-chunk-9

#clusterICE(iceNN40, nClusters = 4, plot_legend = TRUE, center=TRUE)
#clusterICE(iceNN160, nClusters = 4, plot_legend = TRUE, center=TRUE)

`dice` : partial derivative function for `ice`.

dice는 ICE 곡선을 미분한 결과이다.

diceLM <- ICEbox::dice(iceLM)
plot(diceLM)
#plot(diceRF <- ICEbox::dice(iceRF))
#plot(diceGAM <- ICEbox::dice(iceGAM))
#plot(diceGBM <- ICEbox::dice(iceGBM))
plot(diceNN10 <- ICEbox::dice(iceNN10))
#plot(diceNN40 <- ICEbox::dice(iceNN40))

dice 곡선도 clusterICE로 군집화하여 시각화할 수 있다.

clusterICE(diceNN10, nClusters = 4, plot_legend = TRUE, center=TRUE)

plot model's residuals, response and partial dependence plots(`plotmo`)

패키지 plotmo의 plotmo는 plot model's residuals, response and partial dependence plots의 약자로 “그리자, 모형의 잔차, 반응(결과), 그리고 부분 의존 그림을!"이라고 순직역[^1]할 수 있겠다.

[^1]: 순서 그대로의 직역이라는 의미로 썼다. 사전엔 없는 단어이다.

library(plotmo) # install.packages('plotmo')

fitLM <- lm(y ~ ., data=dat) ## linear model
plotmo(fitLM)

##  plotmo grid:    x1           x2 x3         x4         x5         x6
##           0.1020341 -0.004727961  1 0.03112162 0.02001667 0.01247897
##          x7         x8         x9         x10
##  0.02389123 0.05383556 -0.0144398 -0.08341206

plot of chunk unnamed-chunk-13

plotmo(fitRF)

##  plotmo grid:    x1           x2 x3         x4         x5         x6
##           0.1020341 -0.004727961  1 0.03112162 0.02001667 0.01247897
##          x7         x8         x9         x10
##  0.02389123 0.05383556 -0.0144398 -0.08341206

plot of chunk unnamed-chunk-13

#plotmo(fitRF, all2=TRUE)
# all2=TRUE : all interaction plots
plotmo(fitRF, all2=2)

##  plotmo grid:    x1           x2 x3         x4         x5         x6
##           0.1020341 -0.004727961  1 0.03112162 0.02001667 0.01247897
##          x7         x8         x9         x10
##  0.02389123 0.05383556 -0.0144398 -0.08341206

plot of chunk unnamed-chunk-13

#fitGBM <- gbm(y ~ ., data=dat, dist="gaussian", inter=2, n.trees=1000)
plotmo(fitGBM)

##  plotmo grid:    x1           x2 x3         x4         x5         x6
##           0.1020341 -0.004727961  1 0.03112162 0.02001667 0.01247897
##          x7         x8         x9         x10
##  0.02389123 0.05383556 -0.0144398 -0.08341206

plot of chunk unnamed-chunk-13

#plotmo(fitGBM, i.var=1) 
#plotmo(fitGBM, i.var=c(1,2))

#fitGAM <- gam(y ~ s(x1)+s(x2)+x3+s(x4)+s(x5)+s(x6)+s(x7)+s(x8)+s(x9)+s(x10),
#              data=dat) # x3 is a categorical variable
plotmo(fitGAM)

##  plotmo grid:    x1           x2 x3         x4         x5         x6
##           0.1020341 -0.004727961  1 0.03112162 0.02001667 0.01247897
##          x7         x8         x9         x10
##  0.02389123 0.05383556 -0.0144398 -0.08341206

plot of chunk unnamed-chunk-13

library(nnet) ## nnet
set.seed(4)
#fitNN <- nnet(y ~ ., size=20, data=scale(dat), decay=0.01, trace=FALSE)
plotmo(fitNN10, type="raw", all2=2) # type="raw" gets passed to predict

##  plotmo grid:    x1           x2 x3         x4         x5         x6
##           0.1020341 -0.004727961  1 0.03112162 0.02001667 0.01247897
##          x7         x8         x9         x10
##  0.02389123 0.05383556 -0.0144398 -0.08341206

plot of chunk unnamed-chunk-13