왜도와 첨도
왜도와 첨도(Skewness and Kurtosis)
- 여기서는 표본 왜도와 표본 첨도를 구하는
package:e1071
의skewness
함수와kurtosis
함수를 살펴본다. - 차례
- 표본 분산
- 표본 왜도
- 표본 첨도
표본 분산
- 먼저 어떤 확률 변수 \(X\) 의 분산은 다음과 같이 구한다. 이는 모집단의 분산이다.
- 이산형인 경우 : \(\mathbb{V}\text{ar}(X) = \sum{\mathbb{P}(X=x_i)\cdot x_i}\)
- 연속형인 경우 : \(\int f(X=x) x dx\)
- 우리가 모집단을 모두 알 수 없을 때, 표본을 통해 모집단의 분산을 추정할 수 있다. 만약 표본에 대해 모집단 표본을 구할 때와 동일한 방식을 쓴다면, 표본의 크기가 커짐에 따라 매우 정확한 값을 구할 수 있을 것이다. 하지만 분산을 구할 때 사용하는 평균이 모평균과 정확하게 일치하지 않기 때문에 표본 분산은 모분산을 과소추정하는 경향이 있다. 이를 보정하기 위해 표본 분산을 구할 때에는 표본의 크기 \(n\) 이 아니라 \(n-1\) 로 나눠준다.
- 표본 분산 : \(\sum \frac{(x_i – \bar{x})^2}{n-1}\)
- R의
var()
함수는 표본 분산을 구해준다.
표본 왜도
- 모집단의 왜도는 다음과 같이 구한다.
- \(\mathbb{E}[\left(\frac{X-\mu}{\sigma}\right)^3]\)
- 간단하게 설명하면 확률변수 \(X\) 를 표준화시킨 \(\frac{X-\mu}{\sigma}\) 의 세제곱의 평균이다.
- 모집단의 왜도를 표본을 통해 추정하고자 한다고 해보자. 우리는 대부분의 경우 모평균 \(\mu\) 와 모표준편차 \(\sigma\) 를 모두 모르기 때문에 표본 평균과 표본 표준편차를 적절히 사용하고, 과소 추정 또는 과대 추정의 문제를 해결해야 할 것이다. 이에 대해서는 세 가지 방법이 제안되었다. 여기서 \(s\) 는 표본표준편차이고, \(m_2 = \sum_i (x_i-\mu)^2/n\) 과 \(m_3 = \sum_i (x_i-\mu)^2/n\) 는 표본 2차 중심적률(central moment), 표본 3차 중심적률(central moment)이다.
- Type 1: \(g_1 = m_3/m_2^{3/2}\) . 주로 예전 교과서에서 쓰였다.
- Type 2: \(G_1 = g_1 * \sqrt{n(n-1)}/(n-2)\) . SAS와 SPSS에서 쓰인다.
- Type 3: \(b_1 = m_3/s^3=g_1\left(\frac{n-1}{n}\right)^{3/2}\)
- R의 함수
e1071::skewness(x= , type= )
에서type
을 설정해줄 수 있다. 기본값은3
이고, 모든 Type이 정규분포에서 비편향 추정량이라고 한다.[1]
표본 첨도
- 모집단의 첨도는 다음과 같이 구한다.
- \(\frac{\mathbb{E}[(X-\mu)^4]}{(\mathbb{V}ar[X])^2}\)
- 표본 첨도에도 3가지 Type이 있다.
- Type 1: \(g_2 = m_4 / m_2 ^2 – 3\) . 예전 교과서에서 많이 쓰였다.
- Type 2: \(G_2 = ((n+1)g_2 + 6) * (n-1) / ((n-2)(n-3))\) . SAS와 SPSS에서 쓰인다.
- Type 3: \(b_2 = m_4 /s^4 – 3 = (g_2+3)(1-1/n)^2-3\) . MINITAB과 BMDP에서 쓰인다.
- Type 2만 정규분포에서 비편향적이다.
- R에서는
e1071::kurtosis(x=, type= )
에서 type을 설정할 수 있다.
- 모첨도와 표본 첨도의 비교
- 모첨도의 경우 항상 1보다 크다. 정규분포의 경우 모첨도가 3이므로 정규분포와의 비교를 위해 3을 빼는 경우도 있다. 이렇게 첨도에 3을 뺀 값을 excess kurtosis라고 한다.
- 위에서 소개한 표본 첨도는 모첨도에 3을 뺀 excess kurtosis를 추정하는 값이라고 할 수 있다. 따라서 모집단이 정규분포를 따른다면 표본 첨도는 0과 가까이 분포할 것이다.
[1]: package:e1071
문서, Joanes and Gill(1998)
Leave a comment