본문 바로가기
STUDY/Statistics

산포(Dispersion) 정리, 공식, 특징

by HYUNHP 2022. 1. 14.
반응형

안녕하세요, HELLO

 

산포(Dispersion)는 자료들이 얼마나 퍼져 있는지를 나타내는 측도​입니다. 자료의 분포가 조밀한 경우에는 중심 위치(평균)의 변동성이 작아지고, 넓게 분포된 경우에는 중심 위치의 변동성이 커집니다. 오늘은 산포(Dispersion)에 대해서 알아보겠습니다.


STEP 1. '중심 위치' 개념

STEP 2. '범위 (Range)과 사분위(간) 범위 (Interquartile-Range)' 개념

STEP 3. '표본분산 (Sample variance), 표본표준편차 (Sample standard deviation)과 표준화 (Standarization)' 개념

STEP 4. '변동계수 (Coefficient of variation) ' 개념

 


STEP 1. '중심 위치' 개념

 

중심 위치는 n 개의 수치자료 (x1, x2, x3, ..., xn)의 가운데 값을 의미합니다. 가장 많이 사용되는 중심 위치의 통계 값으로는 평균(mean)이 있습니다. 평균에는 표본의 합을 표본크기로 나눈 값인 표본평균(sample mean)이 있습니다.

추가적으로, n 번째 관측 값이 어떤 범주에 포함된 표본의 수를 y라고 했을 때 (y = x1 + x2 + ... + xn), 표본 비율 (sample proportion)을 y/n으로 정의됩니다. 해당 범주에 포함된 표본의 수를 표본크기로 나눈 것은 아래와 같이 전체 표본을 표본 크기로 나눈 것과 같기에, 일종의 표본평균으로 볼 수 있습니다.


STEP 2. '범위 (Range)과 사분위(간) 범위 (Interquartile-Range)' 개념

 

범위 (Range)는 자료 중 가장 큰 값과 작은 값의 차이를 의미합니다. 최댓값과 최솟값에만 영향을 받기 때문에, 자료 전체의 퍼져있는 산포 정도를 파악할 수 없습니다. 그리고 자료를 동일한 비율로 4등분 할 때의 세 위치를 사분위수(quartile)라고 하며, 자료를 오름차순으로 정렬했을 때 아래와 같이 정리할 수 있습니다.

 

- 25% 지점: 제1사분위 수(Q1)

- 50% 지점: 제2사분위 수(Q2) = 표본 중앙값

- 75% 지점: 제3사 분위수(Q3)


STEP 3. '표본분산 (Sample variance), 표본표준편차 (Sample standard deviation)과 표준화 (Standarization)' 개념

 

데이터의 떨어진 정도인 산포(dispersion)는 모든 자료들 간의 거리의 합을 이용해 확인할 수 있습니다. 아래와 같은 정의가 성립하는 것을 거리(distance)라고 합니다.

 


ⓐ 표본분산 (Sample variance)

 

표본분산(sample variance)은 표본의 산포를 확인하는 통계값으로, 편차의 제곱합을 (n-1) 개의 편차 정보를 통해 확인합니다.

이때, n 번째 편차 정보는 표본평균에서 (n-1)까지의 표본을 더한 것을 뺀 값과 동일하기에, 통계적 추론으로 (n-1) 개의 편차 정보만 활용합니다. 이때, n-1을 degree of freedom, 자유도라고 합니다. 이는 표본평균의 값은 정해진 상수이기에, (n-1)까지의 합까지 더하면 나머지 값인 n은 정해지기 때문입니다.


ⓑ 표본표준편차 (Sample standard deviation)

 

표본분산은 편차의 제곱합을 이용하기 때문에 분산의 단위는 관측 값 단위의 제곱이 됩니다. 그래서 눈으로 이해하는 산포와 일치하기 위해서는 자료를 측정할 때의 단위로 표시할 필요가 있어, 표본표준편차 (sample standard deviation)은 표준편차에 제곱근을 통해 구합니다.


ⓒ 표준화 (Standardization)

 

서로 다른 표본의 크기, 범위 등을 비교하기 위해, 측정 단위에 영향을 받지 않게 중심 위치와 척도를 조정해 절대 비교 가능하도록 조정하는 것을 표준화 (standardization)이라고 합니다. 이는 평균 0, 표준편차 1로 조정함으로써 측정 단위에 영향을 받지 않으며,서로 다른 자료 간의 비교가 가능하게 합니다.


STEP 5. '변동계수 (Coefficient of variation) ' 개념

 

변동계수(coefficient of variation, CV)는 표준편차만 이용하여 산포를 비교하는 것은 적절하지 않을 수 있어 평균으로 표준편차를 보정한 것입니다. 그리고 100을 곱해 표본평균에 비해 표본표준편차가 얼마나 큰지를 % 개념으로 표시하기도 합니다.


■ 마무리

 

'산포 (Dispersion)'와 '중심 위치, 표본분산, 표본표준편차'의 공식 및 특징 등에 대해서 정리해봤습니다.

 

그럼 오늘 하루도 즐거운 나날 되길 기도하겠습니다

좋아요댓글 부탁드립니다 :)

 

감사합니다.

 

반응형

댓글