본문 바로가기
STUDY/Statistics

다항 분포 (Mulitinomial distribution) 정리, 공식, 특징

by HYUNHP 2022. 1. 16.
반응형

안녕하세요, HELLO

 

다항 분포(multinomial distribution)는 발생 가능한 결과가 2개인 이항 분포와 다르게, 여러 개인 다항인 확률 분포입니다. 이항분포의 확장된 형태인 다항 분포에 대해서 정리하려고 합니다.

 


CHAPTER 1. '다항 분포(multinomial distribution)' 선행 지식

 

CHAPTER 2. '다항 분포(multinomial distribution)' 정리

 

CHAPTER 3. '다항 분포(multinomial distribution)' 공식 및 특징

 


CHAPTER 1. '다항 분포(multinomial distribution)' 선행 지식

 

'다항 분포(multinomial distribution)'에 앞서서, '이항분포'에 대해 내용 정리가 필요한 분들은 이전에 발행한 글을 참고해주시기 바랍니다.

 

2022.01.16 - [DATA_SCIENCE/통계 (Statistics)] - 이항분포(Binomial distribution) 정리, 공식, 특징

 

이항분포(Binomial distribution) 정리, 공식, 특징

안녕하세요, HELLO 성공할 확률이 p인 베르누이 시행(각 실험에서 발생 가능한 결과가 단 2가지인 경우)를 n 번 반복했을 때 성공 횟수(X)의 분포를 이항분포 (binomial distribution)이라고 합니다. 오늘

hyunhp.tistory.com


CHAPTER 2. '다항 분포(multinomial distribution)' 정리

 

다항분포는 이항분포의 특징에서 확장된 형태로, 세 가지 조건을 달성합니다.

 

1. 각 시행에서 발생 가능한 결과의 개수는 k 개입니다.

- 이항분포는 발생 가능한 결과가 2개인 것에 비해, 다항 분포는 여러 개 결과를 가집니다.

 

2. 각 시행에서 i 번째 결과의 확률은 Pi로 고정됩니다.

3. 각 시행은 독립적으로 수행됩니다.

 

위 내용을 바탕으로, 확률변수 X1, X2,..., Xn은 n 번 시행했을 때의 다항 분포표를 그려보겠습니다.

여기서 Xij는 (i 번째 범주의 시행)에서 (j 번째 결과)를 의미하며, Xij의 값은 j가 나오면 1, 안 나오면 0을 가집니다. 각각의 시행에는 하나의 결과만이 나올 수 있어서, 각 시행의 합{(1 x 1) + (0 x (k-1)) = 0}은 항상 1을 가집니다. 

그리고 서로 다른 범주 (i ≠ j)의 시행 결과는 서로 독립입니다.

이를 바탕으로 다항분포의 기댓값과 분산은 아래처럼 정의됩니다.


CHAPTER 3. '다항 분포(multinomial distribution)' 공식 및 특징

 

□ 확률질량함수

 

다항 분포는 이항분포의 확장된 형태를 가지기에, 이항분포의 개념을 연결해서 생각하면 쉽습니다.

이항분포 X~ B(n, p)의 확률질량함수는 아래처럼 작성할 수 있습니다.

그리고 식을 변형하면 아래처럼, 두 개의 확률변수의 확률질량함수로 정리할 수 있습니다.

위 내용을 토대로 두 개의 확률변수를 여러 개의 확률변수로 확장하면, 다항 분포의 확률질량함수로 정리할 수 있습니다.


□ 공분산

 

다항 분포 확률변수 간의 관계를 공분산을 통해 확인할 수 있습니다.

다항 분포의 서로 다른 범주 (i ≠ j)의 시행 결과는 서로 독립이기에, cov(X11, X22)와 cov(X21, X12)는 0이 됩니다.

- 공분산은 서로 독립일 때, 0 값을 가집니다.

 

여기서 각각의 시행에는 하나의 결과만이 나오기에, 각 시행의 합{(1 x 1) + (0 x (k-1)) = 0}은 항상 1이 됩니다. 그래서 두 확률변수의 관계는 (1,0), (0,0), (0,1) 세 가지만 가집니다. 이로 인해 두 확률변수 곱의 기댓값은 항상 0 값을 가집니다. (1x0=0, 0x0=0, 0x1=0)

 

최종적으로 두 다항 분포 확률변수의 공분산은 아래와 같습니다.

이를 바탕으로 다항분포 확률변수의 분산을 구할 수 있습니다.


□ 상관계수

 

다항 분포의 상관계수는 아래와 같습니다.

이때, pi/(1-pi)인 (성공 확률/실패 확률)은 통계학에서 비율에 대해 추종할 때 중요한 개념이기에 별도로 '오즈 (odd)'라고 정리합니다.


■ 마무리

 

'다항 분포'의 공식 및 특징 등에 대해서 정리해봤습니다.

 

그럼 오늘 하루도 즐거운 나날 되길 기도하겠습니다

좋아요댓글 부탁드립니다 :)

 

감사합니다.

 

반응형

댓글