본문 바로가기
STUDY/Statistics

초기하 분포(Hypergeometric distribution) 정리, 공식, 특징

by HYUNHP 2022. 1. 16.
반응형

안녕하세요, HELLO

 

초기하 분포(hypergeometric distribution)는 유한 모집단이 두 그룹으로 나누어져 있고 표본을 비복원으로 추출할 때 특정 그룹에서 뽑힌 표본의 수에 대한 확률분포입니다. 오늘은 베르누이 시행을 따르는 초기하 분포의 정의와 성질에 대해서 살펴보고자 합니다.

 


CHAPTER 1. '초기하 분포(hypergeometric distribution)' 선행 지식

 

CHAPTER 2. '초기하 분포(hypergeometric distribution)' 정리

 

CHAPTER 3. '초기하 분포(hypergeometric distribution)' 공식 및 특징

 


CHAPTER 1. '초기하 분포(hypergeometric distribution)' 선행 지식

 

'초기하 분포(hypergeometric distribution)'에 앞서서, '베르누이 시행' 그리고 '이항분포'에 대해 내용 정리가 필요한 분들은 이전에 발행한 글을 참고해주시기 바랍니다.

 

2022.01.16 - [DATA_SCIENCE/통계 (Statistics)] - 베르누이 시행(Bernoulli trial) 정리, 공식, 특징

 

베르누이 시행(Bernoulli trial) 정리, 공식, 특징

안녕하세요, HELLO 각 실험에서 발생 가능한 결과가 (성공, 실패), (앞면, 뒷면) 등으로 단 2가지인 경우를 베르누이 시행(Bernoulli trial)이라고 합니다. 오늘은 독립 시행에 대표적인 베르누이 시행,

hyunhp.tistory.com

2022.01.16 - [DATA_SCIENCE/통계 (Statistics)] - 이항분포(Binomial distribution) 정리, 공식, 특징

 

이항분포(Binomial distribution) 정리, 공식, 특징

안녕하세요, HELLO 성공할 확률이 p인 베르누이 시행(각 실험에서 발생 가능한 결과가 단 2가지인 경우)를 n 번 반복했을 때 성공 횟수(X)의 분포를 이항분포 (binomial distribution)이라고 합니다. 오늘

hyunhp.tistory.com


CHAPTER 2. '초기하 분포(hypergeometric distribution)' 정리

 

모집단이 유한하며, 크기가 N인 모집단에서 크기가 M과 N−M인 두 개의 부모 집단 (A, B)에서 n 개의 표본을 비복원 추출할 때, 목표하는 부모 집단(A)에서 추출된 표본 수의 분포를 의미합니다. 비복원으로 추출하기에, 각 표본의 추출 과정은 독립적이지 않은 특징이 있습니다.

초기하 분포의 일반식은 다음과 같습니다. 분모는 전체 N 개 중 n 개의 표본을 선택하는 조합의 수이고, 분자는 목표하는 부모 집단 (A)에서 M 개에서 x 개를 선택하고, 나머지 부모 집단 (B)에서 N−M 개에서 n−x 개를 선택하는 조합의 수입니다.

여기서 X의 최댓값은 n과 M 중 작은 값인 min(n, M)이 되며, X의 최솟값은 max(0, n-N+M)가 됩니다. 추가적으로 N(모집단)이 충분히 크고 n(표본의 크기)이 상대적으로 작은 경우에는, 비복원 추출의 결과를 베르누이 시행으로 간주할 수 있으며, 이에 따라 초기화 분포는 p = M/N인 이항분포로 근사할 수 있습니다.


CHAPTER 3. '초기하 분포(hypergeometric distribution)' 공식 및 특징

 

초기하 분포의 각 시행에서 목표하는 부모 집단 (A)에서 추출되면 1 값을 가지고, 다른 집단에서 추출되면 0으로 표시한 확률변수의 합으로 표시하면, 각 집단에서 추출되는 확률은 아래와 같습니다.

이를 바탕으로초기하 분포의 기댓값은 다음 식으로 나타낼 수 있습니다.

분산의 경우, 이항분포와 다르게 비복원 추출로 진행되기에 각각의 시행이 독립이 아닙니다. 따라서 공분산 계수를 더해서 구해야 됩니다.

위 내용을 바탕으로 일반식으로 정리하면 다음 식으로 표현됩니다.

초기하 분포의 분산은 이항분포의 분산에 유한 모집단 수정계수 Nn/N1을 곱한 값을 갖습니다. 초기하 분포의 분산은 n 값이 커질수록, 분산이 작아지며, 변동성이 줄어드는 것을 확인할 수 있습니다.

 


■ 마무리

 

'초기하 분포(hypergeometric distribution)'의 공식 및 특징 등에 대해서 정리해봤습니다.

 

그럼 오늘 하루도 즐거운 나날 되길 기도하겠습니다

좋아요댓글 부탁드립니다 :)

 

감사합니다.

 

반응형

댓글