본문 바로가기
STUDY/Statistics

공분산(covariance) 정리, 공식, 특징

by HYUNHP 2022. 1. 16.
728x90
반응형

안녕하세요, HELLO

 

공분산(covariance)은 확률 변수의 선형 관계(직선 관계)가 어느 정도인지를 나타내는 통계값입니다. 오늘은 확률 변수의 선형 관계(직선 관계)인 공분산 (covariance)을 기댓값 (expected value) 성질을 바탕으로 정리하려고 합니다. 

 


CHAPTER 1. '공분산(covariance)' 선행 지식

 

CHAPTER 2. '공분산(covariance)' 정리

 

CHAPTER 3. '기댓값(expected value)' 개념 및 성질

 

CHAPTER 4. '공분산(covariance)' 공식 및 특징

 


CHAPTER 1. '공분산(covariance)' 선행 지식

 

'공분산(covariance)'에 앞서서, '분산(variance)과 표준편차(standard deviation)' 그리고 '결합 분포(joint distribution)'에 대해 내용 정리가 필요한 분들은 이전에 발행한 글을 참고해주시기 바랍니다.

 

2022.01.16 - [DATA_SCIENCE/통계 (Statistics)] - 분산(variance) ,표준편차(standard deviation) 정리, 공식, 특징

 

분산(variance), 표준편차(standard deviation) 정리, 공식, 특징

안녕하세요, HELLO 분산(variance)은 자료가 퍼져 있는 정도를 나타나는 통계값이며, 편차의 제곱합을 통해 구할 수 있습니다. 원래 자료의 측정 단위가 제곱이 되기에, 이를 조정하기 위해 분산에

hyunhp.tistory.com

 

2022.01.14 - [DATA_SCIENCE/통계 (Statistics)] - 결합 분포 (Joint distribution) 정리, 공식, 특징

 

결합 분포 (Joint distribution) 정리, 공식, 특징

안녕하세요, HELLO 결합 분포 (joint distribution)는 두 개 이상의 확률변수들을 동시에 고려한 확률분포입니다. 이번에는 두 개 이상의 확률변수들을 고려한 확률 구조인 결합 분포에 대해서 정

hyunhp.tistory.com


CHAPTER 2. '공분산(covariance)' 정리

 

공분산(covariance)은 확률변수의 선형 관계(직선 관계)가 어느 정도인지를 나타내는 통계값으로 (x1, y1), (x2, y2), (x3, y3),..., (xn, yn) 같이 표시합니다. 공분산은 위치에 따라 선형 관계에는 변화가 없고, 평균을 중심으로 1과 3 사분면에 자료가 많고 길게 분포하면 '양수(+)' 값을 가지고, 2와 4 사분면에 자료가 많고 길게 분포하면, '음수(-)' 값을 가집니다. 그리고 공분산은 평균에서 멀어질수록 선형 관계가 명확해집니다.


CHAPTER 3. '기댓값(expected value)' 개념 및 성질

 

기댓값(expected value)은 확률변수가 가질 수 있는 값에 해당 확률을 곱한 값을 모두 더한 것으로 정의됩니다.

두 확률변수를 고려하기 위해서는 두 변수에 대한 결합 분포(joint distribution)를 전제로 합니다. 이에 따라 확률변수 X와 Y에 대해 기댓값을 구하기 위해서는, 결함확률질량(밀도)함수를 이용해야 합니다. 이산확률변수 X와 Y에 대해 결합확률질량함수 (joint probability mass function) f(x, y)라고 한다면, 확률변수 X+Y와 X*Y의 기댓값은 아래와 같습니다. 이때, 사건 y를 다 더하면 x의 결합확률질량함수가 나오며, 반대로 사건 x를 다 더하면 y의 결합확률질량함수가 나옵니다.

그리고 위 내용을 바탕으로, 기댓값의 성질을 정의할 수 있습니다.

만약에 확률변수 X와 Y가 독립이란 조건이 없다면, 확률변수 X와 Y의 곱은 아래와 같습니다.


CHAPTER 4. '공분산(covariance)' 공식 및 특징

 

공분산 (covariance)은 두 확률변수의 직선 관계 정도를 나타내는 통계 값입니다. 각각의 관측 값에 대해 표본 공분산은 아래와 같습니다.

표본이 가질 수 있는 값을 {x1, x2,..., xk1}, {y1, y2,..., yk2}라고 하며, nij를 표본 중 (xi, yj) 값을 가지는 표본의 수라고 하면 확률변수 X와 Y에 대해 아래처럼 정리할 수 있습니다. 이때 pij는 xi이고 yj인 표본의 비율입니다.

n을 충분히 크게 하여 모집단에 근접하면, n/n-1은 1로 수렴하며, pij는 확률변수 X=xi, Y=yj 일 확률인 f(xi, yj)로 수렴하게 됩니다.

그리고 위 내용을 바탕으로, 공분산의 성질을 정의할 수 있습니다.


■ 마무리

 

'공분산(covariance)'의 공식 및 특징 등에 대해서 정리해봤습니다.

 

그럼 오늘 하루도 즐거운 나날 되길 기도하겠습니다

좋아요댓글 부탁드립니다 :)

 

감사합니다.

 

반응형

댓글