본문 바로가기
STUDY/Statistics

상관계수(coefficient of correlation) 정리, 공식, 특징

by HYUNHP 2022. 1. 16.
728x90
반응형

안녕하세요, HELLO

 

상관계수(coefficient of correlation)는변수 간의 상관관계의 정도를 수치적으로 표현하는 통계값입니다. 오늘은 확률 변수 간의 상관관계 정도를 나타내는 통계 값인 상관계수 (coefficient of correlation) 기댓값(expected value) 성질을 바탕으로 정리하려고 합니다.


CHAPTER 1. '상관계수(coefficient of correlation)' 선행 지식

 

CHAPTER 2. '관계수(coefficient of correlation)' 정리

 

CHAPTER 3. '기댓값(expected value)' 개념 및 성질

 

CHAPTER 4. '관계수(coefficient of correlation)' 공식 및 특징


CHAPTER 1. '상관계수(coefficient of correlation)' 선행 지식

 

'상관계수(coefficient of correlation)'에 앞서서, '분산(variance)과 표준편차(standard deviation)' 그리고 '결합 분포(joint distribution)'에 대해 내용 정리가 필요한 분들은 이전에 발행한 글을 참고해주시기 바랍니다.

 

2022.01.16 - [DATA_SCIENCE/통계 (Statistics)] - 분산(variance) ,표준편차(standard deviation) 정리, 공식, 특징

 

분산(variance), 표준편차(standard deviation) 정리, 공식, 특징

안녕하세요, HELLO 분산(variance)은 자료가 퍼져 있는 정도를 나타나는 통계값이며, 편차의 제곱합을 통해 구할 수 있습니다. 원래 자료의 측정 단위가 제곱이 되기에, 이를 조정하기 위해 분산에

hyunhp.tistory.com

 

2022.01.14 - [DATA_SCIENCE/통계 (Statistics)] - 결합 분포 (Joint distribution) 정리, 공식, 특징

 

결합 분포 (Joint distribution) 정리, 공식, 특징

안녕하세요, HELLO 결합 분포 (joint distribution)는 두 개 이상의 확률변수들을 동시에 고려한 확률분포입니다. 이번에는 두 개 이상의 확률변수들을 고려한 확률 구조인 결합 분포에 대해서 정

hyunhp.tistory.com


CHAPTER 2. '관계수(coefficient of correlation)' 정리

 

상관계수(coefficient of correlation)는 두 확률변수의 상관관계의 정도를 수치적으로 표현한 통계값입니다. 표본의 수치, 측정 단위에 영향을 받지 않기 위해 표준화된 자료의 표본 공분산인 표본상관계수(sample coefficient of correlation)는 아래와 같이 구할 수 있습니다.

그리고 Cauchy-Schwartz 부등식에 따라, 표본상관계수(r)는 -1 이상 그리고 1 이하의 값을 가지게 됩니다. 이러한 특징에 따라 직선에 모일수록 표본상관계수는 1에 근접하며, 모든 관측 값들이 직선 위에 위치하면 1이 됩니다. 두 확률 변수는 표본상관계수가 음수면 음의 상관관계를, 양수면 양의 상관관계를 가지고, 0이며 상호 간에 상관관계가 없다고 할 수 있지만, 이는 어떤 관계도 존재하지 않는다는 것은 아닙니다.


CHAPTER 3. '기댓값(expected value)' 개념 및 성질

 

기댓값(expected value)은 확률변수가 가질 수 있는 값에 해당 확률을 곱한 값을 모두 더한 것으로 정의됩니다.

두 확률변수를 고려하기 위해서는 두 변수에 대한 결합 분포(joint distribution)를 전제로 합니다. 이에 따라 확률변수 X와 Y에 대해 기댓값을 구하기 위해서는, 결함확률질량(밀도)함수를 이용해야 합니다. 이산확률변수 X와 Y에 대해 결합확률질량함수 (joint probability mass function) f(x, y)라고 한다면, 확률변수 X+Y와 X*Y의 기댓값은 아래와 같습니다. 이때, 사건 y를 다 더하면 x의 결합확률질량함수가 나오며, 반대로 사건 x를 다 더하면 y의 결합확률질량함수가 나옵니다.

그리고 위 내용을 바탕으로, 기댓값의 성질을 정의할 수 있습니다.

만약에 확률변수 X와 Y가 독립이란 조건이 없다면, 확률변수 X와 Y의 곱은 아래와 같습니다.


CHAPTER 4. '관계수(coefficient of correlation)' 공식 및 특징

 

표본상관계수는 표준화 변수들의 공분산을 의미하며, 모집단의 확률변수에 대한 공분산을 뜻합니다.

두 확률변수 X와 Y의 상관계수는 다음과 같이 정리할 수 있습니다.

위 내용을 정리하면 상관계수의 성질을 아래와 같이 정의할 수 있습니다.

여기서 sign(a)와 sign(c)는 부호 함수로 a와 c가 양수면 1을, 음수이면 -1, 0이면 0을 갖습니다.


■ 마무리

 

'관계수(coefficient of correlation)'의 공식 및 특징 등에 대해서 정리해봤습니다.

 

그럼 오늘 하루도 즐거운 나날 되길 기도하겠습니다

좋아요와 댓글 부탁드립니다 :)

 

감사합니다.

 

 

반응형

댓글