안녕하세요 R과 관련하여 추가적으로 필요한 정보가 있으시면,
DATA101에서 확인 가능하십니다.
감사합니다.
안녕하세요, HELLO
데이터 분석 개론서, 실습서 등을 살펴보면, 분석의 기초는 데이터를 왜곡없이 '있는 그대로' 보는 것을 강조합니다. 이처럼 관찰된 데이터를 수치화(평균, 분산, 표준편차 등)된 공통 기준을 활용함으로써 데이터를 정리할 수 있습니다.
이에 따라 데이터 특성을 파악할 수 있는 주요 지표에 대해서 아래와 같이 살펴보겠습니다.
STEP 1. 평균
STEP 2. 중간값
STEP 3. 분산/표준편차
STEP 4. 백분위수
통계량 (Statistics) | R |
평균 (산술평균) | mean() |
조화평균 | 1/mean(1/x) |
중간값 | median() |
분산 | var() |
표준편차 | sd() |
백분위수 | quantile(x, probs=c(,,,,)) |
STEP 0. 실습 데이터
데이터는 아래와 같이 활용해서 진행합니다.
STEP 1. 평균
평균(Mean)은 일반적으로 데이터 전체의 합을 데이터 개수로 나눈 '산술평균'을 의미합니다.
(산술)평균은 mean() 함수로 출력되며, 조화평균은 1/mean(1/x)로 출력됩니다.
# (산술)평균 : mean()
mean(test)
# 조화 평균: 1/mean(1/x)
1/mean(1/test)
STEP 2. 중간값
중앙값(Median)은 데이터를 순서대로 나열할 때 '가운데'에 위치한 값입니다. 이로 인해 중앙값은 이상치에 덜 민감(robust)한 특징을 가지고 있습니다. 추가적으로 데이터 개수가 홀수 또는 짝수일 때는 아래같이 중앙값을 설정합니다.
* 데이터 개수 = '홀수'일 경우, (n+1)/2 번째 값
* 데이터 개수 = '짝수'일 경우, n/2번째와 (n+2)/2번쨰 값의 평균값
# 중앙값: median()
median(test)
STEP 3. 분산/표준편차
분산(Variance)은 표준편차(Standard Deviation)와 함께 일반적으로 사용되는 평균으로부터의 거리를 나타내는 통계량입니다.
# 분산: var()
var(test)
# 표준편차: sd()
sd(test)
STEP 4. 백분위수
백분위수(Percentile)는 오름차순으로 정렬했을 때, 최소값 0부터 최대값 100까지 백분율로 특정 위치를 나타내는 값입니다. 예를 들어 데이터의 90%는 90번째에 위치하고, 데이터의 10%는 10번째에 위치합니다.
추가적으로, 사분위수(Quartile)는 데이터를 균등한 관찰값 수를 합계 100%를 25%, 50%, 75%, 100%로 4개의 그룹으로 나눈 값입니다. 제1 사분위수(또는 하위 사분위수) Q1은 0.25인 값으로 정의됩니다. 즉, 25번째 백분위수와 같습니다. 제3 사분위수(또는 상위 사분위수) Q3은 0.75입니다. 사분위수 범위 IQR(Inter Quartile Range)은 Q3-Q1으로 정의됩니다.
# 백분위수: quantile(var, probs=c(,,))
quantile(test, c(0.1, 0.9)) # 10%, 90% 백분위수
quantile(test, c(0.25, 0.75)) # 사분위수
추가적으로 백분위수와 관련된 파이썬 함수는 아래에서 확인할 수 있습니다.
■ 마무리
R을 활용하기 위한, 데이터 분석 기초(평균, 중간값, 분산, 표준편차, 백분위수)에 대해서 알아봤습니다.
감사합니다.
위 포스팅은 카카오 티스토리, 네이버 블로그에도 동일하게 업로드합니다.
'PROGRAMMING > R' 카테고리의 다른 글
[R] 그래프: 파이 차트 (원 그래프/pie chart) 그리기 (0) | 2021.11.03 |
---|---|
[R] 그래프: 히스토그램(HIST, Histogram) 그리기 (0) | 2021.11.01 |
[R] 그래프: 상자그림 (box plot/box and whisker plot) 그리기 (0) | 2021.10.29 |
[R] 문자열 나누기 및 자르기_strsplit(x , split ='any') (0) | 2021.10.28 |
[R] 데이터 구조 확인하기 str( ), head( ), tail( ) (0) | 2021.10.21 |
댓글