본문 바로가기
PROGRAMMING/R

[R] 그래프: 상자그림 (box plot/box and whisker plot) 그리기

by HYUNHP 2021. 10. 29.
728x90
반응형

안녕하세요 R과 관련하여 추가적으로 필요한 정보가 있으시면,

DATA101에서 확인 가능하십니다.

감사합니다.


 

안녕하세요, HELLO

 

데이터를 시각화를 통해 전체적인 모습을 확인하는 방법 중에 '사분위수(Quarter Percentile)와 이상치(Outlier)'을 시각화하여, 데이터의 중심과 분포를 파악하는 데 편리한 상자그림(box plot/box and whisker plot)에 대해서 알아보겠습니다.

 


STEP 1. 상자그림(box plot) 개념

 

STEP 2. 상자그림(box plot) 그리기


 

STEP 1. 상자그림(box plot) 개념

 

상자그림(box plot)은 중앙값, 제1사분위수, 제3사분위수 등의 기술 통계량을 상자 모양으로 나타낸 그래프입니다.

 

상자그림과 각 요소별 의미는 아래와 같습니다.

 

1. 상자의 아래 부분: 제1사분위수(q1)

 

2. 상자의 윗 부분: 제3사분위수(q3)

 

3. 상자의 중앙에 표신된 선: 중앙값(median)

 

4. 상자의 크기: 제3사분위수-제1사분위수(q3-q1)으로 구분된 사분위수 범위(IQR)

 

5. 상자 위 아래로 더듬이(수염, whisker)처럼 생긴 선: 최소값 또는 최대값

 

6. 상자의 위 아래로 1.5*사분위수(IQR)을 넘은 부분: 이상치(outlier)

 

 

상자그림(boxplot) 설명

 


 

STEP 2. 상자그림(box plot) 그리기

 

# 데이터 생성
boxdata <- c(21,22,23,24,25)
# boxplot 그리기
boxplot(boxdata)

 

그리고 boxplot은 여러개 데이터를 묶어서 생성 가능합니다.

# 데이터 생성
boxdata_1 <- c(16,20,21,22,23,24,25,30,32,34)

# boxplot 묶어 그리기
boxplot(boxdata, boxdata_1, names = c('case 1', 'case 2'))

 

생성된 boxplot에 points() 함수를 활용해, 추가적인 정보를 추가 가능합니다.

 

points(x, pch, col, cex)
x 표시하고 싶은 점의 위치를 지정한 벡터
pch 점의 모양 설정
col 점의 색깔
cex 점의 크기

 

추가적으로, 이상치를 산정할 때 기본적으로 IQR의 1.5배를 적용하지만, IQR 대비 배수를 별도로 설정함으로써 이상치 기준을 변경할 수 있습니다.

 

# 이상치 기준 변경하기
boxdata_2 <- c(16,21,22,23,24,25,30)

boxplot(boxdata_2)
boxplot(boxdata_2, range = 2)

 


■ 마무리

R에서 상자그림 (box plot/box and whisker plot) 개념 및 적용 방법에 대해서 알아봤습니다.

감사합니다.

위 포스팅은 카카오 티스토리, 네이버 블로그에도 동일하게 업로드합니다.

 

 

반응형

댓글