안녕하세요 R과 관련하여 추가적으로 필요한 정보가 있으시면,
DATA101에서 확인 가능하십니다.
감사합니다.
안녕하세요, HELLO
연속된 데이터를 구간별로 나누고, 그 구간에 해당하는 빈도수를 시각화하여, 데이터의 분포 특성을 파악하는 데 유용한 히스토그램(histogram)에 대해서 알아보겠습니다.
STEP 1. 히스토그램(HIST, histogram) 개념
STEP 2. 히스토그램(HIST, histogram) 그리기
STEP 1. 히스토그램(HIST, histogram) 개념
히스토그램(histogram)은 연속형 자료에 대한 도수분포표를 시각화한 그래프다. 이로 인해, 히스토그램의 1개의 막대(봉)는 1개의 구간(가로)과 그 구간 내에 속하는 데이터의 빈도수(세로)를 표현합니다. 이를 통해 빈도수를 시각화함으로 상자그림(boxplot)에서 확인할 수 없던 데이터 특성을 파악할 수 있습니다.
추가적으로 막대(봉)가 표현하는 구간은 '초과 ~ 이하'입니다.
단, 모든 구간을 포함하기 위해 첫 번째 봉은 '이상 ~ 이하'로 빈도수를 잡습니다.
STEP 2. 히스토그램(HIST, histogram) 그리기
히스토그램은 hist() 함수를 통해 생성 가능하며, 기본적인 파라미터는 아래와 같습니다.
hist(x, main, breaks, xlab, ylab) | |
x | 데이터 벡터 |
main | 그래프 제목 |
breaks | 간격 조정 |
xlab | x축 이름 |
ylab | y축 이름 |
파라미터를 설정해서 데이터를 입력하면, 아래와 같이 그래프를 그릴 수 있습니다.
# 데이터 설정
data <- c(5,6,8,10,16,20,21,22,23,24,25,30,32,34,
44,56,33,45,67,51,52,53,65,70)
# 히스토그램 그리기
hist(x=data, main ='HISTOGRAM', xlab ='Data', ylab = 'Range')
구간 간격(breaks) 설정을 통해 그래프의 구간을 달리 그릴 수 있습니다. 단, 구간 간격이 같을 때는 세로축에 '건수(frequency)로 표현되지만, 구간 간격이 일정하지 않으면 * 확률밀도로 표현됩니다.
* probability density, 연속확률변수가 특정 구간 내 속할 확률
# 구간 간격(breaks)이 일정한 경우
# 세로축 건수(frequency)로 표현됨
hist(x=data, breaks = c(0,10,20,30,40,50,60,70))
# 단, 구간 간격(breaks)이 일정하지 않은 경우
# 세로축 확률밀도(probability density)로 표현됨
hist(x=data, breaks = c(0,16,23,46,60,70))
# 추가적으로, 일정하지 않는 구간에도 freq = T 설정하면
# 세로축에 건수(frequency)로 표현 가능함
hist(x=data, breaks = c(0,16,23,46,60,70), freq = T)
추가적으로, 상자그림(box plot)에 대해서 궁금하면, 하단에서 확인 가능합니다.
■ 마무리
R에서 히스토그램(HIST, histogrma) 개념 및 적용 방법에 대해서 알아봤습니다.
감사합니다.
위 포스팅은 카카오 티스토리, 네이버 블로그에도 동일하게 업로드합니다.
'PROGRAMMING > R' 카테고리의 다른 글
[R] 막대 차트, 막대 그래프 (Bar plot) 그리기 (0) | 2022.01.13 |
---|---|
[R] 그래프: 파이 차트 (원 그래프/pie chart) 그리기 (0) | 2021.11.03 |
[R] 그래프: 상자그림 (box plot/box and whisker plot) 그리기 (0) | 2021.10.29 |
[R] 문자열 나누기 및 자르기_strsplit(x , split ='any') (0) | 2021.10.28 |
[R] 데이터 분석 기초(평균, 중간값, 분산, 표준편차, 백분위수) (0) | 2021.10.28 |
댓글