안녕하세요, HELLO
데이터 모델링에서 수치형 데이터 (Numerical Data)에서 피처 정규화 (Feature Normalization)가 중요할까요?
1. 수치형 데이터란?
수치형 데이터는 주사위 눈금, 인구수 등 나눌 수 있는 이산형 숫자 데이터와 키, 몸무게 등 나눌 수 없는 연속형 숫자 데이터로 나눠집니다.
2. 피처 정규화란?
피처 정규화 (Feature normalization)는 데이터의 범위를 특정 구간의 범위로 조절해 주는 방법입니다. 정규화는 달러, 원화, 엔화 등 단위가 다른 경우, 계산 난이도를 낮추기 위함 등의 목적으로 진행됩니다.
대표적인 정규화 기법으로는 최댓값-최솟값을 활용한 min-max scaling, 데이터 분포의 평균, 분산을 활용한 z-normalization, log normalization 그리고 min-max scaling에서 상위/하위 n% 이상치 (outlier)를 배제하는 winserlizing 등이 있습니다.
3. 수치형 데이터에서 피처 정규화가 중요할까요?
수치형 데이터에서 피처 정규화는 결론적으로 중요합니다.
우선, 계산 난이도 측면에서 중요합니다. 딥러닝은 대규모 데이터 연산이 이루어지기 때문에, 단위가 큰 수치형 데이터를 계산하는 경우 계산 난이도가 증가하며 동일한 결과를 도출하기 위해 정규화를 진행하지 않으면 오랜 시간이 소요될 수 있습니다.
또한, 각 피처의 값이 다른 범위에 분포하는 경우, 피처들 간에 직접적인 비교나 연산이 어려워집니다. 예를 들어, 키와 몸무게가 각각 수치형 피처이지만 단위가 다르기 때문에 직접적인 비교가 어렵습니다. 정규화를 통해 피처들을 동일한 범위로 맞추면, 비교와 연산이 가능해지고 모델 학습에 유리합니다.
또한, 일부 머신 러닝 알고리즘은 입력 데이터의 범위에 따라 가중치를 부여하거나 거리를 계산하는 경우가 있습니다. 이런 경우에 정규화된 데이터는 모델의 성능을 향상할 수 있습니다.
다만, 피처 정규화를 진행할 때는 min-max scaling, z-normalization 등의 방법은 outlier에 큰 영향을 받을 수 있습니다. 따라서 이상치를 처리하는 방법에 대해서도 고려해야 합니다. 이상치가 포함된 데이터의 경우, 통계적인 방법이나 이상치 탐지 알고리즘을 활용하여 제거하는 것이 좋습니다.
4. 추가적으로, 범주형 데이터에서 피처 정규화가 중요할까요?
범주형 데이터에서 피처 정규화의 중요성에 대해 추가적으로 이해해 보겠습니다. 범주형 데이터는 순서나 크기의 의미를 가지지 않으며, 해당 데이터를 모델에 적용하기 위해서는 수치형으로 변환해야 합니다.
주로 사용되는 변환 기법은 원-핫 인코딩과 레이블 인코딩입니다. 원-핫 인코딩은 각 범주형 값에 대해 이진 형태의 새로운 피처를 생성하는 방법입니다. 이를 통해 각 범주형 값은 0과 1로 표현되며, 모델이 범주 간의 관계를 이해할 수 있습니다. 레이블 인코딩은 범주형 값을 정수로 매핑하여 수치형 데이터로 변환하는 방법입니다. 이러한 변환을 통해 범주형 데이터도 모델에 적용할 수 있게 되며, 정규화 과정은 범주형 데이터에는 적용되지 않습니다.
그러나 범주형 데이터의 경우 피처 엔지니어링이 중요하며, 변환 기법에 따라 모델의 성능에 영향을 줄 수 있습니다. 예를 들어, 원-핫 인코딩을 적용하면 범주의 개수에 따라 피처의 차원이 증가할 수 있으며, 이는 모델의 복잡성을 증가시킬 수 있습니다. 따라서 범주형 데이터의 경우 적절한 피처 엔지니어링과 모델링 기법을 선택하여 데이터를 전처리하는 것이 중요합니다.
■ 마무리
오늘은 '수치형 데이터에서 피처 정규화의 중요성'에 대해서 알아봤습니다.
좋아요와 댓글 부탁드리며,
오늘 하루도 즐거운 날 되시길 기도하겠습니다 :)
감사합니다.
'DATA_SCIENCE > DATA' 카테고리의 다른 글
[DATA] 스타트업 지원 사업 클러스터링 및 워드클라우드 (0) | 2022.04.14 |
---|---|
2022년 상반기 서강대학교 정보통신대학원 데이터 사이언스 합격 후기 (21) | 2022.01.13 |
댓글