데이터 정규화 방법 중 최소-최대 정규화와 z-점수 정규화의 차이점은 무엇인가요?
데이터를 전처리 할 때 정규화하는 방법 중 최소-최대 정규화와 z-점수 정규화가 있는 것으로 알고 있습니다.
두 방법 모두 데이터를 정규화하는 방법이지만 경웨 따라서 어떤 방식이 더 올바른 선택인지 그 차이점이 궁금합니다.
안녕하세요! 데이터 정규화 방법에 대해 궁금하신가 보네요. 최소-최대 정규화는 데이터를 0과 1 사이의 값으로 변환하는 방법으로, 데이터의 최소값을 0, 최대값을 1로 맞추는 방식이에요. 반면, z-점수 정규화는 데이터의 평균을 0, 표준편차를 1로 맞추는 방법으로, 데이터가 정규분포를 따를 때 유용해요. 최소-최대 정규화는 데이터의 범위가 일정할 때 효과적이고, z-점수 정규화는 이상치에 덜 민감해요. 따라서 데이터의 특성과 분석 목적에 따라 적절한 방법을 선택하면 됩니다!
최소-최대 정규화(Min-Max Normalization)
- 데이터를 0과 1 사이의 값으로 변환합니다.
- 계산 방식: (x - min(x)) / (max(x) - min(x))
- 장점: 데이터의 상대적 크기 관계를 유지할 수 있습니다.
- 단점: 이상치(outlier)에 민감합니다. 이상치가 있는 경우 정규화된 데이터의 범위가 좁아질 수 있습니다.
Z-점수 정규화(Z-Score Normalization)
- 데이터를 평균 0, 표준편차 1의 표준 정규 분포로 변환합니다.
- 계산 방식: (x - mean(x)) / std(x)
- 장점: 이상치에 강건합니다. 이상치가 있어도 정규화된 데이터의 범위가 크게 변하지 않습니다.
- 단점: 각 feature 간의 상대적 거리가 왜곡될 수 있습니다.