정규화(Normalization), 표준화(standardization), 이상치(outlier) 제거를 구현해본 코드입니다. 2021. 9. 17 - 최초작성 2022. 4. 15 졍규화는 값을 0 ~ 1 사이의 범위로 바꾸는 것이고, 표준화는 평균이 0, 표준편차는 1 인 표준정규분포(standard normal distribution)로 바꾸는 것입니다. 표준화의 경우 값의 범위가 정해지지 않습니다. 아래 링크에 따르면 데이터가 정규분포를 따르는 경우에는 표준화, 정규분포를 따르지 않는 경우에는 정규화를 하는 것이 좋다고 합니다. ( 참고 - https://www.analyticsvidhya.com/blog/2020/04/feature-scaling-machine-learning-normalizat..
표준화 전후로 이상치(Outlier)를 제거하는 Python 예제 코드입니다. 2022. 4. 5 최초작성 이상치는 대부분의 값과 다르게 아주 작거나 아주 큰 값을 의미합니다. 평균 ± 표준편차 × 3 을 벗어나는 것을 이상치로 취급하여 제거해본 예제 코드입니다. 표준화를 적용 전후에 각각 이상치를 제거해봤습니다. 전체 코드입니다. import pandas as pd import numpy as np import matplotlib.pyplot as plt from collections import Counter # 5개의 특징으로 구성된 샘플 40개 생성 a = np.random.randint(1, 13, size=200).reshape(40, 5) df_raw = pd.DataFrame(a) # 0번..