데이터 스케일링이 필요한 이유는 컬럼 간의 차이가 너무 크면 분석이 힘들기 때문이다(Age는 많아봐야 100살인데, Salary는 수십만이 될수도).
혹은 수능 만점(500점인가?)과 토익 만점(990점)에서 수능 총점수 100점과 토익 점수 100점의 가치를 동일 선상에 둘 수 없기 때문이기도 하다.
약간 위 사진 예시와 같은 느낌이라고 할 수 있다.
이제 이 dastaset의 Age와 Salary를 스케일링 해보자.
dastaset[, 2:3] = scale(dastaset[, 2:3]) # '2:3'은 2열과 3열을 스케일링 한다는 뜻이다.
위와 같은 커맨드를 실행하면
아름답게 스케일링 된 결과를 확인할 수 있다.
728x90
'AI > 데이터 전처리' 카테고리의 다른 글
[데이터 전처리 - 4] 훈련 세트와 테스트 세트 나누기 (0) | 2022.04.16 |
---|---|
[데이터 전처리 - 3] 범주형 데이터 (Categorical Data) (0) | 2022.04.16 |
[데이터 전처리 - 2] 누락된 데이터 처리 (Taking care of missing data) (0) | 2022.04.16 |
[데이터 전처리 - 1] R Studio로 .scv 읽기 (0) | 2022.04.16 |
댓글