본문 바로가기
AI/데이터 전처리

[데이터 전처리 - 5] 데이터 스케일링

by Nhahan 2022. 4. 17.

데이터 스케일링이 필요한 이유는 컬럼 간의 차이가 너무 크면 분석이 힘들기 때문이다(Age는 많아봐야 100살인데, Salary는 수십만이 될수도).

혹은 수능 만점(500점인가?)과 토익 만점(990점)에서 수능 총점수 100점과 토익 점수 100점의 가치를 동일 선상에 둘 수 없기 때문이기도 하다.

 

약간 위 사진 예시와 같은 느낌이라고 할 수 있다.

 

 


 

 

근데 실수로 dataset이 아니라 dastaset으로 가져왔다. 지장은 없으니 그냥 진행..

이제 이 dastaset의 Age와 Salary를 스케일링 해보자.

 

dastaset[, 2:3] = scale(dastaset[, 2:3]) # '2:3'은 2열과 3열을 스케일링 한다는 뜻이다.

위와 같은 커맨드를 실행하면

 

아름답게 스케일링 된 결과를 확인할 수 있다.

댓글