본문 바로가기
AI/데이터 전처리

[데이터 전처리 - 2] 누락된 데이터 처리 (Taking care of missing data)

by Nhahan 2022. 4. 16.

5행과 7행에 누락된 데이터가 있는 모습

 

누락된 데이터를 처리하는 방법 2가지


  1. 그냥 삭제한다.
    • 하지만 이렇게 하면 중요한 데이터를 잃어버릴 가능성이 있기 때문에 비추천
  2. 특정 컬럼에 대해서 누락된 행을 제외한 나머지 데이터들의 평균 값을 넣어준다.
    • 실제 데이터와 큰 오차가 있을 가능성이 적어 추천

 

따라서 2번을 실습해보겠다.

 

dataset$Age = ifelse(is.na(dataset$Age),
		     ave(dataset$Age, FUN = function(x) mean(x, na.rm = TRUE)),
        	     dataset$Age)

 

를 실행하면 (Salary 컬럼에 대해서는 Age를 Salary로 바꾸기만 하면 된다)

 

 

이처럼 데이터가 모두 채워진 모습을 볼 수 있다.

댓글