본문 바로가기
AI/데이터 전처리

[데이터 전처리 - 3] 범주형 데이터 (Categorical Data)

by Nhahan 2022. 4. 16.

 

(실수로 인해 Age가 Salary로 덮어씌워졌지만 내용 진행에는 아무 무리가 없으므로 수정을 하지 않음)

위 사진에서 범주형 데이터는 Country 컬럼과 Purchased 컬럼이다.

Country에는 France, Spain, Germany
Purchased에는 Yes, No

범주형 데이터가 어떤 느낌인지 바로 느껴진다. (enum 같은?)

 

머신러닝은 기본적으로 모두 숫자로 이루어지기 때문에 이런 값들을 숫자로 바꿔주는 것이 중요하다.

 

'c'는 R에서 백터를 뜻한다.

이렇게 코드를 실행시켜주면

이처럼 아름답게 숫자로 모두 바뀐 것을 알 수 있다.

 

 


Factor는 "정해진 범주 내에서 카테고리별로 분석하기 위해 주로 사용되는 데이터 자료형"

댓글