본문 바로가기
AI/분류

[분류 - 11] 나이브 베이즈 분류(Naive Bayes Classifier)란?

by Nhahan 2022. 5. 1.

나이브 베이즈 분류는 베이즈 정리를 이용한 Classifer이다.

 

나이와 연봉에 따른 출퇴근 걷기 or 운전

 

새로운 데이터(회색점) X가 들어왔을 때 이 데이터가 Walks에 속할지, Drives에 속할지 어떻게 알 수 있을까?

나이브 베이즈 분류를 이용해 분류해볼건데, 이를 위해서는 X가 Walks에 속할 확률과 X가 Drives에 속할 확률을 베이즈 정리를 2번 적용해 구해야한다.

 

새로운 데이터 X가 Walks 범주에 속할 확률
새로운 데이터 X가 Drives 범주에 속할 확률

 


 

Walks일 확률은

P(Walks) = 10 / 30

 

P(X)를 구하기 위해서 임의의 원을 그리는데 이 원의 크기는 아무렇게나 해도 상관없다. P(X)는 X가 이 원 안에 속할 확률이므로

P(X) = 4 / 30

 

P(X | Walks)는 걷는 사람들 중에 원 안에 속해있을 확률이다.

P(X | Walks) = 3 / 10

 

이제 우리는 P(Walks | X)를 구할 수 있게 되었다.

P(Walks | X) = (3 / 10 * 10 / 30)  / (4 / 30) = 0.75

 

이런 식으로 P(Drives | X)도 구해보면, (근데 굳이 구하지 않아도 두 값의 합은 1이 되어야 하므로 0.25임을 알 수 있긴 하다)

P(Drives | X) = (1 / 20 * 20 / 30)  / (4 / 30) = 0.25

 

따라서 걸을 확률이 75% 이므로 X는 Walks에 분류된다.

 

 

 


 

 

1. Naive Bayes Classifier인 이유

왜 그냥 Bayes Classifier가 아니고 Naive가 붙었을까?

그것은 엄밀히 말하면 Bayes가 아니기 때문이다. 예를 들면 종속변수간에 관계가 없어야, 즉 독립적이어야 가능한데 실제로는 약간의 연관성이라도 있는 경우가 많다. Age와 Salary만 봐도 나이가 많을수록 급여 또한 많을 확률이 높기 때문에 연관성이 분명 존재한다.

따라서 Naive가 붙은 것이다.

 

 

 

2. P(X)를 가끔 지우는 이유

어떤 곳에선 P(X)를 지우는 경우가 있는데 그건 두 비교군에서 공통적으로 들어가는 변수기 때문에 지워도 동일한 결과가 나오기 때문이다. 그러나 이건 두 가지를 비교할 때만 가능하고, 그 외에 경우에서는 불가능할 수도 있기 때문에 가장 안전한 방법은 P(X)도 넣어서 계산하는 것이다.

댓글