본문 바로가기

AI44

[클러스터링 - 2] K-평균 클러스터에서 최적의 K 정하기 WCSS는 K가 커질수록 적어진다. 하지만 어느 점에 가서 그 적어지는 차이가 크게 줄어드는데, 그래프로 표현하면 아래와 같다. K가 3일 때, WCSS가 감소가 크게 줄어드는 걸 알 수 있다. 그래프의 모양이 팔과 팔꿈치와 비슷하다하여 Elbow Method라고 한다. 직관적으로 이를 이해해보자. 점의 갯수가 50개일 때, K의 개수를 50개로 설정해보자. 그럼 점과 클러스터의 중심부 사이의 거리는 0이 되므로 WCSS는 0이 됨을 알 수 있다. 따라서 K가 증가하면, WCSS는 감소함을 직관적으로 이해할 수 있다. 2022. 5. 3.
[클러스터링 - 1] K-평균 클러스터링이란? K-평균은 데이터 클러스터링을 하도록 도와주는 알고리즘으로 데이터 집합에서 클러스터를 알아내기에 유용하다. 이게 무슨 말이야? 아래 그림을 보면 명확해진다. 이렇게 데이터들을 클러스터링해주는 것이다. 즉, 위 그림에서는 총 3개의 클러스터가 있다고 할 수 있다. 그렇다면 K-평균 알고리즘은 어떻게 동작하는 걸까? Step 1.클러스터의 수 K를 정한다. (최적의 클러스터 수를 정하는 것은 뒤에서) Step 2. 클러스터의 중앙이 될 랜덤한 점을 K개 선택한다. 데이터와 상관 없는 점이어도 된다. Step 3. 각 데이터들을 클러스터의 중앙들 중 가까운 곳에 분류해준다. (여기서는 유클리드 거리를 썼지만, 다른 종류의 거리가 될 수도 있다) Step 4. 클러스터의 중앙을 각 데이터 클러스터의 가운데로 .. 2022. 5. 1.
[분류 - 13] 랜덤 포레스트 분류 랜덤 포레스트 회귀하고 상당히 유사하다. Step 1. K개의 데이터를 고른다. Step 2. 고른 K개의 데이터로 의사결정트리를 만든다. Step3. Step1~2를 N번 반복한다. Step4. 이제 새로운 데이터 포인트를 분류하고 싶을 때 위의 나무트리들 N개에서 먼저 분류하고 어떤 범주에 들어갈지 예측한다(많은 쪽). 2022. 5. 1.
[분류 - 12] 의사결정트리 분류 의사결정트리 회귀와 분류가 다른 점은 회귀는 급여나, 인구수, 온도 등의 숫자의 결과를 예측할 때, 분류는 남자나 여자, 사과나 오렌지처럼 범주형 변수들을 다룰 때 쓴다. 최근에는 거의 안쓰이는 분류 기법이고, 랜덤 포레스트 등으로 업그레이드 되서 쓰인다. 2022. 5. 1.
[분류 - 11] 나이브 베이즈 분류(Naive Bayes Classifier)란? 나이브 베이즈 분류는 베이즈 정리를 이용한 Classifer이다. 새로운 데이터(회색점) X가 들어왔을 때 이 데이터가 Walks에 속할지, Drives에 속할지 어떻게 알 수 있을까? 나이브 베이즈 분류를 이용해 분류해볼건데, 이를 위해서는 X가 Walks에 속할 확률과 X가 Drives에 속할 확률을 베이즈 정리를 2번 적용해 구해야한다. Walks일 확률은 P(Walks) = 10 / 30 P(X)를 구하기 위해서 임의의 원을 그리는데 이 원의 크기는 아무렇게나 해도 상관없다. P(X)는 X가 이 원 안에 속할 확률이므로 P(X) = 4 / 30 P(X | Walks)는 걷는 사람들 중에 원 안에 속해있을 확률이다. P(X | Walks) = 3 / 10 이제 우리는 P(Walks | X)를 구할 .. 2022. 5. 1.