본문 바로가기

AI48

[클러스터링 - 1] K-평균 클러스터링이란? K-평균은 데이터 클러스터링을 하도록 도와주는 알고리즘으로 데이터 집합에서 클러스터를 알아내기에 유용하다. 이게 무슨 말이야? 아래 그림을 보면 명확해진다. 이렇게 데이터들을 클러스터링해주는 것이다. 즉, 위 그림에서는 총 3개의 클러스터가 있다고 할 수 있다. 그렇다면 K-평균 알고리즘은 어떻게 동작하는 걸까? Step 1.클러스터의 수 K를 정한다. (최적의 클러스터 수를 정하는 것은 뒤에서) Step 2. 클러스터의 중앙이 될 랜덤한 점을 K개 선택한다. 데이터와 상관 없는 점이어도 된다. Step 3. 각 데이터들을 클러스터의 중앙들 중 가까운 곳에 분류해준다. (여기서는 유클리드 거리를 썼지만, 다른 종류의 거리가 될 수도 있다) Step 4. 클러스터의 중앙을 각 데이터 클러스터의 가운데로 .. 2022. 5. 1.

[분류 - 13] 랜덤 포레스트 분류 랜덤 포레스트 회귀하고 상당히 유사하다. Step 1. K개의 데이터를 고른다. Step 2. 고른 K개의 데이터로 의사결정트리를 만든다. Step3. Step1~2를 N번 반복한다. Step4. 이제 새로운 데이터 포인트를 분류하고 싶을 때 위의 나무트리들 N개에서 먼저 분류하고 어떤 범주에 들어갈지 예측한다(많은 쪽). 2022. 5. 1.

[분류 - 12] 의사결정트리 분류 의사결정트리 회귀와 분류가 다른 점은 회귀는 급여나, 인구수, 온도 등의 숫자의 결과를 예측할 때, 분류는 남자나 여자, 사과나 오렌지처럼 범주형 변수들을 다룰 때 쓴다. 최근에는 거의 안쓰이는 분류 기법이고, 랜덤 포레스트 등으로 업그레이드 되서 쓰인다. 2022. 5. 1.

[분류 - 11] 나이브 베이즈 분류(Naive Bayes Classifier)란? 나이브 베이즈 분류는 베이즈 정리를 이용한 Classifer이다. 새로운 데이터(회색점) X가 들어왔을 때 이 데이터가 Walks에 속할지, Drives에 속할지 어떻게 알 수 있을까? 나이브 베이즈 분류를 이용해 분류해볼건데, 이를 위해서는 X가 Walks에 속할 확률과 X가 Drives에 속할 확률을 베이즈 정리를 2번 적용해 구해야한다. Walks일 확률은 P(Walks) = 10 / 30 P(X)를 구하기 위해서 임의의 원을 그리는데 이 원의 크기는 아무렇게나 해도 상관없다. P(X)는 X가 이 원 안에 속할 확률이므로 P(X) = 4 / 30 P(X | Walks)는 걷는 사람들 중에 원 안에 속해있을 확률이다. P(X | Walks) = 3 / 10 이제 우리는 P(Walks | X)를 구할 .. 2022. 5. 1.

[분류 - 10] 베이즈 정리(Bayes Theorem) 상품을 1시간에 30개를 만드는 기계A와 상품을 1시간에 20개를 만드는 기계B가 있다. 기계A와 B를 가동시켜서 상품을 1000개를 만들었는데, 불량 상품은 총 상품의 1%인 10개였다. 그런데 불량 상품의 50%는 기계A, 나머지 50%는 기계B의 불량이라고 한다. 즉 A기계에서 5개, B기계에서 5개의 불량 상품이 나왔다. 그렇다면 기계B에서 만들어진 상품이 불량일 확률은 얼마일까? P(A) = 30 / 50 = 0.6 상품이 A일 확률 P(B) = 20 / 50 = 0.4 상품이 B일 확률 P(D) = 0.01 상품이 불량일 확률 P(A | D) = 0.5 불량 상품이 A일 확률 P(B | D) = 0.5 불량 상품이 B일 확률 P(D | B) = ? B가 불량일 확률 우선 기계B와 관련된 확률이.. 2022. 5. 1.

이전 1 2 3 4 5 6 ··· 10 다음

티스토리툴바