통계3 [클러스터링 - 1] K-평균 클러스터링이란? K-평균은 데이터 클러스터링을 하도록 도와주는 알고리즘으로 데이터 집합에서 클러스터를 알아내기에 유용하다. 이게 무슨 말이야? 아래 그림을 보면 명확해진다. 이렇게 데이터들을 클러스터링해주는 것이다. 즉, 위 그림에서는 총 3개의 클러스터가 있다고 할 수 있다. 그렇다면 K-평균 알고리즘은 어떻게 동작하는 걸까? Step 1.클러스터의 수 K를 정한다. (최적의 클러스터 수를 정하는 것은 뒤에서) Step 2. 클러스터의 중앙이 될 랜덤한 점을 K개 선택한다. 데이터와 상관 없는 점이어도 된다. Step 3. 각 데이터들을 클러스터의 중앙들 중 가까운 곳에 분류해준다. (여기서는 유클리드 거리를 썼지만, 다른 종류의 거리가 될 수도 있다) Step 4. 클러스터의 중앙을 각 데이터 클러스터의 가운데로 .. 2022. 5. 1. [분류 - 7] Kernel SVM이란? 결정 경계(Decision Boundary)를 긋지 못하는 데이터에 대해서는 어떻게 해야할까? 1. 고차원으로의 매핑 제곱을 해서 분리하는 방법이다. 이런 느낌이라고 보면 된다. 그러나 이 방법은 연산에 오랜 시간이 걸리므로 그렇게 좋은 방법은 아니다. 2. 커널 트릭 식의 좌항은 초록색 점들이 모인 구역을 뜻한다. l은 초록색 점들의 중심, x는 초록색 점의 위치 벡터이다. 식이 어렵게 보이지만, 교양 수준에서 해석을 해보면 x-l즉, 초록색 점의 위치에서 중심점의 위치의 거리가 멀면 멀수록 K가 작아진단 뜻이다. 즉 K > 0인 구간에 데이터들에 대해서 초록색 점으로 판단하겠다는 뜻이다. σ는 원의 크기를 뜻한다. 실제로 커널은 이것보다 훨씬 다양한 종류들이 있다. 2022. 4. 30. [회귀 - 7] p-value (probability value) p-value란 어떤 사건이 우연히 발생할 확률이다. 근데 왜 p-value는 일반적으로 0.05(5%)일까? 그건 암묵적으로, 누군가, p-value를 맨 처음에 정한 사람들끼리 "아 ㅋㅋㅋ 이 정도면 우연은 아니겠지. 다들 인정하시죠?" 라고 정한 거라고 생각하면 된다. 우린 그냥 그걸 따라가는 것이다. 이걸 다시 말하면, p-value가 0.05보다 작다는건 어떤 사건이 우연히 발생할 가능성이 없다는 뜻이므로 "뭔가 이유가 있다"는 뜻이 되고 이를 우리는 유의하다라고 해석하게 된다. 하지만 상황에 따라 더 높은 신뢰도를 가져야할 경우도 많다. 와 진짜 다른 블로그들 다 너무 어렵게 설명해놨음 2022. 4. 23. 이전 1 다음