[클러스터링 - 3] 계층적 클러스터링(Hierarchical Clustering)이란?

K-평균 클러스터링과 계층적 클러스터링의 결과는 비슷할 수 있다.

하지만 그 과정이 다르다.

계층적 클러스터링에는 응집적 접근과 분할적 접근이 있다.

응집적 접근과 분할적 접근은 서로 반대로 진행된다.

Step 1. 모든 데이터 포인트를 단독 클러스터로 만든다. (데이터 갯수 N == K)

Step 2. 가장 가까운 데이터 포인트 2개를 하나의 클러스터로 합친다.

Step 3. 그 다음 가장 가까운 데이터 포인트 2개를 하나의 클러스터로 합친다.

Step 4. Step 3을 반복하면 최종적으로 하나의 클러스터가 남는다.

클러스터를 만드는 방법은 알았다.

그런데 우리가 원하는건 Step 4의 최종적 결과인 하나의 클러스터가 아니다.

그럼 클러스터의 최적의 수는 어떻게 구할 수 있을까?

가장 가까운 거리부터 표시해나가는 그래프이다.

가로선을 직선으로 쭉 늘렸을때, 교차하지 않는 가장 긴 세로선의 수직선이 통과하는 가로선의 수가 최적의 클러스터 수다.

...? 뭔소리지?

라고 할 수 있겠지만 그림을 보면 바로 이해가 가능하다.

따라서 위의 덴드로그램에 의하면 최적의 클러스터 수는 2개이다.

개발이 그냥 재밌는 사람