본문 바로가기

AI/클러스터링4

[연관 규칙 - 1] Apriori란? 어떤 현상들끼리 연관 규칙이 있는가를 알아내는 알고리즘이 Apriori이다. 밤 8시만 되면 기저귀와 맥주가 동시에 팔리는 현상이 있다고 하자. 기저귀와 맥주? 아무 연관관계도 없을 것 같은 이 두 물건이 무슨 관계가 있을까? 아마 유부남이 기저귀가 다 떨어져서 기저귀를 사러왔는데 퇴근도 했겠다 맥주도 같이 사러 간다는 분석이 있다면 어느 정도 일리가 있다고 느낄 수 있다. 그냥 흔한 경우를 생각해본다면, 편의점에서 햄버거를 사는 사람은 콜라도 구매할 확률이 높다. 데이터 세트에서 이런 연관 규칙을 찾는 것이 Apriori 알고리즘이라고 할 수 있다. Apriori 알고리즘 아래와 같은 데이터 세트가 있다. ID itemset 1 A, B, C 2 B, C 3 A, C 4 A 5 A, D 지지도를 2/5.. 2022. 5. 9.
[클러스터링 - 3] 계층적 클러스터링(Hierarchical Clustering)이란? K-평균 클러스터링과 계층적 클러스터링의 결과는 비슷할 수 있다. 하지만 그 과정이 다르다. 계층적 클러스터링에는 응집적 접근과 분할적 접근이 있다. 응집적 접근과 분할적 접근은 서로 반대로 진행된다. 응집적 접근 Step 1. 모든 데이터 포인트를 단독 클러스터로 만든다. (데이터 갯수 N == K) Step 2. 가장 가까운 데이터 포인트 2개를 하나의 클러스터로 합친다. Step 3. 그 다음 가장 가까운 데이터 포인트 2개를 하나의 클러스터로 합친다. Step 4. Step 3을 반복하면 최종적으로 하나의 클러스터가 남는다. 클러스터를 만드는 방법은 알았다. 그런데 우리가 원하는건 Step 4의 최종적 결과인 하나의 클러스터가 아니다. 그럼 클러스터의 최적의 수는 어떻게 구할 수 있을까? 덴드로그.. 2022. 5. 3.
[클러스터링 - 2] K-평균 클러스터에서 최적의 K 정하기 WCSS는 K가 커질수록 적어진다. 하지만 어느 점에 가서 그 적어지는 차이가 크게 줄어드는데, 그래프로 표현하면 아래와 같다. K가 3일 때, WCSS가 감소가 크게 줄어드는 걸 알 수 있다. 그래프의 모양이 팔과 팔꿈치와 비슷하다하여 Elbow Method라고 한다. 직관적으로 이를 이해해보자. 점의 갯수가 50개일 때, K의 개수를 50개로 설정해보자. 그럼 점과 클러스터의 중심부 사이의 거리는 0이 되므로 WCSS는 0이 됨을 알 수 있다. 따라서 K가 증가하면, WCSS는 감소함을 직관적으로 이해할 수 있다. 2022. 5. 3.
[클러스터링 - 1] K-평균 클러스터링이란? K-평균은 데이터 클러스터링을 하도록 도와주는 알고리즘으로 데이터 집합에서 클러스터를 알아내기에 유용하다. 이게 무슨 말이야? 아래 그림을 보면 명확해진다. 이렇게 데이터들을 클러스터링해주는 것이다. 즉, 위 그림에서는 총 3개의 클러스터가 있다고 할 수 있다. 그렇다면 K-평균 알고리즘은 어떻게 동작하는 걸까? Step 1.클러스터의 수 K를 정한다. (최적의 클러스터 수를 정하는 것은 뒤에서) Step 2. 클러스터의 중앙이 될 랜덤한 점을 K개 선택한다. 데이터와 상관 없는 점이어도 된다. Step 3. 각 데이터들을 클러스터의 중앙들 중 가까운 곳에 분류해준다. (여기서는 유클리드 거리를 썼지만, 다른 종류의 거리가 될 수도 있다) Step 4. 클러스터의 중앙을 각 데이터 클러스터의 가운데로 .. 2022. 5. 1.