from sklearn.cluster import KMeans


sci_model = KMeans(n_clusters = 4,max_iter = 10)


from collections import defaultdict

class K_Means():
    
    #Init
    def __init__(self,k,max_iter = 100):
        #cluster의 개수 (K)
        self.k = k
        #최대 반복횟수(I)
        self.max_iter = max_iter
        #centroid가 iter에 따라 어떻게 변화하는지 나타내기 위해 값을 저장합니다.
        self.save_centroid_history = list() 
        
    #Save history
    def get_save_centroid_history(self):
        return self.save_centroid_history
    
    #Centroid의 초기값을 random하게 설정
    def init_Centroid(self,data):
        xy_max = np.max(data,axis = 0)
        xy_min = np.min(data,axis = 0)
        Centroids = list()
        for num in range(self.k):
            x = random.randint(int(xy_min[0]),int(xy_max[0]))
            y = random.randint(int(xy_min[1]),int(xy_max[1]))
            Centroids.append([x,y])
        return Centroids
    
    #calculate distance : 어떤 두 점이 주어지면 두 점 사이의 거리를 측정합니다(Euclidean distance 이용)
    def get_dist(self,x1,y1,x2,y2):
        dist = ((x2-x1)**2 + (y2-y1)**2)**0.5
        return dist
    
    #make Cluster : K개의 centroid 마다 모든 데이터의 거리를 측정한 뒤, 가장 가까운 점을 해당 centroid의 군집으로 설정합니다.
    def Create_Cluster(self,Centroids,data):
        group = defaultdict(list)
        for point in data:
            distance = list()
            for Center in Centroids:
                dist = self.get_dist(point[0],point[1],Center[0],Center[1])
                distance.append(dist)
                cluster_num = np.argmin(distance)
                
            group[cluster_num].append(list([point[0],point[1]]))
            
        return group
    
    #각 그룹 별로 Centroid를 Update함.
    def update_Centroid(self,cluster_group):
        Centroids = list()
        for group_num in range(self.k):
            cluster_point = np.array(cluster_group[group_num])
            new_Centroid = np.mean(cluster_point, axis = 0)
            self.save_centroid_history.append(list(new_Centroid))
            Centroids.append(new_Centroid)
        return Centroids
    
    #Centroid와 점 사이의 거리가 멀어서 Cluster에 단 한개의 데이터도 할당이 안되는 경우가 존재하면 True를 return 함
    def check_nan(self,cluster_group):
        for group in range(self.k):
            if not cluster_group[group]:
                return True
        else:
            return False
            
    #데이터가 입력되면, 입력된 데이터를 기반으로 k-means clustering 수행
    def fit(self,data):
        
        centroid = self.init_Centroid(data)
        for loop in range(self.max_iter): 
            
            cluster_group = self.Create_Cluster(centroid,data)
            
            if self.check_nan(cluster_group):
                centroid = self.init_Centroid(data)
                continue
            centroid = self.update_Centroid(cluster_group)
        return cluster_group


def draw_graph(result,save_data,num_cluster):
    y = list()
    data = list()
    for i in range(num_cluster):
        data.extend(result[i])
        for j in range(len(result[i])):
            y.append(i)
    
    data = np.array(data)
    y = np.array(y)
    rgb = np.array(["r","g","b",'y'])
    plt.scatter(data[:,0],data[:,1],color = rgb[y],s = 20)
    plt.scatter(np.array(save_data)[:,0],np.array(save_data)[:,1],color = 'black',s = 10)


%matplotlib inline
from sklearn.datasets import make_blobs
from sklearn.datasets import make_moons
import matplotlib.pyplot as plt
import numpy as np
import random


#데이터 생성
X,y = make_blobs(2000,centers = 4,random_state = 19)
#데이터 시각화
rgb = np.array(["r","g","b",'y'])
plt.scatter(X[:,0],X[:,1],color = rgb[y])

<matplotlib.collections.PathCollection at 0x7fa9fbd36cd0>


sci_model.fit(X)
#cluster의 center 구하기
sci_cluster_center = [list(i) for i in sci_model.cluster_centers_]
#draw_graph 인풋값 형식 맞춰주기
sci_group = defaultdict(list)
for idx,i in enumerate(sci_model.labels_):
    sci_group[i].append(X[idx])


draw_graph(sci_group,sci_cluster_center,4)


num_cluster = 4
k_means = K_Means(k = num_cluster,max_iter = 10)
result = k_means.fit(X)
save_data = k_means.get_save_centroid_history()
draw_graph(result,save_data,num_cluster = num_cluster)


X1,y1 = make_moons(2000,noise = 0.1)
rgb = np.array(["r","g","b"])
plt.scatter(X1[:,0],X1[:,1],color = rgb[y1])

<matplotlib.collections.PathCollection at 0x7fa9d81a9760>


sci_model2 = KMeans(n_clusters = 2,max_iter = 10)


sci_model2.fit(X1)
#cluster의 center 구하기
sci_cluster_center2 = [list(i) for i in sci_model2.cluster_centers_]
#draw_graph 인풋값 형식 맞춰주기
sci_group2 = defaultdict(list)
for idx,i in enumerate(sci_model2.labels_):
    sci_group2[i].append(X1[idx])


draw_graph(sci_group2, sci_cluster_center2, num_cluster = 4)


num_cluster = 2
k_means = K_Means(k = num_cluster,max_iter = 10)
result = k_means.fit(X1)
save_data = k_means.get_save_centroid_history()
draw_graph(result,save_data,num_cluster = num_cluster)

티스토리

K-means Clustering Algorithm 이해 및 구현

K-means Clustering Algorithm 이해 및 구현

K-Means Clustering Algorithm 이란?¶

K-Means Clustering Algorithm : Pseudo Code¶

알고리즘의 작동방식¶

Python을 이용한 구현¶

1.Scikit-learn을 이용한 구현¶

2. Scikit-learn을 사용하지 않는 구현¶

가상 데이터를 만들어서 확인해보기¶

가상 데이터 1 : make_blobs¶

make_blobs : Scikit learn을 이용한 K-means clustering¶

make_blobs : 직접 만든 K-means clustering¶

가상 데이터 2 : make_moons¶

make_moons : Scikit learn을 이용한 K-means clustering¶

make_moons : 직접 만든 K-means clustering¶

장점¶

단점¶

Question¶