클러스터링 썸네일형 리스트형 K-means 알고리즘을 이용한 영화 배우 클러스터링 k-means 알고리즘을 이용해서 영화 배우 이름을 클러스터링 하는 실험을 해보았습니다. 단어가 문서에 출현하는 횟수를 다음과 같은 테이블로 표현할 수 있습니다. 각각의 열을 하나의 문서 벡터로 표현할 수 있는 것과 마찬가지로, 각각의 행은 하나의 '단어(텀) 벡터'로 표현할 수 있습니다. 즉, 아래와 같은 모습입니다. A = B = C = D = 이처럼 각각의 단어를 벡터로 표현할 수 있습니다. 또한, 이렇게 구한 벡터끼리 유사도(Similarity)를 구하면 두 단어가 얼마나 가까운 단어인지 계산할 수 있습니다. 위의 예를 보면 A와 B는 멀고, C는 A, B 양쪽에 모두 가깝다는 것을 알 수가 있습니다. 이런 벡터 표현을 이용하면, 문서를 클러스터링 하는 것과 똑같은 방법으로 단어를 클러스터링 할 .. 더보기 이전 1 다음