카테고리 없음

AdSP 3과목 5장: 데이터 마이닝②

sawo11 2025. 2. 20. 22:59

군집 분석

  • 이질적인 모집단 세분화
  • 비지도 학습 기법 중 하나로 사전 정보 없이 자료를 유사한 대상끼리 묶는 방법
  • 군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화 유도
  • 군집 결과에 대한 안정성을 검토하는 방법은 교차타당성을 이용하는 방법을 생각할 수 있음
  • 군집의 분리가 논리적인지 살펴보기 위해서는 군집 간 변동의 크기 차이를 검토함
  • 개체를 분류하기 위한 명확한 기준이 존재하지 않거나 기준이 밝혀지지 않은 상태에서 유용하게 이용할 수 있음
  • 실루엣 계수
    • 군집 모형 평가 기준 중 하나로 군집의 밀집 정도를 계산하는 방법
    • 군집 내의 거리와 군집 간의 거리를 기준으로 군집 분할의 성과 평가
  • dist 함수
    • 거리 계산을 수행할 때 사용하는 함수
    • 유사도 측도
      • 관측값들이 얼마나 유사한지 또는 유사하지 않은지 측정할 수 있는 측도 
      • 유클리드 거리
        • 두 점을 잇는 가장 짧은 직선거리
        • 공통으로 점수를 매긴 항목의 거리를 통해 판단하는 측도
      • 표준화 거리
        • 각 변수를 해당 변수의 표준편차로 변환한 후 유클리드 거리를 계산한 거리
        • 표준화를 하게 되면 척도의 차이, 분산의 차이로 인해 왜곡을 피할 수 있음
      • 마할라노비스 거리
        • 변수의 표준화와 변수 간의 상관성을 동시에 고려한 통계적 거리
      • 맨하탄 거리
        • 각 방향 직각의 이동 거리 합
      • 코사인 거리
        • 두 단위 벡터의 내적을 이용하여 단위 벡터의 내각의 크기로 유사도 측정
      • 자카드
        • Boolean 속성으로 이루어진 두 객체 간의 유사도 측정에 사용
      • 민코우스키 거리
        • 맨하탄 거리와 유클리디안 거리를 한번에 표현한 공식
      • 체비셰프 거리
      • 캔버라 거리

계층적 군집 방법

  • n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법
  • 덴드로그램
    • 계층적 군집분석 결과를 나타내는 도표
  • 와드연결법
    • 계층적 군집분석 수행 시 두 군집을 병합하는 방법 가운데 하나
    • 군집 내 편차들의 제곱합을 고려하여 군집 간 정보의 손실을 최소화하는 방향으로 군집을 형성하는 방법
    • 병합된 군집의 오차제곱합이 병합 이전 군집의 오차제곱합에 비해 증가한 정도가 작아지는 방향으로 군집을 형성하는 방법

비계층적 군집 방법

  • K-means 
    • 유클리드 거리 사용
    • 원하는 군집의 개수를 초기에 정하고 seed 중심으로 군집 형성
    • 각 개체를 가장 가까운 seed가 있는 군집으로 분류
    • 군집으로 분류된 개체들의 정보를 활용하여 새로운 seed를 계산하면서 개체의 적용에 따른 seed의 변화 관찰
    • 모든 개체가 seed에 할당되면 seed의 조정을 멈춤
    • 볼록한 형태가 아닌 군집이 존재하면 성능이 떨어짐
    • 사전에 주어진 목적이 없으므로 결과 해석이 어려움
    • 잡음이나 이상값에 영향을 많이 받음
    • k개의 초기 중심값은 임의로 선택이 가능하므로 한번 군집이 형성되어도 군집 내 객체들은 다른 군집으로 이동 될 수 있음
    • 집단 내 제곱합 그래프
      • 군집수를 정하는 데 활용할 수 있는 그래프
    • 수행 절차
      1. 초기 군집의 중심으로 k개의 객체를 임의로 선택한다.. 
      2. 각 자료를 가장 가까운 군집 중심에 할당한다. 
      3. 각 군집 내의 자료들의 평균을 계산하여 군집의 중심을 업데이트한다. 
      4. 군집 중심의 변화가 거의 없을 때(또는 최대 반복 수)까지 단계2와 단계3을 반복한다. 
  • K-median 
    • K-means의 단점을 극복하기 위해 k-median PAM(Partitioning Around Medoids)을 사용
    • 맨해튼 거리 사용

  • 밀도기반 
    • DBSCAN, DENCLUE 기법 등 임의적인 모양의 군집 탐색에 가장 효과적인 방법