카테고리 없음

AdSP 시험 전 마지막 개념 정리

sawo11 2025. 2. 21. 23:55

SOM(자기조직화지도)

  • 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬화하여 지도의 형태로 형성화하는 클러스터링 방법
  • 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형상화하는 방법
  • 입력변수의 위치 관계를 그대로 보존
  • 이로 인해 입력 변수의 정보와 그들의 관계가 지도상에 그대로 나타남
  • 역전파 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스를 사용함으로써 속도가 매우 빨라 실시간 학습처리 가능
  • 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결강도를 반복적으로 재조정하여 학습
  • 이와 같은 과정을 거치면서 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨
  • SOM 알고리즘은 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해하기 쉬울 뿐 아니라 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상 가깝게 표현됨 
  • 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 강도를 반복적으로 재조정하여 학습
  • 이 과정을 거치며 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨
  • 승자 독식 구조로 인해 경쟁층에는 승자 뉴런만이 나타나며 승자와 유사한 연결강도를 갖는 입력 패턴이 동일한 경쟁 뉴런으로 배열됨 
  • 입력층
    • 원본 데이터를 받아들이는 층으로, 각 뉴런이 하나의 입력 특성을 담당
  • 경쟁층
    • 뉴런 간 경쟁을 통해 가장 적합한 뉴런을 선택하는 층 
  • 은닉층
    • 입력과 출력을 연결하는 중간층으로, 신경망에서 패턴을 학습하고 특징을 추출하는 역할 수행
  • 출력층
    • 최종 예측 값을 출력하는 층으로, 신경망의 학습 결과를 반영하여 분류 또는 회귀 값을 제공

연관성 분석

  • 연관성 분석은 하나 이상의 제품이나 서비스를 포함하는 거래 내역을 이용하여 동시에 구매되는 제품별 거래 빈도표를 통해 규칙을 찾는데서 시작함
  • 품목 A와 품목 B의 구매가 상호 관련이 없다면 향상도는 1
  • 시차연관분석은 시간이 지남에 따라 어떤 소비형태를 보이는가에 대한 분석으로 원인과 결과의 형태로 해석이 가능해 결과가 더욱 유용하게 쓰임
  • Apriori 알고리즘
    • 최소지지도보다 큰 빈발항목집합에서 높은 측도(신뢰도, 향상도) 값을 갖는 연관규칙을 구하는 방법
    • 지지도
    • 신뢰도
    • 향상도

Bias-variance tradeoff

  • 일반적으로 학습모형의 유연성이 클수록 분산은 높고 편향은 낮음

지니지수

  • 불확실성을 의미하며 같은 특성을 가진 객체들끼리 잘 모여 있는지를 판단
  • 값이 클수록 이질적이며 순수도가 낮음
  • 데이터의 통계적 분산 정도를 정량화해 표현한 값
  • 이진 분류로 나뉠 때 사용됨

K-폴드 교차검증

  • 모형이 데이터에 과적합하는 문제를 해결하기 위한 방법
  • 하나의 그룹을 검증용 셋으로, K-1개의 그룹을 훈련용 셋으로 사용하여 K번 반복 측정하고 결과를 평균 낸 값을 최종 평가로 사용
  • 데이터 셋을 K개의 그룹으로 분할
  • LOOCV는 전체 관측치(n) 중 단 하나의 관측값만을 Validation set으로 사용하고 나머지 n-1개 관측값은 Train set 으로 사용하므로 k = n인 경우