SOM(자기조직화지도)
- 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬화하여 지도의 형태로 형성화하는 클러스터링 방법
- 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형상화하는 방법
- 입력변수의 위치 관계를 그대로 보존
- 이로 인해 입력 변수의 정보와 그들의 관계가 지도상에 그대로 나타남
- 역전파 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스를 사용함으로써 속도가 매우 빨라 실시간 학습처리 가능
- 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결강도를 반복적으로 재조정하여 학습
- 이와 같은 과정을 거치면서 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨
- SOM 알고리즘은 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해하기 쉬울 뿐 아니라 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상 가깝게 표현됨
- 경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 강도를 반복적으로 재조정하여 학습
- 이 과정을 거치며 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨
- 승자 독식 구조로 인해 경쟁층에는 승자 뉴런만이 나타나며 승자와 유사한 연결강도를 갖는 입력 패턴이 동일한 경쟁 뉴런으로 배열됨
- 입력층
- 원본 데이터를 받아들이는 층으로, 각 뉴런이 하나의 입력 특성을 담당
- 경쟁층
- 뉴런 간 경쟁을 통해 가장 적합한 뉴런을 선택하는 층
- 은닉층
- 입력과 출력을 연결하는 중간층으로, 신경망에서 패턴을 학습하고 특징을 추출하는 역할 수행
- 출력층
- 최종 예측 값을 출력하는 층으로, 신경망의 학습 결과를 반영하여 분류 또는 회귀 값을 제공
연관성 분석
- 연관성 분석은 하나 이상의 제품이나 서비스를 포함하는 거래 내역을 이용하여 동시에 구매되는 제품별 거래 빈도표를 통해 규칙을 찾는데서 시작함
- 품목 A와 품목 B의 구매가 상호 관련이 없다면 향상도는 1
- 시차연관분석은 시간이 지남에 따라 어떤 소비형태를 보이는가에 대한 분석으로 원인과 결과의 형태로 해석이 가능해 결과가 더욱 유용하게 쓰임
- Apriori 알고리즘
- 최소지지도보다 큰 빈발항목집합에서 높은 측도(신뢰도, 향상도) 값을 갖는 연관규칙을 구하는 방법
- 지지도
- 신뢰도
- 향상도
Bias-variance tradeoff
- 일반적으로 학습모형의 유연성이 클수록 분산은 높고 편향은 낮음
지니지수
- 불확실성을 의미하며 같은 특성을 가진 객체들끼리 잘 모여 있는지를 판단
- 값이 클수록 이질적이며 순수도가 낮음
- 데이터의 통계적 분산 정도를 정량화해 표현한 값
- 이진 분류로 나뉠 때 사용됨
K-폴드 교차검증
- 모형이 데이터에 과적합하는 문제를 해결하기 위한 방법
- 하나의 그룹을 검증용 셋으로, K-1개의 그룹을 훈련용 셋으로 사용하여 K번 반복 측정하고 결과를 평균 낸 값을 최종 평가로 사용
- 데이터 셋을 K개의 그룹으로 분할
- LOOCV는 전체 관측치(n) 중 단 하나의 관측값만을 Validation set으로 사용하고 나머지 n-1개 관측값은 Train set 으로 사용하므로 k = n인 경우