AdSP 3과목 3장: 데이터 마트
reshape 패키지
변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성할 수 있는 패키지
결측치
해당 칸이 비어있는 경우 결측치 여부는 알기 쉬움
관측치가 있지만 실상은 default 값이 기록된 경우라도 결측치로 처리하지 않음
결측치가 있는 경우 다양한 대치 방법을 사용하여 완전한 자료로 만든 후 분석을 진행할 수 있음
결측치가 20% 이상인 경우 해당 변수를 제거하고 분석해야 함
결측값 처리 방법
Complete Analysis
불완전한 자료를 모두 삭제하고 완전한 관측치만으로 자료를 분석하는 방법
부분적으로 관측자료를 사용하므로 통계적 추론의 타당성 문제가 있음
평균대치법
자료의 평균값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만들어 분석하는 방법
단순확률대치법
평균대치법에서 추정량 표준오차의 과소 추정문제를 보완하고자 고안된 방법
다중대치법
단순대치법을 한 번만 하지 않고 m번 대치를 통해 m개의 가상적 완전 자료를 만들어 분석하는 방법
추정량의 표준오차의 과소추정 또는 계산의 난해성 문제가 보완된 방법
이상치
데이터 입력 시 오타로 인해 잘못 입력된 경우
분석 목적에 부합되지 않아 제거해야 하는 경우
부정사용방지 시스템에서 의도된 이상 값
이상치 판정 방법
3-sigma 방법은 "평균으로부터 표준편차의 3배가 넘는 범위의 데이터"를 비정상이라 규정
회귀분석 적합 후 잔차분석을 실시하여 이상치를 판정하는 방법이 있음
통계 모형에 기반한 방법으로는 Grubb's Test, Hotellings T2 test 등이 있음
IQR = Q3 - Q1이라고 할 때, Q1 - 1.5 * IQR < x < Q3 + 1.5 * IQR을 벗어나는 x를 이상치라고 규정
이상치는 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인할 수 있음
이상치는 분포를 왜곡할 수 있으나 실제 오류인자에 대해서는 통계적으로 실행하지 못하기 때문에 제거 여부는 실무자를 통해 결정하는 것이 바람직
plyr
데이터 처리에 필요한 R 패키지로 데이터를 분할하고 분할된 결과에 함수를 적용한 뒤 결과를 재조합하는 함수를 포함
Multi-Core를 사용하여 반복문을 사용하지 않고도 매우 간단하고 빠르게 처리할 수 있는 데이터 처리 함수를 포함하고 있는 패키지