DATA 사전캠프

3일차 아티클 스터디: 그 데이터는 잘못 해석되었습니다

sawo11 2024. 11. 6. 15:42

데이터를 잘못 해석하는 상황별 유형

1) 생존자 편향의 오류

'매주 이탈 고객 중 서비스를 장기간 이용한 고객의 비율'이 상승했다면 최근 고객들의 불만도가 높아졌다고 해석 가능

하지만, 반대로 이 지표가 상승할 때 서비스가 올바른 방향으로 성장한다고 해석할 수도 있음

생존자 편향의 오류를 막기 위해서는 전체 대상을 기준으로 잡는 것이 중요!!

 

2) 심슨의 역설

전체 지표와 그룹을 나눈 지표의 방향성이 다르게 나타나는 상황

퍼널 전환율, 결제 전환율, 클릭률 등 여러 전환율 지표에서 심슨의 역설 발생 가능

심슨의 역설을 방지하기 위해서는 전체 집단의 지표뿐만 아니라, 집단을 나누어 지표를 확인하는 과정 필요

 

3) 상관관계를 통한 성급한 일반화

상관성은 있으나 인과성이 없는 경우는 제 3의 공통 원인이 존재할 가능성이 높음

ex. 이벤트 페이지를 많이 보게 하면 매출이 늘어난다 X, 매력적인 이벤트를 하면 매출이 늘어난다 O

'매력적인 이벤트'가 제 3의 공통 원인

두 지표에 동시에 영향을 줄 공통 원인이 있는지 살펴보고 새로운 구조로 지표 간의 관계를 파악하는 과정 필요

 

4) 목적에 맞지 않는 지표 선택

유저 기준 전환율: CTA 버튼 조회 유저 수(중복 제거) 대비 CTA 버튼 클릭 유저 수(중복 제거)

이벤트 기준 전환율: CTA 버튼 조회수 대비 CTA 버튼 클릭수

CTA 버튼 개선 프로젝트의 목표가 유저 수와 무관하게 더 많이 클릭되는 버튼을 만드는 것이라면 사용하는 지표도 바꿔야 함

유저 기준 전환율은 낮더라도 이벤트 기준 전환율이 더 높다면 목적과 부합하는 지표는 이벤트 기준 전환율

정확히 어떤 관점에서 CTA 버튼을 개선할지 목적을 명확히 해야함

 

세이건 표준 참고하기

데이터는 가공하는 기준과 방법에 따라 바뀔 수 있고, 데이터를 해석하는 사람의 생각이 반영될 수 있으며 이러한 이유로 데이터가 잘못 해석된다면 잘못된 방향으로 이어질 수 있음

"특별한 주장에는 특별한 근거가 필요하다" - 칼 세이건의 '세이건 표준'

 

인사이트

데이터를 잘못 해석하는 상황에 대해서는 깊게 생각해본 적이 없는데 데이터를 잘못 해석할 수 있는 다양한 상황에 대해 생각해 보는 계기가 되었다. 4가지 상황 모두 데이터 분석 시 흔히 발생할 수 있는 오류이기 때문에 더욱 주의 깊게 데이터를 살펴보아야겠다는 생각을 했다.

 

 

그 데이터는 잘못 해석되었습니다 | 요즘IT

무엇이든 데이터가 있으면 쉽게 결정을 내릴 수 있을 것 같습니다. 하지만 현업에서는 데이터가 있어도 결정을 내리기 어려운 상황들이 있습니다. 특히 데이터를 통한 의사결정을 내릴 때, 가장

yozm.wishket.com