전체 글 126

6일차 아티클 스터디: 주니어 데이터 사이언티스트에게 하고 싶은 이야기들

어떤 역량을 특화할 것인가?주된 성장 경로1) 도메인 전문성과 네트워크를 키워 PM 혹은 경영자와 같은 도메인 전문가의 길2) 통계 및 머신러닝 방법론에 특화된 분석 전문가의 길3) 개발 및 시스템 역량을 키워 분석 역량을 갖춘 엔지니어로서 성장하는 길=> 커리어의 방향성을 결정하면 자신에게 맞는 기회를 찾는 과정이 더 쉬워짐 [데이터 역량을 갖춘 도메인 전문가의 길]해당 업종 내에서 다양한 비즈니스 문제를 접하며 좀 더 전문성을 쌓을 수 있는 방법 고민 [분석/엔지니어로서의 성장]해당 기술의 트렌드를 선도하는 프로젝트를 할 수 있는 환경을 찾아 전문 역량을 키우는 것이 바람직대규모 데이터와 폭넓은 첨단 기술을 경험할 수 있는 빅테크 기업, 혹은 AI나 시각화 등 특정 분야의 기술 솔루션을 제공하는 기업..

DATA 사전캠프 2024.11.11

6일차 아티클 스터디: 데이터 분석가에게 코딩테스트가 필요할까?

데이터 분석가가 업무에서 하게 되는 것들서비스 고도화: 국내 사건사고 데이터 시각화- 데이터 분석을 통해 어느 위치에서 어떤 유형의 사고가 자주 일어나는지 파악- 해당 위치에 선제적으로 안전 난간을 설치하는 등의 액션=> 약 22%의 출동 건수 감소 및 사상자 수 43% 감소와 같은 사고 저감 효과 실험 설계/분석: 오바마 캠프의 A/B테스트 사례SNS의 좋아요 버튼을 통해 수집되는 유저 데이터부터 이메일 수신자 그룹 데이터, 오바마 홍보 웹페이지에 접속한 이후의 로그 데이터 등 다양한 데이터를 활용하여 세그먼트 별 가장 효과적인 캠페인을 진행할 수 있도록 A/B 테스팅 진행 데이터 기반 의사결정 전략: 서울시 심야버스 노선 최적화통신사 KT와 협업을 통한 휴대전화 이력 데이터를 통해 어느 지역에 심야 ..

DATA 사전캠프 2024.11.11

5일차 SQL 스터디: 이제 놀만큼 놀았으니 다시 공부해봅시다!

아래와 같은 sparta_students(학생) 테이블이 있습니다.idnametrackgradeenrollment_year1르탄이Node.jsA20232배캠이SpringB20223구구이UnityC20214이션이Node.jsB2022 13. sparta_students 테이블에서 모든 학생의 이름(name)과 트랙(track)을 선택하는 쿼리를 작성해주세요!SELECT name, trackFROM sparta_students; 14. sparta_students 테이블에서 Unity 트랙 소속이 아닌 학생들을 선택하는 쿼리를 작성해주세요!SELECT *FROM sparta_studentsWHERE track != 'Unity'; 15. sparta_students 테이블에서 입학년도(enrollment_y..

DATA 사전캠프 2024.11.08

5일차 아티클 스터디: 마케터에게 데이터 분석이란? 꼭 필요할까?

데이터 분석 능력이 왜 필요할까요?데이터 분석을 통해 나온 인사이트를 바탕으로 더 나은 의사결정을 하기 위함특히, 디지털 중심으로 운영되는 브랜드의 경우 데이터에 대한 의존도가 더욱 높음 어떻게 준비하면 될까요?마케터에서 데이터 분석 능력은 데이터를 통해 가설을 세우고 검증하는 '기획력'에 가까움데이터를 읽고 방향성을 설정하고, 그 속에서 인사이트를 찾는 등 데이터 엔지니어나 데이터 분석가와는 다른 형태로 데이터를 다룰 줄 알아야 함문제 인식 - 가설 수립 - 검증(with 데이터) - 개선 데이터를 읽고 문제를 정의하고, 어떤 지표를 개선해야 하는지 알 수 있는 능력 중요 인사이트이전 회사에서 일을 할 때는 데이터가 중요하다고는 생각했지만 내 업무 외의 일이라고 생각했기 때문에 데이터를 보는데 소홀했는..

DATA 사전캠프 2024.11.08

5일차 아티클 스터디: SQL 질문 잘 하는 방법

질문 전 체크리스트: SQL 초보자들이 자주 하는 실수들- 코드에 오탈자가 있는가- 쿼리 실행 후 에러메시지를 읽어보고 그에 맞는 조치를 취했는가- 문제에서 요구하는 조건을 빠짐없이 작성했는가 (필터링, 정렬,컬럼명 등)- 질문에 포함된 쿼리를 실행해봤는가 (질문 사항 외 다른 에러 발생 여부)- 문법에 맞는 DBMS가 선택되어 있는가  검색검색 팁 5가지1. 구글에서 검색하기기술 검색은 반드시 구글에서!관련 공식 문서나 잘 구축된 기술 커뮤니티 stackoverflow가 검색 결과로 자주 등장 2. 영문으로 검색하기단어 나열로도 충분 3. 검색 키워드 잘 넣기검색 쿼리의 범위를 좁혀야 함 (너무 좁히지는 x)\ 4. 신뢰할 수 있는 사이트를 클릭하기MySQL: http://dev.mysql.com/Po..

DATA 사전캠프 2024.11.08

4일차 SQL 스터디: 상품 주문이 들어왔으니 주문을 처리해 봅시다!

이제 상품 주문이 들어왔으니 어떤 고객에게 어떤 주문이 들어왔는지를 파악할 수 있는 orders(주문) 테이블이 아래에 있습니다.idcustomer_idproduct_idamountshipping_feeorder_date171913500002023-11-01213121100002023-11-0236541200002023-11-054100832250002023-11-05535611150002023-11-09 9. orders 테이블에서 주문 수량(amount)이 2개 이상인 주문을 진행한 소비자의 ID(customer_id)만 선택하는 쿼리를 작성해주세요!SELECT customer_id FROM ordersWHERE amount >= 2; 10. orders 테이블에서 2023년 11월 2일 이후에 주문..

DATA 사전캠프 2024.11.07

4일차 아티클 스터디: SQL 가독성을 높이는 다섯 가지 사소한 습관

1. 예약어는 대문자로SELECT, FROM, GROUP BY, HAVING, AS, AND 와 같은 SQL 예약어를 대문자로 쓰는 습관 2. 행갈이를 자주 하자SELECT day, , time , SUM(total_bill)FROM tipsGROUP BY day, time위와 같이 작성했을 때 각 라인의 예약어만 확인해도 작성자의 의도와 코드 구조를 쉽게 파악할 수 있음 3. 행갈이를 더 자주 하자SELECT day, , time , SUM(total_bill)FROM tipsWHERE sex = 'Female'AND smoker = 'Yes'GROUP BY day , time위의 예시처럼 코드를 작성하는 것은 주석 처리 시 용이SELECT day, -- , time , SUM(tota..

DATA 사전캠프 2024.11.07

4일차 아티클 스터디: 데이터 분석가가 되어보니 중요한 것들

데이터 분석가에 대한 정의데이터에 기반해 성공 확률이 높은 의사결정을 지속적으로 하도록 돕는 사람데이터 분석가에게 중요한 점 1) 데이터 기반 2) 성공 확률이 높은 의사결정 3) 지속성 1. 데이터 기반데이터 분석 작업 이전에 데이터가 흐르는 조직을 만들어야 함데이터가 흐르는 조직아래층일수록 달성했을 때 비즈니스 임팩트가 더 큼데이터가 흐르는 조직은 1단계에 속하며 실무자가 필요한 데이터가 있을 때 쉽게 데이터를 확인할 수 있고 주요 지표가 어떻게 진행되는지 알고 있다면 데이터가 잘 흐른다고 볼 수 있음1단계가 잘 이루어지지 않으면 2, 3단계의 업무는 무의미할 수 있음 => 데이터가 잘 흐르는 조직을 만들기 위해 데이터를 쉽게 확인할 수 있고 주요 지표를 잘 인지하게 만드는 노력 필요 BI 툴 도입초..

DATA 사전캠프 2024.11.07

3일차 SQL 스터디: 이제 좀 벌었으니 flex 한 번 해볼까요?

⚡ 실제 데이터 베이스를 연결하기 전, SQL 문법을 탄탄하게 다져봅시다. 여러분이 구매하고 싶은 상품들의 정보가 있는 products(상품) 테이블이 아래에 있습니다.idproduct_namepricecategory1맥북 프로1200컴퓨터2다이슨 청소기300생활가전3갤럭시탭600컴퓨터4드롱기 커피머신200주방가전 1. products 테이블에서 제품 이름(product_name)과 가격(price)만을 선택하는 쿼리를 작성해주세요.SELECT product_name, price FROM products; 2. products 테이블에서 제품 이름에 '프로'가 포함된 모든 제품을 선택하는 쿼리를 작성해주세요.SELECT * FROM products where product_name LIKE '%프로%';..

DATA 사전캠프 2024.11.06

3일차 아티클 스터디: 그 데이터는 잘못 해석되었습니다

데이터를 잘못 해석하는 상황별 유형1) 생존자 편향의 오류'매주 이탈 고객 중 서비스를 장기간 이용한 고객의 비율'이 상승했다면 최근 고객들의 불만도가 높아졌다고 해석 가능하지만, 반대로 이 지표가 상승할 때 서비스가 올바른 방향으로 성장한다고 해석할 수도 있음생존자 편향의 오류를 막기 위해서는 전체 대상을 기준으로 잡는 것이 중요!! 2) 심슨의 역설전체 지표와 그룹을 나눈 지표의 방향성이 다르게 나타나는 상황퍼널 전환율, 결제 전환율, 클릭률 등 여러 전환율 지표에서 심슨의 역설 발생 가능심슨의 역설을 방지하기 위해서는 전체 집단의 지표뿐만 아니라, 집단을 나누어 지표를 확인하는 과정 필요 3) 상관관계를 통한 성급한 일반화상관성은 있으나 인과성이 없는 경우는 제 3의 공통 원인이 존재할 가능성이 높..

DATA 사전캠프 2024.11.06