분류 전체보기 140

데이터 분석가 채용 공고 분석하기②

지금은 2월 말, 이제 마지막 최종 프로젝트를 앞두고 있다. 이제 슬슬 이력서와 포트폴리오를 만들기 시작해야 할 때이고 또, 마지막 최종 프로젝트의 방향성 역시 내가 가고자 하는 길에 따라 정해질 것이라 생각하기 때문에 최종 프로젝트 전 채용 공고 분석을 진행해 보려고 한다.  페이타랩 데이터 분석가(그로스해커) | 페이타랩데이터 분석가(그로스해커) | 그로스해킹팀 | 데이터 분석가 | 경력 무관 | 정규직 | 페이타랩 부산 · 페이타랩 서울 | 상시 채용recruit.passorder.co.kr  Data Analyst (신입/경력 2년 이하)두잇의 채용공고를 확인해 보세요.teamdoeat.career.greetinghr.com  [캐시워크] 데이터분석 담당 채용전환형 인턴넛지헬스케어의 채용공고를 확..

카테고리 없음 2025.02.24

2월 3주차 WIL

아주아주 바쁜 한 주였다. 프로젝트와 ADsP 준비를 함께한 주.....ADsP는 왜이렇게 어려운 것인가.그래도 여기 댓글 보고 마음의 위안을 얻었다. 이제는 행운이 따르길 비는 수밖엔...😱체감 난이도는 ADsP >>>>>>>>>> SQLD 였다. 오늘은 내일까지 마무리해야하는 ppt와 대시보드 완성을 위해 팀원들이 모두 zep에 모였다. 오래간만에 ppt 디자인을 해봤는데 나름 잘 나온 것 같아서 뿌듯!아직 ppt 마무리는 다 하지 못했지만 내일 빠르게 마무리하고 영상까지 찍으면 될 것 같다. 마지막으로 대시보드도 점검할 예정! 부트캠프 프로젝트와 ADsP 때문에 사이드 프로젝트에는 다소 소홀했는데 다음주부터는 사이드 프로젝트와 이력서, 포폴에도 조금씩 시간을 써봐야겠다.  마지막 프로젝트에 대해서..

WIL 2025.02.23

AdSP 시험 전 마지막 개념 정리

SOM(자기조직화지도)고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬화하여 지도의 형태로 형성화하는 클러스터링 방법비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도 형태로 형상화하는 방법입력변수의 위치 관계를 그대로 보존이로 인해 입력 변수의 정보와 그들의 관계가 지도상에 그대로 나타남역전파 알고리즘 등을 이용하는 인공신경망과 달리 단 하나의 전방 패스를 사용함으로써 속도가 매우 빨라 실시간 학습처리 가능경쟁 학습으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결강도를 반복적으로 재조정하여 학습이와 같은 과정을 거치면서 연결강도는 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자가 됨SOM 알고리즘은 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 ..

카테고리 없음 2025.02.21

AdSP 3과목 5장: 데이터 마이닝②

군집 분석이질적인 모집단 세분화비지도 학습 기법 중 하나로 사전 정보 없이 자료를 유사한 대상끼리 묶는 방법군집의 개수나 구조에 대한 가정 없이 데이터들 사이의 거리를 기준으로 군집화 유도군집 결과에 대한 안정성을 검토하는 방법은 교차타당성을 이용하는 방법을 생각할 수 있음군집의 분리가 논리적인지 살펴보기 위해서는 군집 간 변동의 크기 차이를 검토함개체를 분류하기 위한 명확한 기준이 존재하지 않거나 기준이 밝혀지지 않은 상태에서 유용하게 이용할 수 있음실루엣 계수군집 모형 평가 기준 중 하나로 군집의 밀집 정도를 계산하는 방법군집 내의 거리와 군집 간의 거리를 기준으로 군집 분할의 성과 평가dist 함수거리 계산을 수행할 때 사용하는 함수유사도 측도관측값들이 얼마나 유사한지 또는 유사하지 않은지 측정할 ..

카테고리 없음 2025.02.20

AdSP 3과목 5장: 데이터 마이닝

데이터마이닝대용량 데이터 속에 숨겨진 지식 또는 새로운 규칙을 추출해 내는 과정기업이 보유하고 있는 거래 데이터, 고객 데이터 등과 기타 외부 데이터를 포함하는 모든 데이터를 기반으로 새로운 규칙 등을 발견하고 이를 실제 비즈니스 의사결정 등에 유용한 정보로 활용하고자 하는 일련의 작업데이터 분할 방법홀드아웃 방법데이터를 무작위로 두 집단으로 분리하여 실험데이터와 평가데이터로 설정하고 검정을 실시하는 모형 평가방법과대적합통계나 기계학습의 모델에서 변수가 너무 많아 모델이 복잡하고 과대하게 학습될 때 주로 발생생성된 모델이 훈련 데이터에 너무 최적화되어 학습하여 테스트 데이터의 작업 변화에 민감하게 반응하는 경우 발생학습 데이터가 모집단의 특성을 충분히 설명하지 못할 때 자주 발생과대적합이 발생할 것으로 ..

카테고리 없음 2025.02.19

AdSP 3과목 4장: 통계 분석

확률모든 사건의 확률은 0과 1 사이서로 배반인 사건들의 합집합의 확률은 각 사건들의 확률의 합두 사건 A, B가 독립이라면 사건 B의 확률은 A가 일어난다는 가정 하에서의 B의 조건부 확률과 동일연속형 확률변수는 가능한 값이 실수의 특정 구간 전체에 해당하는 확률변수이며 연속형 확률밀도함수를 가짐확률변수 X가 구간 또는 구간들의 모임인 숫자 값을 가짐표본조사 유의점표본편의는 표본추출 과정에서 특정 대상이 다른 대상에 비해 우선적으로 추출될 때 생기는 오차표본편의는 확률화에 의해 최소화하거나 없앨 수 있음표본값으로 모집단의 모수를 추정할 때 표본오차의 비표본오차가 발생할 수 있음응답오차, 유도질문 등은 표본조사에서 유의할 점P-value귀무가설이 사실인데도 불구하고 사실이 아니라고 판정할 때(1종 오류)..

카테고리 없음 2025.02.18

AdSP 3과목 3장: 데이터 마트

reshape 패키지변수를 조합해 변수명을 만들고 변수들을 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성할 수 있는 패키지 결측치해당 칸이 비어있는 경우 결측치 여부는 알기 쉬움관측치가 있지만 실상은 default 값이 기록된 경우라도 결측치로 처리하지 않음결측치가 있는 경우 다양한 대치 방법을 사용하여 완전한 자료로 만든 후 분석을 진행할 수 있음결측치가 20% 이상인 경우 해당 변수를 제거하고 분석해야 함 결측값 처리 방법Complete Analysis불완전한 자료를 모두 삭제하고 완전한 관측치만으로 자료를 분석하는 방법부분적으로 관측자료를 사용하므로 통계적 추론의 타당성 문제가 있음평균대치법자료의 평균값으로 결측값을 대치하여 불완전한 자료를 완전한 자..

카테고리 없음 2025.02.17

게임 데이터 대시보드 만들기: ➀ 작은 이슈들...

사용 데이터 Game Data - Utilize Advanced Data AnalysisThis dataset can be used for various machine learning.www.kaggle.com작은 이슈들...태블로 대시보드 구축 자체에 더 초점을 두기 위해 결정한 게임 데이터 대시보드 프로젝트!너무 잘 정리된 데이터이다 보니 거기에서 나오는 문제점들&아직 잘 모르겠는 부분이 좀 있다. 데이터가 너무 깔끔하다. 전처리 할 내용도 많지 않고 데이터가 너무 균등해서 시각화를 해도 예쁘지가 않다. 리텐션 시각화를 하기 위해 코호트 차트를 만들었는데 보통의 코호트 차트와 너무 다르다. 특정 기간의 데이터를 확인할 수 있게 하는 방법..! 아직 잘 모르겠다. 국가 코드 컬럼을 지도로 바꾸는 방법:..

카테고리 없음 2025.02.16

2월 2주차 WIL

이번주는 밀도 있는 한 주를 보낸 것 같다. 매일 남아서 adsp 공부도 하고 태블로도 열심히 공부했다. 아직 모르는 부분들도 많지만 새롭게 진행하는 프로젝트를 통해 태블로를 활용하는 능력을 더 기를 수 있도록 해야겠다. 사실, 다른 데이터들도 궁금하긴 했지만..! 손댔다가는 adsp  공부를 못하게 될 것 같아서 그나마 쉬워 보이는 게임 데이터를 골랐다. 그리고 이번주부터는 파이썬과 판다스도 다시 공부하기 시작했다. 기억이 너무나 많이 휘발되어 버려서....매일 꾸준히 공부를 해나가야할 것 같다. adsp 시험이 끝나면 이력서와 포트폴리오 기초를 만들어 둬야겠다. 그리고 (애)증의 컴활 자격증...🤯데이터 분석가에게 컴활 자격증이 필요하다고 할 수는 없지만.. 굉장히 기본적인 자격증도 없는 느낌이라 ..

WIL 2025.02.16

AdSP 3과목 1장: 데이터 분석 개요

데이터 마이닝 모델링데이터 마이닝 모델링은 통계적 모델링이 아니므로 지나치게 통계적 가설이나 유의성에 집착하지 말아야 함충분한 시간이 있으면 다양한 옵션을 줘서 시도해도 되지만, 그렇지 않은 경우 일정 성과가 나오면 해석과 활용 단계로 진행할 수 있도록 의사결정 해야함분석 데이터를 학습 및 테스트 데이터로 6:4, 7:4, 8:2 비율로 상황에 맞게 실시성능에 집착하면 분석 모델링의 주 목적인 실무 적용에 반하여 시간을 낭비할 수 있으므로 훈련 및 테스트 성능에 큰 편차가 없고 예상 성능을 만족하면 중단해야 함데이터 마이닝 모델링 평가 기준정확도정밀도디렉트 레이트리프트시뮬레이션 평가 기준ThroughputAverage Waiting TimeAverage Queue LengthTime in System

카테고리 없음 2025.02.16