카테고리 없음

AdSP 1과목: 데이터의 이해

sawo11 2025. 2. 13. 15:56

암묵지와 형식지

  • 암묵지 (Tacit Knowledge)
    • 개인이 경험, 감각, 직관 등을 통해 내면적으로 체득한 지식으로, 말이나 글로 쉽게 표현하기 어려운 지식
    • 숙련된 장인의 기술이나 경험에서 우러나오는 노하우 등
  • 형식지 (Explicit Knowledge)
    • 문서, 매뉴얼, 데이터 등으로 명확하게 기록되고 전달 가능한 지식
    • 공식적인 교육 자료나 기술 문서, 연구 보고서 등
  • 공통화 (Socialization)
    • 내용: 개인들이 서로 만나 경험과 암묵지를 공유하는 과정
    • 예: 대면 회의, 멘토링, 현장 체험 등
  • 표출화 (Externalization)
    • 내용: 암묵지를 언어나 이미지, 모델 등의 형식지로 표현하여 전달하는 과정
    • 예: 경험을 문서화하거나, 개념 모델로 설명하는 과정
  • 연결화 (Combination)
    • 내용: 여러 형식지를 조합하고 체계화하여 새로운 지식 체계를 구축하는 과정
    • 예: 다양한 보고서나 데이터를 종합하여 새로운 분석 보고서를 작성하는 것
  • 내면화 (Internalization)
    • 내용: 형식지를 다시 개인의 암묵지로 흡수하여 내면화하는 과정
    • 예: 문서화된 지식을 실제 업무에 적용하면서 자신의 경험으로 체득하는 것

정보, 지식, 지혜

개념 정의 예시
정보 정리되고 가공된 데이터로, 특정 사실이나 상황에 대한 객관적인 내용을 전달함 "오늘 서울의 최고 기온은 25°C이다."
"서울의 인구는 약 1000만 명이다."
지식 정보를 이해하고 분석하여 의미를 부여한 상태, 즉 체계화된 정보로 문제 해결이나 의사결정에 활용 가능함 "서울의 온도가 25°C이면 야외 활동하기에 적당하다."
"인구가 많은 도시는 교통 체증 문제가 발생할 수 있다."
지혜 지식을 바탕으로 상황에 맞는 최선의 판단과 결정을 내리는 능력 "서울의 기온 정보를 토대로 야외 행사의 최적 시간을 선택한다."
"도시 문제에 대해 효율적인 해결책을 제시한다."

메타 데이터

  • 어떤 데이터를 설명하고 관리하기 위한 부가적인 정보
  • 데이터를 검색, 분류, 관리, 그리고 활용하는 데 도움을 받을 수 있음
  • ex. 사진 파일의 메타 데이터: 촬영 날짜, 위치, 카메라 설정 등의 정보

데이터웨어하우스

  • 다양한 출처의 데이터를 한 곳에 모아 저장하고, 분석 및 보고를 용이하게 하기 위해 설계된 중앙 데이터 저장소
  • 데이터 통합: 여러 시스템과 소스에서 데이터를 수집하여 일관된 형태로 통합
  • 데이터 정제: 수집된 데이터를 정제하고 구조화하여 분석에 적합하게 만듦
  • 의사결정 지원: 분석, 보고, 데이터 마이닝 등을 통해 경영진과 사용자가 인사이트를 얻고 효과적인 의사결정을 내릴 수 있도록 도움
  • 한 기업이 매출, 고객, 재고 등의 데이터를 여러 시스템에서 관리하고 있다면, 데이터웨어하우스는 이 데이터를 한 곳에 모아 분석할 수 있게 함으로써, 전체적인 비즈니스 동향과 문제점을 파악하는 데 큰 도움을 줌

빅데이터 활용에 필요한 기본 3요소

  • 데이터
  • 기술
  • 인력

플랫폼과 플랫폼형 비즈니스 모델

  • 플랫폼
    • 공동 활용의 목적으로 구축된 유무형의 구조물 역할 수행
  • 플랫폼형 비즈니스 모델
    • 상품, 서비스, 기술 등의 기반 위에 다른 이해관계자들이 보완적인 상품, 서비스, 기술을 제공하는 생태계 구축을 목표로 하는 비즈니스 모델

데이터의 가치 측정이 어려운 이유

  • 데이터 활용 방식: 재사용, 재조합, 다목적용 개발
    • 데이터 재사용의 일반화로 특정 데이터를 언제 누가 사용했는지 알기 어려움
  • 분석 기술 발전
    • 분석기술의 발전으로 과거에 분석이 불가능했던 데이터를 분석할 수 있게됨
  • 새로운 가치 창출
    • 빅데이터는 기존에 존재하지 않던 새로운 가치를 창출하기 때문

신용 평가 

  • 투자자 보호를 위하여 금융상품 및 신용공여 등에 대하여 그 원리금이 상환될 가능성과 기업 법인 및 간접투자기구 등의 신용도를 평가하는 행위
  • 핀테크 분야에서 빅데이터 활용이 활발하게 이루어지고 있음 (신용 평가 및 리스크 관리)

딥러닝 분석기법

  • CNN
  • LSTM
  • Autoencorder
  • RNN
  • GAN
  • Transformer

분류 분석기법

  • 의사 결정 나무 (Decision Tree)
  • 나이브 베이즈 (Naive Bayes)
  • 서포트 벡터 머신 (SVM)
  • k-최근접 이웃 (k-NN)
  • 로지스틱 회귀 (Logistic Regression)

딥러닝 소프트웨어

  • Caffe
  • Tensorflow
  • Theano
  • PyTorch
  • Keras

객체 지향 DBMS

  • 일반적으로 사용되는 테이블 기반의 관계형 DB와 다르게 정보를 ‘객체’ 형태로 표현하는 데이터베이스 모델로 멀티미디어 등 복잡한 데이터 구조를 관리하는 DBMS

데이터 크기 순서

 

  • bit
  • byte (1 byte = 8 bits)
  • kilobyte (KB)
  • megabyte (MB)
  • gigabyte (GB)
  • terabyte (TB)
  • petabyte (PB)
  • exabyte (EB)
  • zettabyte (ZB)
  • yottabyte (YB)

 

통찰력을 제공하는 분석 기술

  • 최적화
  • 모델링
  • 권고
  • 시뮬레이션
  • 예측

정보를 제공하는 분석 기술

  • 추출

SQL 언어 분류

언어 종류 설명 주요 명령어 예시
DDL(데이터 정의어) 데이터베이스 객체(테이블, 뷰, 인덱스 등)를 생성, 수정, 삭제하는 데 사용 CREATE, ALTER, DROP, TRUNCATE 등
DML(데이터 조작어) 데이터베이스 내의 데이터를 조회, 삽입, 수정, 삭제하는 데 사용 SELECT, INSERT, UPDATE, DELETE 등
DCL(데이터 제어어) 데이터베이스 사용 권한 및 보안을 관리하는 데 사용 GRANT, REVOKE 등
TCL(트랜잭션 제어어) 트랜잭션의 실행 단위를 관리하고, 데이터 일관성을 유지하기 위한 명령어 COMMIT, ROLLBACK, SAVEPOINT 등

개인 신용도 평가에 사용하는 모형

  • 분류, 예측 모형