본문 바로가기

자격증준비/빅데이터분석기사

빅데이터분석기사 필기 정리

728x90

 1회차 시험이라 예상도 안되고 준비기간도 일주일이 안되기에 그냥 서점에서 젤 얇은 책 하나 사서 본다.

책이름은 영진닷컴의 이기적 빅데이터분석기사 필기이다.

 목차는 다음과 같다.

목차
빅데이터 분석 기획 
1. 빅데이터의 이해
  1) 빅데이터 개요 및 활동
  2) 빅데이터 기술 및 제도
2. 데이터 분석 기획
  1) 분석 방안 수립
  2) 분석 작업 계획
3. 데이터 수집 및 저장 계획
  1) 데이터 수집 및 전환
  2) 데이터 적재 및 저장
빅데이터 탐색
1. 데이터 전처리
  1) 데이터 정제
  2) 분석 변수 처리
2. 데이터 탐색
  1) 데이터 탐색 기초
  2) 고급 데이터 탐색
3. 통계 기법의 이해
  1) 기술통계
  2) 추론통계
빅데이터 모델링
1. 분석 모형 설계
  1) 분석 절차 수립
  2) 분석 환경 구축
2. 분석기법 적용
  1) 분석기법
  2) 고급 분석기법
빅데이터 결과 해석
1. 분석모형 평가 및 개선
  1) 분석모형 평가
  2) 분석모형 개선
2. 분석결과 해석 및 활용
  1) 분석결과 해석
  2) 분석결과 시각화
  3) 분석결과 활용

 이 글은 이 모든 걸 설명하기 위함이 아니라 철저히 내가 시험보기위해 필요한 내용만 정리할 것이다. 특히, 몰라도 맞출 수 있는 기본적인 것들이나 너무 자잘한 것들은 그냥 뺄거니까 참고하시길.

 


빅데이터 분석 기획

1. 빅데이터의 이해

1) 빅데이터 개요 및 활용

  • 가역데이터 & 불가역데이터(p.19)
    • 가역데이터 : 원본으로 환원 가능. 1대1. 데이터마트와 데이터웨어하우스에 활용. 
    • 불가역데이터 : 환원불가능. 독립된 새 객체. 1대N, M대N. 데이터전처리에 활용.
  • 정형데이터 & 비정형데이터 & 반정형데이터
    • 정형데이터 ex) RDBMS의 테이블
    • 비정형데이터 : 연산불가. ex) 동영상, 이미지, 문서
    • 반정형데이터 : 유연한 데이터 형식. 메타 구졸ㄹ 가지는 데이터. ex) JSON, XML, HTML
      • JSON : 자바스크립트를 위해 객체 형식으로 자료를 표현하는 문서 형식. 경량
      • XML : 태그를 사용.
      • HTML : 웹페이지 만들 때 사용.
  • 지식창조 매커니즘 : 공통화 => 표출화 => 연결화 => 내면화
  • 데이터, 정보, 지식, 지혜(p.20)
  • 데이터베이스의 특징 : 통합(중복x), 저장, 공용, 변화(현시점의 상태)
  • 데이터베이스의 활용(p.22)
    • OLTP : 데이터를 수시로 갱신. 갱신위주. 복잡한 데이터구조. 정규적. 트랜잭션 중심. 응답시간 빠름 등등
    • OLAP : 정보 위주의 분석처리. 조회위주. 위에꺼랑 반대.
  • 데이터웨어하우스 : 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스. 분석방법도 포함.
    • 특징 : 주제지향성, 통합성, 시계열성, 비휘발성
    • 구성요소 : 데이터 모델, OLAP, 데이터마이닝, 경영기반 솔루션, 분석 툴.
  • 빅데이터의 특징 : 3V(규모 volume, 유형 variety, 속도 velocity) + 2V(품질 veracity, 가치 value)
  • 빅데이터 조직구성
    • 집중형 : 별도 전담조직. 내부에서 우선순위 정함.
    • 기능형 : 각 부서의 근무자들이 직접 분석. 협소한 분석.
    • 분산형 : 전문인력이 각 부서로. 현업 적용 속도 good.
  • 정보의 특징 : 정확성, 적시성, 적당성, 관련성
  • 빅데이터 활용에 필요한 3요소 : 자원(데이터), 기술, 인력
  • 데이터 산업구조 : 인프라/서비스 영역. 서비스영역에서는 데이터를 제공함. 

2) 빅데이터 기술 및 제도

  • 빅데이터 플랫폼 : 데이터 수집, 저장, 처리, 분석 등 전과정을 제공.
    • 기능 : 컴퓨팅, 저장, 네트워크 부하 해소
  • 빅데이터 처리과정 : 생성->수집->저장(공유)->처리->분석->시각화
  • 빅데이터 저장
    • NoSQL : 전통적 RDBMS와 다르게 데이터 모델을 단순화하여 설계한 비관계형 DBMS.
      • RDBMS의 특징인 원자성, 일관성, 독립성, 지속성을 포기
      • 데이터 업데이트 즉각적으로 가능.
    • 공유 데이터 시스템 : 일관성 + (가용성 or 네트워크 분할 감내성). 높은 확장성
    • 병렬 DBMS 
    • 분산 파일 시스템 : HDFS(Hadoop distributed file system)
    • 네트워크 저장시스템
  • 빅데이터 처리 
    • 분산 병렬 컴퓨팅 : 다수 컴퓨팅 자원을 네트워크 상으로 연결하고 미들웨어를 통해 하나의 시스템처럼.
    • 하둡 : HDFS, Hbase, MapReduce(분산 병렬처리)로 구성. 
      • MapReduce(p.45)
    • 하파치 스파크
  • 준지도학습 : 지도 + 비지도
  • 비지도학습
    • 오토인코더 : 입력 데이터의 차원을 줄여 모형을 단순화. 노이즈제거, 텍스트벡터화. 
    • 생성적 적대 신경망(GAN) : 2개의 신경망. 합성이미지, 시뮬레이션에 이용.
  • 에노테이션 : labelling 작업
  • 개인정보 비식별화 조치 가이드라인 : 사전검토 -> 비식별조치 -> 적정성 평가 -> 사후 관리
    • 적정선 평가 : k-익명성, i-익명성, t-근접성

2. 데이터 분석 기획

1) 분석 방안 수립

  • 분석의 대성과 방법에 따른 분석 기획의 분류
  대상 known 대상 unknown
방법 known Optimization Insight
방법 unknown Solution Discovery
  • 목표 시점에 따른 분석 기획의 분류
    • 단기적(과제중심) : Quick-Win
    • 중장기적(마스터플랜) : 분석 문화 내재화. 
    • 혼합 방식 : 증명을 위해 과제를 빠르게 해결.
  • ROI 요소 4V
    • 투지비용 요소 : Volume, Variety, Velocity
    • 비즈니스 효과 : Value 
  • '빅데이터' 우선순위 평가기준
    • 시급성 : 전략적 중요도, 목표가치(KPI) <= ROI요소 중 비즈니스 효과
    • 난이도 : 비용, 분석 수준 <= ROI요소 중 투자비용 요소
  •  분석과제 우선순위 선정 및 조정(p.68 참조)
  • 하향식 접근방식 : 문제 탐색 -> 문제 정의 -> 해결방안 모색 -> 타당성 평가
    • 문제 탐색 : 비즈니스 모델 기반 문제 탐색, 외부참조 모델 기반 문제 탐색, 분석유즈케이스 정의
      • 분석 기회 발굴의 범위 확장 : 경쟁자 확대관점, 시장의 니즈탐색, 역량의 재해석
  • 상향식 접근 방식 : 디자인 사고 접근법(Why 가 아닌 What의 관점. 관찰)
    • 문제 해결법 : 프로토타이핑 접근법(일단 분석부터 해보고 결과 확인 and 개선)
    • 비지도학습에 의해 수행, 시행착오를 통해 개선
  • 분석 방법론의 구성요건 : 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물, 노멀한 난이도
  • 계층적 프로세스는 단계 -> 테스크 -> 스텝(젤 아래) 3계층으로 구성.
  • 소프트웨어개발생명주기를 활용한 분석 방법론
    • 폭포수 모형 : 순차적 접근. 하향식. 느림.
    • 프로토타입 모형 : 일시적으로 구현. 폭포수 보완.
    • 나선형 모형 : 점진적으로 완벽한 시스템. 폭포수와 원형 보완. 실패위험 감소. 관리 복잡.
    • 반복적 모형 : 일부분을 반복적으로 개발. 폭포수,원형,나선형이 혼합.
      • 증분형 : 대상범위 점차 확대. 증분을 따로 개발.
      • 진화형 : 각 구성요소 발전
  • KDD 분석 방법론(9개 프로세스)의 분석절차
    • 데이터선택 -> 전처리 -> 변환 -> 데이터마이닝 -> 평가
    • 전처리: 잡음, 이상값, 결측치 식별
    • 변환 : 변수선택, 차원축소, 테스트 셋 분리 등
  • CRISP-DM 분석 방법론(4 계층)의 분석절차
    • 업무이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개
    • 데이터 이해 : 데이터 수집, 탐색
    • 데이터 준비 : 분석용 데이터 선택, 데이터 정제, 통합
    • 모델링 : 모형평가
  • SEMMA : sample, explore, modify, model, assess
    • modify : 분석용 데이터변환, 시각화

Tip) 분석방법론 절차 어쩌고 저쩌고 할 때, 데이터 준비와 모델링은 붙어다닌다.

 

2) 분석 작업 계획

  • 분석 작업 계획 수립을 위한 작업분할구조(WBS)
    • 데이터 분석과제 정의 -> 데이터 준비 및 탐색 -> 데이터 분석 모델링 및 검증 -> 산출물 정리
  • 생선 분석 변수의 전처리 : 데이터 정제, 통합, 축소, 변환 not 삭제
  • 빅데이터 주요 품질 지표 : 정확성, 완전성, 적시성, 일관성

3. 데이터 수집 및 저장 계획

1) 데이터 수집 및 전환

  • 내외부 데이터 수집
    • 내부 데이터 : 네트워크 및 서버 장비, 마케팅 데이터.
      • 실시간 수집, 정형화된 형식
    • 외부 데이터 : 소셜 데이터, M2M
      • 데이터를 탐색, 수집, 변환하는 노력 필요
  • 데이터 수집 기술
    • 정형 데이터 수집 : Apach Sqoop
      • 관계형 데이터 스토아 간 데이터 전송
      • 모든 적재관정을 자도오하 및 병렬처리
    • 로그/센서 데이터 수집 : Flume 
    • 웹 및 소셜 데이터 수집 : Scrapy(based on python)
  • 데이터 적절성 검증 : 데이터 누락 점검, 소스 데이터와 비교, 데이터의 정확성 점검, 보안사항 점검, 저작권 점검, 대량 트래픽 발생 여부
  • 데이터 변환 방식의 종류 
    • 비정형 to 정형
    • 수집 데이터를 분산파일시스템으로 저장하는 방식
    • 주제별, 시계열적으로 저장하는 방식
    • 키-값 형태로 저장하는 방식
  • 수집데이터가 정형데이터이면 바로 HDFS로 저장하고, 그렇지 않으면 저장 데이터베이스(RDBMS)를 선정하고 table을 생성할 수 있다. 
  • 데이터 비식별화
    • 가명처리 : 데이터 변형 수준 적으나 대체 값 부여 시에도 식별 가능한 고유 속성이 유지됨.
      • 휴리스틱 가명화 : name to 홍길동
      • 암호화 : 일정한 알고리즘으로 암호화. 복호화 키 존재
      • 교환 
    • 총계처리 : 정밀 분석이 어려움.
      • 부분총계 : 일정부분 레코드만 총계 처리
      • 라운딩 : 23세 to 20대
      • 재배열 
    • 데이터 삭제
    • 데이터 범주화 : 다양한 분석 가능. 정확한 분석 어렵고 추론 가능성 있음.
      • 감추기
      • 랜덤 라운딩 : 임의의 수 기준으로 up or down
      • 범위 방법 : 3333만원 => 3000~3500 만원
      • 제어 라운딩 : 랜덤라운딩의 행과 열이 맞지 않는 문제점 해결.
    • 데이터 마스킹
      • 임의 잡음 추가 
      • 공백과 대체
  • 프라이버시 보호 모델 : k-익명성, I-다양성(lot of), t-근접성(t-map. 그냥 이래 외울라고)
  • 데이터 품질 기준
    • 정형데이터 품질기준 : 완전성, 유일성, 유효성, 일관성, 정확성
    • 비정형데이터 품질기준 : 기능성, 신뢰성, 사용성, 효율성, 이식성

2) 데이터 적재 및 저장

  •  데이터 모델에 따른 NoSQL 데이터베이스 분류
    • key-value 데이터베이스 : 안정적인 분산 저장소
      • Redis
    • column-oriented 데이터베이스 : 확장성 최고. 자체질의기능 x. 
      • Cassandra, Hbase
    • document 데이터베이스 : 
      • MongoDB, CouchDB
    • 트랜잭션 일관성은 데이터 수정, 삭제가 빈번할 때 중요도가 높고 RDBMS를 선택하면 됨.
  • 실시간 데이터 처리를 위해 스파크, 스톰을 사용하며 배치 기반의 대용량 데이터 처리에 특화된 하둡보다 실시간 대용량 데이터 처리에 특화.
    • 스파크와 스톰 둘다 내장된 저장소가 없기에 외부 저장시스템과의 연계 필수적. 
    •  

빅데이터 탐색

1. 데이터 전처리

1) 데이터 정제

  • 데이터의 종류
    • 단변량자료 : 자료의 특성을 대표하는 특성 변수가 1개
    • 다변량자료
    • 질적자료
      • 명목자료 : 종류. 범주
      • 서열자료 : 서열이 있음. 등수
    • 수치자료
      • 구간자료 : 명목, 서열자료의 의미를 포함하고 산술가능(+, -). 온도
      • 비율자료 : 명목, 서울, 구간자료의 의미 포함. 사칙연산 가능. 무게
    • 시계열자료
    • 횡적 자료 : 특정 시점에서 여러 대상 수집
    • 종적자료 : 시계열 + 횡적자료. 여러 시점에서 여러 대상.
  • ETL : 데이터 변환의 하나로 Extraction, Transformation, Loading
  • 결측데이터의 종류(p.135)
    • 완전 무작위 결측 : 결측데이터가 어떤 변수와도 연관x
    • 무작위 결측 : 결측데이터가 다른 관측된 변수와 연관. 비관측 변수와 연관x
    • 비 무작위 결측 : 결측데이터가 결측여부와 연관.
  • 결측값 고려사항 : 효율성문제, 자료처리의 복잡성, 편향 문제
  • 결측값 처리
    • 단순대치법 : 기본적으로 결측값이 MCAR이나 MAR일 것으로 판단
      • Complete Analysis : 결측값 무시
      • 평균대치법 
      • 회귀대치법(조건부 평균대치법)
      • 단순확률대치법 : 확률추출로 대치
      • 최근방대치법 : 근방의 비슷한 값으로
    • 다중대치법 : 단순대치법을 복수로 시행하고, 각각의 경우의 수에 해당하는 데이터 셋을 분석하여 통계적 결합을 통해 결과 도출
  • 이상치 탐지
    • 시각화
    • z-score
    • 밀도기반 클러스터링(DBSCAN)
    • 고립 의사나무 

아 ㅅ.... 방금 코로나 때매 시험 취소됐다네요. 2회차 시험으로 미뤄졌답니다. 다음에 봅시다 안녕.

 

 

2) 분석 변수 처리

 

 

 

728x90