728x90
1회차 시험이라 예상도 안되고 준비기간도 일주일이 안되기에 그냥 서점에서 젤 얇은 책 하나 사서 본다.
책이름은 영진닷컴의 이기적 빅데이터분석기사 필기이다.
목차는 다음과 같다.
목차 |
빅데이터 분석 기획 |
1. 빅데이터의 이해 |
1) 빅데이터 개요 및 활동 |
2) 빅데이터 기술 및 제도 |
2. 데이터 분석 기획 |
1) 분석 방안 수립 |
2) 분석 작업 계획 |
3. 데이터 수집 및 저장 계획 |
1) 데이터 수집 및 전환 |
2) 데이터 적재 및 저장 |
빅데이터 탐색 |
1. 데이터 전처리 |
1) 데이터 정제 |
2) 분석 변수 처리 |
2. 데이터 탐색 |
1) 데이터 탐색 기초 |
2) 고급 데이터 탐색 |
3. 통계 기법의 이해 |
1) 기술통계 |
2) 추론통계 |
빅데이터 모델링 |
1. 분석 모형 설계 |
1) 분석 절차 수립 |
2) 분석 환경 구축 |
2. 분석기법 적용 |
1) 분석기법 |
2) 고급 분석기법 |
빅데이터 결과 해석 |
1. 분석모형 평가 및 개선 |
1) 분석모형 평가 |
2) 분석모형 개선 |
2. 분석결과 해석 및 활용 |
1) 분석결과 해석 |
2) 분석결과 시각화 |
3) 분석결과 활용 |
이 글은 이 모든 걸 설명하기 위함이 아니라 철저히 내가 시험보기위해 필요한 내용만 정리할 것이다. 특히, 몰라도 맞출 수 있는 기본적인 것들이나 너무 자잘한 것들은 그냥 뺄거니까 참고하시길.
빅데이터 분석 기획
1. 빅데이터의 이해
1) 빅데이터 개요 및 활용
- 가역데이터 & 불가역데이터(p.19)
- 가역데이터 : 원본으로 환원 가능. 1대1. 데이터마트와 데이터웨어하우스에 활용.
- 불가역데이터 : 환원불가능. 독립된 새 객체. 1대N, M대N. 데이터전처리에 활용.
- 정형데이터 & 비정형데이터 & 반정형데이터
- 정형데이터 ex) RDBMS의 테이블
- 비정형데이터 : 연산불가. ex) 동영상, 이미지, 문서
- 반정형데이터 : 유연한 데이터 형식. 메타 구졸ㄹ 가지는 데이터. ex) JSON, XML, HTML
- JSON : 자바스크립트를 위해 객체 형식으로 자료를 표현하는 문서 형식. 경량
- XML : 태그를 사용.
- HTML : 웹페이지 만들 때 사용.
- 지식창조 매커니즘 : 공통화 => 표출화 => 연결화 => 내면화
- 데이터, 정보, 지식, 지혜(p.20)
- 데이터베이스의 특징 : 통합(중복x), 저장, 공용, 변화(현시점의 상태)
- 데이터베이스의 활용(p.22)
- OLTP : 데이터를 수시로 갱신. 갱신위주. 복잡한 데이터구조. 정규적. 트랜잭션 중심. 응답시간 빠름 등등
- OLAP : 정보 위주의 분석처리. 조회위주. 위에꺼랑 반대.
- 데이터웨어하우스 : 데이터를 공통의 형식으로 변환해서 관리하는 데이터베이스. 분석방법도 포함.
- 특징 : 주제지향성, 통합성, 시계열성, 비휘발성
- 구성요소 : 데이터 모델, OLAP, 데이터마이닝, 경영기반 솔루션, 분석 툴.
- 빅데이터의 특징 : 3V(규모 volume, 유형 variety, 속도 velocity) + 2V(품질 veracity, 가치 value)
- 빅데이터 조직구성
- 집중형 : 별도 전담조직. 내부에서 우선순위 정함.
- 기능형 : 각 부서의 근무자들이 직접 분석. 협소한 분석.
- 분산형 : 전문인력이 각 부서로. 현업 적용 속도 good.
- 정보의 특징 : 정확성, 적시성, 적당성, 관련성
- 빅데이터 활용에 필요한 3요소 : 자원(데이터), 기술, 인력
- 데이터 산업구조 : 인프라/서비스 영역. 서비스영역에서는 데이터를 제공함.
2) 빅데이터 기술 및 제도
- 빅데이터 플랫폼 : 데이터 수집, 저장, 처리, 분석 등 전과정을 제공.
- 기능 : 컴퓨팅, 저장, 네트워크 부하 해소
- 빅데이터 처리과정 : 생성->수집->저장(공유)->처리->분석->시각화
- 빅데이터 저장
- NoSQL : 전통적 RDBMS와 다르게 데이터 모델을 단순화하여 설계한 비관계형 DBMS.
- RDBMS의 특징인 원자성, 일관성, 독립성, 지속성을 포기
- 데이터 업데이트 즉각적으로 가능.
- 공유 데이터 시스템 : 일관성 + (가용성 or 네트워크 분할 감내성). 높은 확장성
- 병렬 DBMS
- 분산 파일 시스템 : HDFS(Hadoop distributed file system)
- 네트워크 저장시스템
- NoSQL : 전통적 RDBMS와 다르게 데이터 모델을 단순화하여 설계한 비관계형 DBMS.
- 빅데이터 처리
- 분산 병렬 컴퓨팅 : 다수 컴퓨팅 자원을 네트워크 상으로 연결하고 미들웨어를 통해 하나의 시스템처럼.
- 하둡 : HDFS, Hbase, MapReduce(분산 병렬처리)로 구성.
- MapReduce(p.45)
- 하파치 스파크
- 준지도학습 : 지도 + 비지도
- 비지도학습
- 오토인코더 : 입력 데이터의 차원을 줄여 모형을 단순화. 노이즈제거, 텍스트벡터화.
- 생성적 적대 신경망(GAN) : 2개의 신경망. 합성이미지, 시뮬레이션에 이용.
- 에노테이션 : labelling 작업
- 개인정보 비식별화 조치 가이드라인 : 사전검토 -> 비식별조치 -> 적정성 평가 -> 사후 관리
- 적정선 평가 : k-익명성, i-익명성, t-근접성
2. 데이터 분석 기획
1) 분석 방안 수립
- 분석의 대성과 방법에 따른 분석 기획의 분류
대상 known | 대상 unknown | |
방법 known | Optimization | Insight |
방법 unknown | Solution | Discovery |
- 목표 시점에 따른 분석 기획의 분류
- 단기적(과제중심) : Quick-Win
- 중장기적(마스터플랜) : 분석 문화 내재화.
- 혼합 방식 : 증명을 위해 과제를 빠르게 해결.
- ROI 요소 4V
- 투지비용 요소 : Volume, Variety, Velocity
- 비즈니스 효과 : Value
- '빅데이터' 우선순위 평가기준
- 시급성 : 전략적 중요도, 목표가치(KPI) <= ROI요소 중 비즈니스 효과
- 난이도 : 비용, 분석 수준 <= ROI요소 중 투자비용 요소
- 분석과제 우선순위 선정 및 조정(p.68 참조)
- 하향식 접근방식 : 문제 탐색 -> 문제 정의 -> 해결방안 모색 -> 타당성 평가
- 문제 탐색 : 비즈니스 모델 기반 문제 탐색, 외부참조 모델 기반 문제 탐색, 분석유즈케이스 정의
- 분석 기회 발굴의 범위 확장 : 경쟁자 확대관점, 시장의 니즈탐색, 역량의 재해석
- 문제 탐색 : 비즈니스 모델 기반 문제 탐색, 외부참조 모델 기반 문제 탐색, 분석유즈케이스 정의
- 상향식 접근 방식 : 디자인 사고 접근법(Why 가 아닌 What의 관점. 관찰)
- 문제 해결법 : 프로토타이핑 접근법(일단 분석부터 해보고 결과 확인 and 개선)
- 비지도학습에 의해 수행, 시행착오를 통해 개선
- 분석 방법론의 구성요건 : 상세한 절차, 방법, 도구와 기법, 템플릿과 산출물, 노멀한 난이도
- 계층적 프로세스는 단계 -> 테스크 -> 스텝(젤 아래) 3계층으로 구성.
- 소프트웨어개발생명주기를 활용한 분석 방법론
- 폭포수 모형 : 순차적 접근. 하향식. 느림.
- 프로토타입 모형 : 일시적으로 구현. 폭포수 보완.
- 나선형 모형 : 점진적으로 완벽한 시스템. 폭포수와 원형 보완. 실패위험 감소. 관리 복잡.
- 반복적 모형 : 일부분을 반복적으로 개발. 폭포수,원형,나선형이 혼합.
- 증분형 : 대상범위 점차 확대. 증분을 따로 개발.
- 진화형 : 각 구성요소 발전
- KDD 분석 방법론(9개 프로세스)의 분석절차
- 데이터선택 -> 전처리 -> 변환 -> 데이터마이닝 -> 평가
- 전처리: 잡음, 이상값, 결측치 식별
- 변환 : 변수선택, 차원축소, 테스트 셋 분리 등
- CRISP-DM 분석 방법론(4 계층)의 분석절차
- 업무이해 -> 데이터 이해 -> 데이터 준비 -> 모델링 -> 평가 -> 전개
- 데이터 이해 : 데이터 수집, 탐색
- 데이터 준비 : 분석용 데이터 선택, 데이터 정제, 통합
- 모델링 : 모형평가
- SEMMA : sample, explore, modify, model, assess
- modify : 분석용 데이터변환, 시각화
Tip) 분석방법론 절차 어쩌고 저쩌고 할 때, 데이터 준비와 모델링은 붙어다닌다.
2) 분석 작업 계획
- 분석 작업 계획 수립을 위한 작업분할구조(WBS)
- 데이터 분석과제 정의 -> 데이터 준비 및 탐색 -> 데이터 분석 모델링 및 검증 -> 산출물 정리
- 생선 분석 변수의 전처리 : 데이터 정제, 통합, 축소, 변환 not 삭제
- 빅데이터 주요 품질 지표 : 정확성, 완전성, 적시성, 일관성
3. 데이터 수집 및 저장 계획
1) 데이터 수집 및 전환
- 내외부 데이터 수집
- 내부 데이터 : 네트워크 및 서버 장비, 마케팅 데이터.
- 실시간 수집, 정형화된 형식
- 외부 데이터 : 소셜 데이터, M2M
- 데이터를 탐색, 수집, 변환하는 노력 필요
- 내부 데이터 : 네트워크 및 서버 장비, 마케팅 데이터.
- 데이터 수집 기술
- 정형 데이터 수집 : Apach Sqoop
- 관계형 데이터 스토아 간 데이터 전송
- 모든 적재관정을 자도오하 및 병렬처리
- 로그/센서 데이터 수집 : Flume
- 웹 및 소셜 데이터 수집 : Scrapy(based on python)
- 정형 데이터 수집 : Apach Sqoop
- 데이터 적절성 검증 : 데이터 누락 점검, 소스 데이터와 비교, 데이터의 정확성 점검, 보안사항 점검, 저작권 점검, 대량 트래픽 발생 여부
- 데이터 변환 방식의 종류
- 비정형 to 정형
- 수집 데이터를 분산파일시스템으로 저장하는 방식
- 주제별, 시계열적으로 저장하는 방식
- 키-값 형태로 저장하는 방식
- 수집데이터가 정형데이터이면 바로 HDFS로 저장하고, 그렇지 않으면 저장 데이터베이스(RDBMS)를 선정하고 table을 생성할 수 있다.
- 데이터 비식별화
- 가명처리 : 데이터 변형 수준 적으나 대체 값 부여 시에도 식별 가능한 고유 속성이 유지됨.
- 휴리스틱 가명화 : name to 홍길동
- 암호화 : 일정한 알고리즘으로 암호화. 복호화 키 존재
- 교환
- 총계처리 : 정밀 분석이 어려움.
- 부분총계 : 일정부분 레코드만 총계 처리
- 라운딩 : 23세 to 20대
- 재배열
- 데이터 삭제
- 데이터 범주화 : 다양한 분석 가능. 정확한 분석 어렵고 추론 가능성 있음.
- 감추기
- 랜덤 라운딩 : 임의의 수 기준으로 up or down
- 범위 방법 : 3333만원 => 3000~3500 만원
- 제어 라운딩 : 랜덤라운딩의 행과 열이 맞지 않는 문제점 해결.
- 데이터 마스킹
- 임의 잡음 추가
- 공백과 대체
- 가명처리 : 데이터 변형 수준 적으나 대체 값 부여 시에도 식별 가능한 고유 속성이 유지됨.
- 프라이버시 보호 모델 : k-익명성, I-다양성(lot of), t-근접성(t-map. 그냥 이래 외울라고)
- 데이터 품질 기준
- 정형데이터 품질기준 : 완전성, 유일성, 유효성, 일관성, 정확성
- 비정형데이터 품질기준 : 기능성, 신뢰성, 사용성, 효율성, 이식성
2) 데이터 적재 및 저장
- 데이터 모델에 따른 NoSQL 데이터베이스 분류
- key-value 데이터베이스 : 안정적인 분산 저장소
- Redis
- column-oriented 데이터베이스 : 확장성 최고. 자체질의기능 x.
- Cassandra, Hbase
- document 데이터베이스 :
- MongoDB, CouchDB
- 트랜잭션 일관성은 데이터 수정, 삭제가 빈번할 때 중요도가 높고 RDBMS를 선택하면 됨.
- key-value 데이터베이스 : 안정적인 분산 저장소
- 실시간 데이터 처리를 위해 스파크, 스톰을 사용하며 배치 기반의 대용량 데이터 처리에 특화된 하둡보다 실시간 대용량 데이터 처리에 특화.
- 스파크와 스톰 둘다 내장된 저장소가 없기에 외부 저장시스템과의 연계 필수적.
빅데이터 탐색
1. 데이터 전처리
1) 데이터 정제
- 데이터의 종류
- 단변량자료 : 자료의 특성을 대표하는 특성 변수가 1개
- 다변량자료
- 질적자료
- 명목자료 : 종류. 범주
- 서열자료 : 서열이 있음. 등수
- 수치자료
- 구간자료 : 명목, 서열자료의 의미를 포함하고 산술가능(+, -). 온도
- 비율자료 : 명목, 서울, 구간자료의 의미 포함. 사칙연산 가능. 무게
- 시계열자료
- 횡적 자료 : 특정 시점에서 여러 대상 수집
- 종적자료 : 시계열 + 횡적자료. 여러 시점에서 여러 대상.
- ETL : 데이터 변환의 하나로 Extraction, Transformation, Loading
- 결측데이터의 종류(p.135)
- 완전 무작위 결측 : 결측데이터가 어떤 변수와도 연관x
- 무작위 결측 : 결측데이터가 다른 관측된 변수와 연관. 비관측 변수와 연관x
- 비 무작위 결측 : 결측데이터가 결측여부와 연관.
- 결측값 고려사항 : 효율성문제, 자료처리의 복잡성, 편향 문제
- 결측값 처리
- 단순대치법 : 기본적으로 결측값이 MCAR이나 MAR일 것으로 판단
- Complete Analysis : 결측값 무시
- 평균대치법
- 회귀대치법(조건부 평균대치법)
- 단순확률대치법 : 확률추출로 대치
- 최근방대치법 : 근방의 비슷한 값으로
- 다중대치법 : 단순대치법을 복수로 시행하고, 각각의 경우의 수에 해당하는 데이터 셋을 분석하여 통계적 결합을 통해 결과 도출
- 단순대치법 : 기본적으로 결측값이 MCAR이나 MAR일 것으로 판단
- 이상치 탐지
- 시각화
- z-score
- 밀도기반 클러스터링(DBSCAN)
- 고립 의사나무
아 ㅅ.... 방금 코로나 때매 시험 취소됐다네요. 2회차 시험으로 미뤄졌답니다. 다음에 봅시다 안녕.
2) 분석 변수 처리
728x90
'자격증준비 > 빅데이터분석기사' 카테고리의 다른 글
빅데이터분석기사 1회 필기시험 후기 & 필기노트 공유 (0) | 2021.04.17 |
---|