Contents
![[-] [-]](/moniwiki/imgs/plugin/arrup.png)
![[+] [+]](/moniwiki/imgs/plugin/arrdown.png)
- 1 장의 목표
- 2 데이터 웨어하우스 구조의 이해
- 2.1 구조: 정의
- 2.2 세 개의 주요 영역에서의 구조
- 3 뚜렷한 특성
- 4 구조의 프레임워크
- 5 기술적인 구조
1 장의 목표 #
- DW의 구조 이해
- 구조의 구성요소 이해
- DW 구조의 뚜렷한 특성 이해
- 구조의 프레임워크가 어떻게 데이터의 흐름을 지원하는지 조사
- 기술적인 구조가 무엇을 의미하는지 파악
- 구조의 구성요소의 기능과 서비스 이해
2 데이터 웨어하우스 구조의 이해 #
소스로부터 최종 사용자에 이르기 까지의 데이터의 흐름이 가능하게 하는 구조에 대한 이해
- DW의 모든 구성요소들을 결합시키는 체계를 "구조"라 한다.
- 올바른 구조는 성공적인 DW로 이끈다
- 통합된 데이터를 위한 구성요소를 포함해야 한다
- 정보를 전달하기 위한 모든 수단을 포함해야 한다
- 업무 요구사항을 충족시키는 규칙, 절차, 기능들
2.2 세 개의 주요 영역에서의 구조 #
세 개의 주요 영역
- 데이터 획득 영역 (Data Acquisition)
- 데이터 저장장치 영역 (Data Storage)
- Management & Controal
- Metadata
- Data Storage
- 정보 전달 영역
- OLAP
- Report/Query
- Data Mining
3 뚜렷한 특성 #
- 다른 목적과 범위
- 목적: 구조는 전략정보를 제공하기 위한 지원
- 범위: 소스 데이터의 크기와 종류, OLTP 시스템에 대한 성능 영향
- 데이터 내용
- 읽기전용: 읽기전용 데이터로 저장되기 전 많은 일을 해야 한다.
- 스냅샷(이력정보)
- 복잡한 분석과 빠른 응답(전략적 의사결정을 빠르게 하는 구조이어야 한다)
- 유연하고 동적인(변화에 유연하게 대처할 수 있는 구조이어야 한다)
- 메타데이터 주도
- 소스에서 최종사용자에 이르기까지 메타데이터가 있어야 한다.
4 구조의 프레임워크 #
- 데이터 흐름을 지원하는 구조
- 데이터 소스 -> 변환, 정제, 통합 -> 데이터 스테이징
- DW 저장소 -> 데이터를 적재하는 것과 정보 전달을 휘한 적합한 포맷의 데이터
- 메타데이터는 데이터 흐름의 처음부터 끝까지..
- 관리와 제어 모듈
- 운영감시/문제복구
- 데이터 획득 기능 관리, 제어 등
- 백업/복원/아카이브
5 기술적인 구조 #
기술적인 구조
- 구성요소: 데이터 획득, 데이터 저장장치, 정보 전달
- 기술적인 구조: 구성요소 내에서 제공되는 기능들과 서비스들의 집합
기능과 서비스
- 데이터 추출
- 데이터 소스 선택 및 소스들에 적용될 필터 유형 결정
- 복제나 다른 기법을 이용한 자동 추출 파일 생성
- 합병될 데이터를 저장하기 위한 중간 파일들 생성
- 다수의 플랫폼들로 부터 추출된 파일 전송
- 데이터 추출을 위한 작업 제어 서비스 이용
- 외부 소스들를 재포맷
- 부서별 파일, 스프레드쉬트등 재포맷
- 공통 코드 생성
- 데이터 불일치 해결
- 데이터 변환
- 추출된 데이터를 DW 저장소로 맵핑
- 정제, 중복제거, 병합/삭제
- 정규화 제거
- Data Type 전환
- 속성값들을 계산 유도
- 참조 무결성 검사
- 필요한 대로 데이터 집계
- 분실된 값들 해결
- 데이터 합병/통합
- 데이터 스테이징
- 백업/복구
- 파일 정렬/병합
- 기본키/외래키를 해결