#title Data Vault 기본 [[TableOfContents]] ==== 개요 ==== DW 업계에는 두 형님이 계신다. Inmon형님과 Kimball형님이다. 이 둘은 첨예하게 대립하고 있다. 개인적으로 Inmmon형님은 너무 이상적이고 학술적인 반면에 Kimball형님은 너무 실무적이다. 개인적으로는 Inmon형님이 좋기는 하지만 역시 Kimball형님이 현실적이기는 하다. 어쨌든 Data Vault는 3정규화된 모델과 Star Schema의 Hibrid라고 한다. Inmmon형님은 {{{DW2.0}}}의 모델이라고 침이 마르게 칭찬하고 있다. 아마도 Kimball형님에게 까이다가 반격의 솔루션을 찾아서 그런지도.. 암턴.. 재미있는 모델이다. 좀 더 철학적인 모델이라고나 할까? 이것도 entity(실체)가 뭔지.. relationship(관계)이 뭔지... history(이력)가 뭔지 모르면 그림의 떡인 모델이다. ==== 오늘날 DW에 당면한 문제점들 ==== Business * 고객의 single-view 부족 * 전사에 걸친 모든 정보의 가시성 부족 * 경쟁 - 더 좋은, 더 빠른, 더 값싼 * 예측의 어려움(비즈니스 트랜드와 충격) * 지식은 어디에? 그저 모든 데이터? Technical * 거의 실시간(즉시) * 거대한 데이터 볼륨 * 데이터 고립화 * 데이터 마트 난립 * 운영적인 질문과 전략적인 질문의 융합(convergence) * ODS, DW, DM에 데이터의 중복 * Dimesion에 대한 지나칠 정도의 열광 * ODS vs EDW * Fact Table Granularity * JUNK Tables, Helper Tables ==== DW 데이터 모델링 기법들의 변화와 역사 ==== attachment:DataVault기본/data_valut_02.png * 3NF(3정규화)는 원래 운영계 시스템에 적용되었던 모델. 80년대 DW에 적용됨. 별다른 데이터 모델 방법이 없었음. 지금도 적용됨. * Star Schema는 원래 주제지향 문제들을 해결하기 위한 아키텍처. 80년대 중반에 태동하여 지금까지도 계속 적용되고 있음. * Data Vault는 3NF와 Star Schema의 하이브리드 솔루션으로 만들어진 것이다. 아직 많이 적용되지 않고 있다. ==== Data Vault의 정의 ==== 정의 The Data Vault is a detail oriented, historical tracking and uniquely linked set of normalized tables that support one or more functional areas of business. It is a hybrid approach encompassing the best of breed between 3rd normal form (3NF) and star schema. The design is flexible, scalable, consistent and adaptable to the needs of the enterprise. It is a data model that is architected specifically to meet the needs of today’s enterprise data warehouses. --> 요약하자면, 3정규화와 스타스키마의 장점을 쪽 뽑아서 만든 최신의 DW 모델링 기법이란 야그겠죠? * Extensive possibilities for data attribution. --> 데이터의 속성에 대한 확장이 가능 * Power of historical relationships. --> 관계 이력의 파워 * All data relationships are key driven. -> 모든 데이터의 관계가 key driven * Relationships can be dropped and created on-the-fly. --> 관계를 삭제할 수 있고, 생성할 수 있다. 운영 중에? 즉시? 필요한때에 즉시? * Can be used as a Data Mining source. --> 데이터 마이닝 소스로 활용할 수 이다. * Very easy to extend the model. --> 모델의 확장이 매우 쉽다. ==== Preview ==== attachment:DataVault기본/data_valut_01.png?width=50% Data Vault는 아래 그림의 CIF의 EDW와 잘 맞는다. attachment:DataVault기본/data_valut_03.gif ==== 기술적인 정당성 ==== * 수 테라바이트 지원 * "Dead Data"를 DW에서 떼어내기 쉬움 * Delta Driven Information --> 뭔소리지?? 소스에서 DW로 데이터가 들어와서 넓게 퍼짐? 흠.. * 감사추적의 발생? * 표준 구현 아키텍처 * 재시작, 일관적인 로딩 패턴 * 데이터 마트의 빠른 빌드 ==== Business Process Chain Issues ==== attachment:DataVault기본/data_vault_04.png * 각각의 business process에서 어떤 mart에서 질문의 답을 얻을 수 있는가? * 나의 business의 corperate view를 어떻게 얻을 수 있는가? attachment:DataVault기본/data_vault_05.png * data vault는 점진적으로 구축된다. data vault architecture는 top-down, 구현은 bottom-up이다. * data vault는 business process 주기 동안에 링크된 여러 뷰와 대규모의 역할을 하여 cycle time을 줄이고 경쟁적 이득이 있다. * 마트들은 지금 일관된 답을 줄 수 있다. * 메타데이터와 비즈니스 룰은 다른 레벨에서 구현된다 ==== 3정규화 vs star schema vs data vault ==== attachment:DataVault기본/data_vault_06.png 모두.. 일단일장이 있음..아.. 영어는 어려움..