비즈니스 인텔리전스의 핵심 구성 요소인 data warehouse는 다양한 소스의 데이터를 정교한 분석 및 의사 결정 지원을 위해 단일 Data Repository로 통합

데이터 웨어하우스는 비즈니스 인텔리전스의 핵심 구성 요소로 정교한 분석과 의사결정 지원을 위해 다양한 소스의 데이터를 단일 데이터 저장소에서 운영하게 합니다.

데이터 웨어하우스는 무엇을까?

데이터 웨어하우스 혹은 엔터프라이즈 데이터웨어하우스(EDW)는 데이터 분석, 데이터 마이닝, 인공지능 및 머신러닝을 지원하기 위해 서로 다른 소스의 데이터를 하나의 데이터 저장소로 집계하는 시스템입니다. 데이터 웨어하우스는 일반적인 데이터베이스가 할 수 없는 방대한 양의 데이터(페타 바이트 수준)에 대한 파워풀한 분석을 수행할 수 있게 해줍니다.

지난 30년간 비즈니스 인텔리전스의 일부였던 데이터 웨어하우징 시스템은 최근 새로운 데이터의 유형과 데이터 호스팅 방법의 출현으로 독자적인 시스템으로 자리잡고 있습니다. 전통적인 데이터 웨어하우스는 온프레미스(일부는 메인프레임)에서 호스팅되었으며, 데이터를 추출하고 정리 및 준비하며 관계형 데이터 베이스에서 데이터를 읽어들여 유지하는 데에 중점을 두었습니다. 최근에는 데이터 웨어하우스를 위한 전용 어플라이언스와 클라우드에 호스팅하고 있으며, 대부분의 데이터 웨어하우스에는 분석 기능과 데이터 시각화, 프리젠테이션 도구가 추가되었습니다.

IBM의 데이터 웨어하우스 솔루션에 대해 자세히 알아보세요.

데이터 웨어하우스 아키텍처

일반적으로 데이터 웨어하우스는 다음과 같이 3가지 계층의 아키텍처로 구성됩니다.

  • 하위 계층(Bottom tier): 하위계층은 일반적으로 관계형 데이터베이스 시스템과 같은 데이터 웨어하우스 서버로 구성되며, 다양한 데이터 소스에서 추출, 변환, 로드(ETL)혹은 추출, 로드, 변환(ELT)로 알려진 멀티 데이터 소스에서 진행되는 데이터의 수집, 클렌즈, 변환 등의 프로세스를 수행합니다.
  • 중위 계층(Middle tier): 중위 계층은 OLAP(Online analytical Processing) 서버로 구성되며, 쿼리 스피드를 빠르게 이용할 수 있도록 지원합니다. ROLAP, MOLAP, HOLAP로 알려진 세가지 방식의 OLAP 모델을 모두 사용할 수 있으며, 데이터베이스의 종류에 따라 OLAP 모델을 사용하게 됩니다.
  • 상위 계층(Top tier): 상위계층은 일종의 프론트엔드 사용자 인터페이스로 표시할 수 있으며, 최종 사용자가 비즈니스 데이터에 대한 임시적인 분석을 수행할 수 있습니다.

데이터 웨어하우스 및 OLAP 및 OLTP에 대해 알아보겠습니다. (Understanding OLAP and OLTP in data warehouses)

OLAP(Online Analytical Processing)은 데이터 웨어하우스와 같이 통합되고 중앙집중적인 데이터 저장소에서 대량의 데이터를 고속으로 다차원 분석을 수행하기 위한 소프트웨어입니다. OLTP(Online transactional processing)은 인터넷을 통해 많은 사람들이 대량의 데이터베이스에 접근하여 업무를 수행할 수 있도록 지원합니다. 이처럼 OLAP과 OLTP의 차이는 이름에서 알 수 있듯이, 분석과 트랜젝션에 대한 관점의 차이를 말합니다.

OLAP 도구는 기록 데이터와 트랜젝션 데이터를 모두 포함하는 데이터 웨어하우스에서 데이터의 다차원 분석을 위해 설계되었습니다. 일반적인 OLAP의 용도는 데이터 마이닝과 기타 비즈니스 인텔리전스 어플리케이션, 복잡한 분석과 계산, 시나리오 예측은 물론, 재무 분석, 적정 예산의 산정과 계획수립 등과 같은 비즈니스 보고서 기능이 포함됩니다. OLTP는 최근 트랜젝션이 급증함에 따라 빠르고 정확하게 트랜젝션을 처리할 수 있도록 트랜젝션  지향 어플리케이션을 지원하도록 설계되었습니다. OLTP의 일반적은 용도는 ATM, 전자상거래용 소프트웨어, 신용 카드 결제 처리, 온라인 예약, 예약 시스템 및 기록 보관 도구로 사용됩니다.


<발췌문헌>