비즈니스 인텔리전스의 핵심 구성 요소인 data warehouse는 다양한 소스의 데이터를 정교한 분석 및 의사 결정 지원을 위해 단일 Data Repository로 통합

데이터 웨어하우스의 스키마 (Shemas)

데이터 웨어하우스 내의 데이터를 구성하는 방법으로 알려진 스키마는, 스타 스키마와 스노우볼 스키마의 두가지 유형이 주로 사용됩니다.

  • 스타 스키마(Star schema): 스타 스키마는 비정규화된 차원의 테이블에 결합할 수 있는 하나의 팩트 테이블로 구성됩니다. 가장 단순하고 일반적인 유형의 스키마로 알려져 있으며, 쿼리에 대해 속도에서의 이점이 있습니다.
  • 스노우볼 스키마(Snowflake schema): 스노우볼 스키마는 일반적으로 사용되지는 않지만 데이터 웨어하우스에서 사용되는 스키마입니다. 팩트 테이블을 여러 개의 정규화된 차원 테이블에 연결하며, 각 차원 테이블은 다수의 하위 테이블을 가질 수 있습니다. 스노우볼 스키마는 데이터 중복을 줄일 수 있지만, 쿼리 성능에 상대적인 약점이 존재합니다.

데이터 웨어하우스 vs. 데이터베이스, 데이터 레이크, 데이터 마트(Data warehouse vs. database, data lake, and data mart)

데이터 웨어하우스, 데이터베이스, 데이터 레이크, 데이터 마트는 모두 같은 의미로 사용되는 용어입니다만, 일부 차이점이 있습니다. 이에 대해 알아보겠습니다.

데이터 웨어하우스 vs 데이터 레이크(Data warehouse vs. data lake)

데이터 웨어하우스는 데이터 분석을 위해 사전에 정의된 스키마를 사용하여 구조화된 다양한 소스의 로데이터를 중앙저장소로 수집하는 형태입니다. 이에 비해 데이터 레이크는 미리 정의된 스키마가 없는 상태로 유지가 됩니다. 따라서 데이터 레이크는 데이터 웨어하우스보다 더 많은 유형의 분석이 가능하며, 아파치 하둡과 같은 빅데이터 플랫폼에서 주로 사용됩니다.

데이터 웨어하우스 vs 데이터 마트(Data warehouse vs. data mart)

데이터 마트는 특정 비즈니스 라인 또는 특정 부서에 대한 데이터를 포함하는 데이터 웨어하우스의 하위 집합입니다. 데이터의 하위 집합이 더 작기 때문에 데이터 마트를 사용하는 것은 부서나 비즈니스 단위의 레벨에 비해 더 빠르고 집중된 인사이트를 얻어낼 수 잇다는 장점이 있습니다.

데이터 웨어하우스 vs 데이터베이스(Data warehouse vs. database)

데이터베이스는 주로 분석이 아닌 빠른 쿼리와 트랜젝션 처리를 위해 구축됩니다. 따라서 데이터베이스는 특정 어플리케이션에 대한 데이터 저장소 역할을 수행하는 반면, 데이터 웨어하우스는 조직에서 사용되는 모든 어플리케이션에 활용될 정보를 중앙 집중 방식으로 저장합니다.

또한 데이터베이스는 실시간 데이트 업데이트에 중점을 주는 데에 비해, 데이터 웨어하우스는 넓은 범위를 포괄하므로 예측 검증, 머신 러닝 등과 같은 고급 유형의 분석을 위한 데이터를 보관합니다.


<발췌문헌>