데이터 세트를 분석하고 요약하는 데 사용되는 방법인 탐색 데이터 분석

이전 블로그에서는 데이터 과학에서 EDA(Exploratory Data Analysis)이 무엇이고 중요한 이유를 설명하였는데 이번 블로그에서는 EDA(Exploratory Data Analysis) 유형과 활용 툴에 대해 알아보겠습니다.

EDA(Exploratory Data Analysis)의 유형

EDA(Exploratory Data Analysis)는 기본적으로 네 가지의 유형이 있습니다.

  • 일변량 비시각화(Univariate non-graphical): 분석되는 데이터가 하나의 변수로 구성되는 가장 간단한 데이터 분석 형식으로, 단일 변수이기 때문에 원인이나 결과를 다루지는 않습니다. 일변량 분석의 목적은 데이터를 설명하고 그 안에 존재하는 패턴을 찾는 것입니다.
  • 일변량 시각화(Univariate graphical): 데이터의 전체 모습을 파악하기 위해서는 그래픽이 필요합니다. 이를 위한 시각화 유형은 아래와 같습니다.
    • 모든 데이터의 값과 분포를 보여주는 Stem-and leaf 플롯
    • 각각의 막대가 개별 값의 범위에 대한 케이스의 빈도와 비율을 나타내는 히스토그램
    • 최소값, 1사분위수, 중앙값, 3사분위수, 최대값의 다섯 개 숫자로 요약하는 박스 플롯
  • 다변량 비시각화(Multivariate nongraphical): 다변량 데이터는 둘 이상의 변수를 기본으로 합니다. 일반적으로 교차표나 통계를 통해 둘 이상의 변수간 관계를 보여줍니다.
  • 다변량 시각화(Multivariate graphical): 다변량 데이터의 시각화를 위해 가장 많이 사용되는 방식은 각 그룹이 변수 중 하나의 수준을 나타내고, 그룹 내 각 막대가 다른 변수의 수준을 나태주는 그룹화 그래프 또는 막대 차트입니다.

이외에도 다변수 시각화에 사용되는 유형은 아래와 같습니다.

  • 한 변수가 다른 변수의 영향을 받는 정도를 수평 및 수직 축에 데이터 포인트를 사용하여 표시하는 산점도
  • 인과관계를 시각화 하는 다변량 차트
  • 시계열 데이터를 표시하는 선 차트 내에 포함시킨 런 차트
  • 2차원 플롯에 여러개의 버블을 표시하는 버블 차트
  • 데이터의 값을 색상으로 표시하는 히트 맵

EDA(Exploratory Data Analysis)의 활용 툴

EDA(Exploratory Data Analysis)를 만들기 위해 사용되는 데이터 사이언스 관련 툴은 다음과 같습니다.

  • 파이썬(Python): 데이터 사이언스에서 가장 널리 사용되는 툴로, 동적 의미 체계를 가진 객체 지향 프로그래밍 언어입니다. 다양한 방식으로 데이터 구조를 기존의 구성요소와 연결하는 스크립트 방식과 프로그래밍 언어로, 분석 도구로서의 높은 활용도는 물론, 애자일 방법론이 적용된 어플리케이션 개발에도 자주 사용됩니다. 파이썬을 EDA에 활용하는 경우 데이터 세트에서 누락된 값의 식별이 가능하며, 머신 러닝에서 누락된 값의 처리 방식에 도움을 줄 수 있습니다.
  • R: R Foundation for Statistical Computing에서 지원하는 통계 및 시각화도구에 사용되는 오픈소스 프로그래밍 언어로, 무료 소프트웨어 개발 환경을 제공합니다. R은 통계와 데이터 분석 모형 개발에서 널리 사용되며, 데이터 사이언티스트의 활용 빈도가 높아지는 추세입니다.

IBM과 EDA(Exploratory Data Analysis)

IBM의 탐색 절차는 모든 케이스 혹은 케이스 그룹에 대해 개별적으로 데이터의 다양한 시각적 수치 및 수치의 요약을 제공합니다. 종속 변수를 척도변수로 사용하여야 하며, 그룹화 변수는 순서형 이거나 명목형 일 수 있습니다.

IBM의 탐색 Procedure를 따르면 다음과 같은 기능을 활용할 수 있습니다.

  • 스크린 데이터(Screen data)
  • 이상값 식별(Identify outliers)
  • 가설 검증(Check assumptions)
  • 케이스 그룹간의 차이점을 특성화(Characterize differences among groups of cases)

IBM의 탐색 Procedure를 더 자세히 알아보기를 원하시면 여기를 클릭하세요. EDA에 대한 추가정보를 확보하길 원하신다면 IBM Cloud 무료 계정을 생성하고 알아보세요.


발췌문헌