데이터 세트를 분석하고 요약하는 데 사용되는 방법인 탐색 데이터 분석

데이터 세트를 분석하고 요약하는 데 사용되는 탐색적 데이터 분석에 대해 알아보겠습니다.

탐색적 데이터 분석이란 무엇일까요?

탐색적 데이터 분석(Exploratory Data Analysis)는 데이터 사이언티스트가 데이터세트를 분석하고 조사하여 주요 특성을 파악하는 데에 사용되며, 데이터 시각화 방법을 사용하기도 합니다. 데이터 사이언티스트는 문제 해결을 위해 데이터 소스를 파악하고 조작하여 패턴, 비정상적인 수치, 가설의 테스트, 결과의 확인 등에 EDA를 사용합니다.

EDA(Exploratory Data Analysis)는 주로 모델의 정규화와 가설 검증 작업을 포함하여 데이터의 종류의 확인과 데이터 간의 관계에 대한 더 나은 이해를 제공하는 데에 사용됩니다. 또한 데이터 분석을 위해 사용할 통계 기법이 적절한지 여부를 판단하는 데에 도움을 줍니다. 미국의 수학자인 John Tukey가 1970년대에 개발한 EDA 기술은 현재에 이르러서 데이터 검색 프로세스에 널리 사용되고 있습니다.

데이터 과학에서 EDA(Exploratory Data Analysis)가 중요한 이유가 무엇일까요?

EDA의 주요 목적은 데이터를 살펴보기 전에 정확한 가정이 이루어졌는지를 파악하는 것입니다. 명백한 오류를 제거하고, 데이터 내의 패턴을 더 잘 이해하고, 비정상적이거나 이상한 이벤트를 감지하여 변수 간의 맥락을 찾아내는 데에 중요한 역할을 수행합니다.

데이터 사이어티스트는 EDA(Exploratory Data Analysis)를 사용하여 생성한 결과가 적절하고, 유용한지를 판단하여 비즈니스에 적용할 수 있는 지를 확인합니다. 또한 EDA는 이해관계자가 데이터에 대한 올바른 질문을 제공하는 지를 판단하고, 표준편차, 범주형 변수, 신뢰구간 등에 대한 질문에 올바른 답변을 할 수 있도록 도와줍니다. EDA의 결과에 따라 발견된 인사이트는 머신러닝과 같은 정교한 데이터 분석과 모델링에 사용되곤 합니다.

EDA(Exploratory Data Analysis) 도구

EDA(Exploratory Data Analysis) 도구로 사용할 수 있는 통계기능과 기술은 다음과 같습니다.

  • 다양한 변수를 분석하는 데에 사용되는 고차원 데이터 디스플레이 그래픽 제작용 클러스터링 및 차원 축소 기술
  • 요약 통계와 로 데이터 세트의 각 필드에 대한 일변량 시각화
  • 데이터 세트의 각 변수와 관찰 변수 간의 관계를 평가하는 이변량 시각화 및 요약 통계
  • 데이터의 각각 필드 간의 상호 작용을 매핑하고 이해하기 위한 다변량 시각화
  • 카테고리로 데이터의 군집화를 시도하는 방법으로 시장세분화, 패턴 인식, 이미지 압축에 사용되는 방법 중 하나로, Unsuperviesd learning에서 데이터 포인트가 각 그룹의 중심으로부터 떨어져있는 거리를 측정하고, 이를 군집화 하는 K-means 클러스터링
  • 통계 분석에서 결과 예측을 위해 자주 사용되는 선형 회귀 분석

그럼, 다음 블로그에서 탐색적 데이터 분석의 유형과 활용 툴에 대해 알아보겠습니다.


발췌문헌