통계와 인공 지능을 결합하여 대규모 데이터 세트를 분석하여 유용한 정보를 검색하는 데이터 마이닝

데이터 마이닝은 다양한 알고리즘과 기술을 활용하여 대량의 데이터를 유용한 정보로 도출하는 기술입니다. 이번에는 여기에 쓰이는 일반적인 기술과 어플리케이션을 내용을 수록해 보겠습니다.

데이터 마이닝 기술

  • 연관 규칙(Association rules): 연관규칙은 데이터 세트 내의 변수간 관계를 찾기 위해 사용되는 규칙 기반 방법입니다. 흔히 시장 바구니 분석이라고 알려져있는데, 그냥 보기에는 연관성이 없어 보이는 서로 다른 제품간의 관계를 파악하는 데에 쓰이곤 합니다. 고객의 소비패턴을 이해하는 데에 도움을 주며, 교차판매 전략과 제품추천엔진 등의 개발에 사용됩니다.
  • 신경망(Neural networks): 주로 딥러닝 알고리즘에 사용되는 방식으로, 인간의 두뇌와 유사한 방식으로 노드 계층화를 진행하여 데이터를 처리합니다. 각 노드는 입력, 가중치, 편항성(혹은 임계값), 출력으로 구성되며, 출력 값이 임계 값을 초과하면 노드가 실행되거나 활성화하는 방식으로 데이터를 네트워크의 다음 계층으로 전달합니다. 또한 백터 감소량의 추정을 통한 기능손실의 조정이나 학습의 관리감독을 통해 기능간 매핑을 학습하기도 합니다. 최종 결과값이 0에 수렴할 때에 모델의 정확성을 확보할 수 있으며, 오답확률을 줄이게 됩니다.
  • 의사결정 트리(Decision tree): 데이터의 분류와 회귀분석 방식 등을 사용하는 형태로, 의사결정의 잠재적인 결과를 분류하거나 예측하는 데에 쓰입니다. 이름에서 알 수 있듯이 예상되는 결과를 도출하기 위한 논리적 흐름을 나무와 같은 형태의 시각화로 진행합니다.
  • KNN(K-nearest neighbor): KNN방식은 데이터 간의 거리와 연관성을 기반으로 데이터 포인트를 분류하는 비모수형 알고리즘입니다. 일반적인 결과는 유클리드 기하학이 사용도 이며, 데이터의 각 포인트 간의 거리를 계산한 다음, 가장 빈번한 카테고리와 평균을 기반으로 군집화를 시도합니다.

데이터 마이닝 어플리케이션

데이터 마이닝 기술은 비즈니스 지원조직과 데이터 분석팀에 광범위하게 채택되어 조직과 산업에 대한 지식을 추출하는 데에 도움을 줍니다. 이에 대한 사용 사례는 다음과 같습니다.

  • 판매와 마케팅에 활용(Sales & Marketing): 일반적으로 기업은 고객과 잠재 고객에 대한 방대한 양의 데이터를 수집합니다. 소비자에 대한 통계학적 분석은 물론 온라인 사용자 행동 패턴에 대한 관찰로 얻어진 데이터는 마케팅 캠페인의 최적화와 세분화, 다양한 판매전략의 제안과 고객 충성도 제고 프로그램의 개선 등의 마케팅 전략으로 치환됩니다. 이는 곧 마케팅 ROI의 효율화를 가져올 수 있으며, 예측에 따른 다양한 이해관계자의 기대치를 설정하는 데에 도움을 줍니다. 또한 마케팅 캠페인에 대한 투자의 증감에 대한 수익 추정치를 제공하여 미래에 대한 가시성을 확보해줍니다.
  • 교육에 활용(Education): 교육기관은 학생에게 효과적인 도움을 주기 위해 데이터를 수집하고 있습니다. 학생의 수는 물론, 교육 성과를 높이기 위한 방법으로 사용 중이었으며, 교육 환경이 온라인으로 점차 확대됨에 따라 다양한 차원과 통계기법을 활용하여 수업에 대한 학생들의 다양한 반응과 수용정도에 필요한 데이터 수집과 실제 수업의 성과 등에 대한 관찰과 평가를 진행할 수 있습니다.
  • 운영 최적화에 활용(Operation optimization): 데이터 마이닝 기술을 활용하여 조직 운영 전반에 걸친 비용 최적화와 운영 효율화를 시도하는 프로세스 마이닝이라는 개념이 있습니다. 조직 내 병목현상을 식별하고 비즈니스 리더 간의 의사결정을 개선하는 데에 도움을 줄 수 있습니다.
  • 사기 감지에 활용(Fraud Detection): 데이터 분석에서 자주 발생하는 것은 패턴의 감지입니다. 이는 관찰 자체로도 의미가 있지만, 이상치가 발생함에 따라 사기의 위험을 조기에 발생하는 데에도 도움을 줍니다. 특히 은행이나 금융기관에서 잘 알려진 사례이지만 최근 급증하고 있는 SaaS 기반의 회사에서 가짜 사용자 계정을 제거하기 위해 이런 방식을 채택하고 있는 추세입니다.

데이터 마이닝과 IBM

IBM과 최신 데이터 마이닝을 시작하는 것을 추천합니다. IBM Watson Discovery는 실시간 데이터 조사를 기반으로 숨겨진 패턴과 트렌드는 물론, 다양한 콘텐츠 간의 관계를 보여줍니다. 데이터 마이닝 기술을 활용하여 고객과 사용자 행동에 대한 통찰력을 확보하고, SNS나 이커머스의 추세 분석을 통해 비즈니스에서 발생하는 문제의 근본적인 원인을 발견할 수 있습니다. 데이터에 숨겨진 통찰은 개발되지 않은 비즈니스의 가치와 연결됩니다. 지금 IBM Watson Discovery를 시작하세요.

IBM Cloud 에서 무료 Watson Discovery 계정을 등록하면 어플리캐이션, AI, 분석을 이용가능하며 40여개의 Lite Plan 서비스도 사용할 수 있습니다. IBM의 데이터 웨어하우스 솔루션에 대해 자세히 알아보려면 IBM ID 를 등록하고 IBM Cloud계정을 무료로 만드세요.

(원문)