주요 개념, 동향 및 숨겨진 관계를 포착하기 위해 방대한 텍스트 자료 컬렉션을 분석하는 관행인 텍스트 마이닝

방대한 양의 텍스트 자료를 분석하여 핵심개념과 트렌드, 비즈니스 맥락을 찾아내는 텍스트 마이닝에 대해 알아보겠습니다.

텍스트 마이닝이란?( What is text mining?)

텍스트 마이닝은 텍스트 데이터 마이닝이라고도 합니다. 글자의 나열에서 의미 있는 패턴을 찾아내거나 통찰력을 찾아내는 방법으로, 비구조화된 텍스트에서 구조화된 데이터로 변환하는 프로세스를 말합니다. Naïve Bayes, Support Vector Machines (SVM)와 같은 다양한 딥러닝 알고리즘을 활용하는 고급분석기술로, 비정형 데이터에서 숨겨진 맥락을 파악할 수 있데 도와줍니다.

사실, 텍스트는 데이터베이스 내에서 가장 일반적인 유형 중 하나입니다. 데이터 베이스의 종류에 따라 데이터는 다음과 같이 구성됩니다.

  • 구조화된 데이터(Structure data): 데이터가 흔히 스프레드 시트에서 볼 수 있는 표 형식으로 표준화되어 있어서 머신러닝과 같은 학습알고리즘을 적용하기가 더 수월합니다. 일반적으로 이름, 주소, 전화번호 등이 해당됩니다.
  • 비구조화된 데이터(Unstructured data): 사전에 정의된 형식이 없는 데이터로 다양한 SNS채널이나 비디오, 오디오 같은 형식이 포함됩니다. 유통 채널이나 종류가 다양한 것이 특징입니다.
  • 반구조화된 데이터(Semi-Structure data): 반(semi-)이라는 용어에서 알 수 있듯이, 구조화된 데이터와 비구조화된 데이터의 혼합 양식을 말합니다. XML, json, HTML 파일과 같이 일부 형식의 구조화가 있찌만, 관계형 데이터베이스의 요구사항을 충족할 수 있는 수준은 아닌 것이 특징입니다.

전 세계 데이터의 80%가 비구조화 데이터로 구성되고 있어서, 텍스트 마이닝은 조직 내에서 그 중요성이 점차 증가하고 있습니다. 정보추출 툴과 같은 자연어 처리(NLP) 기술 등을 활용하여 비구조화된 데이터를 구조화된 데이터로 변형하고 분석에 활용하거나 매우 유용한 인사이트를 얻기도 합니다. 이런 기술의 적용은 결국 조직의 의사결정에 대한 향상을 가져오고, 비즈니스의 성과로 이어지게 됩니다.

텍스트 마이닝 vs 텍스트 분석 (Text mining vs. text analytics)

텍스트 마이닝이나 텍스트 분석이라는 것은 비슷한 용어로 보이지만, 실제로는 차이가 있습니다. 이 두가지 개념은 모두 머신러닝이나 통계학, 언어학을 활용하여 비정형 데이터 내의 텍스트 분석을 통해 구조화된 데이터 형식으로 변환하여 데이터 내의 패턴과 추세를 찾아냅니다. 데이터를 찾아내서 정리하고, 분석하는 것으로 데이터 내의 맥락을 찾아내고, 통찰력을 제공하는 데에 의의가 있습니다. 그리고 데이터 시각화 기술을 활용하여 이해도를 높이곤 합니다.

<텍스트 마이닝 – 기술과 응용프로그램>에서 좀더 자세한 텍스트 마이닝의 기술과 관련 응용프로그램을 설명하겠습니다.

발췌원문