주요 개념, 동향 및 숨겨진 관계를 포착하기 위해 방대한 텍스트 자료 컬렉션을 분석하는 관행인 텍스트 마이닝

텍스트 마이닝 기술 (Text mining techniques)

텍스트 마이닝의 프로세스는 비구조화된 텍스트 데이터에서 정보를 추론할 수 있는 몇 가지 활동으로 구성됩니다. 이 프로세스를 적용하기 위해서 가장 먼저 할 일은 텍스트 데이터를 정리하고 사용가능한 형식으로 변환하는 전처리 작업입니다. 전처리 작업은 자연어 처리의 핵심으로 볼 수 있으며 일반적으로 언어 식별, 토큰화, 품사 태깅, 청킹, 구문 분석 등을 사용하여 데이터 분석을 위한 형식을 지정합니다. 전처리가 완료되면 텍스트 마이닝 알고리즘을 적용하여 데이터에서 분석을 수행할 수 있게 됩니다. 이와 관련된 기술은 다음과 같습니다.

  • 정보 검색(Information retrieval)

정보검색은 미리 정의된 쿼리나 구문 세트를 기반으로 관련정보와 문서를 확인합니다. 그리고 알고리즘을 사용하여 사용자의 행동을 추적하고 관련된 데이터를 식별합니다. 정보검색은 일반적으로 검색 엔진에서 사용되는데, 구글이나 도서관 정보검색 등에서 주로 사용됩니다.

  • 토큰화(Tokenization): 텍스트의 길이가 너무 긴 경우 문장과 단어를 구분하는 방식을 토큰화라고 합니다. 이는 문서 내의 맥락을 찾아내기 위해 텍스트를 클러스터링 하고, 유사성을 찾는 bag-of-words와 같은 모델에서 사용됩니다.
  • 어간(Stemming): 하나의 단어에서 접두사와 접미사를 분리하여 어근의 형태와 의미를 도출하는 과정을 말합니다. 인덱신 파일의 크기를 줄여 정보 검색을 향상시킵니다.
  • 자연어 처리(Natural language processing)

아마도, 텍스트 마이닝에서 가장 널리 알려진 개념이 바로 자연어처리 일 것입니다. 일반적인 컴퓨터 언어는 0과 1로 구성되어 있으나, 인간의 언어는 이와 다릅니다. 따라서 컴퓨터 과학, 인공지능, 언어학, 데이터 사이언스 등의 다양한 분야의 지식을 사용하여 컴퓨터가 서면이나 구두형석으로 작성된 인간의 언어를 이해할 수 있도록 제공합니다. 컴퓨터가 읽을 수 있도록 하기 위해 문장구조와 문법 분석을 통해 자연어 처리를 시작하며 이에 대한 세부 작업은 다음과 같습니다.

  • 요약(Summarization): 문서의 요점을 간결하고 일관되게 만들기 위해 텍스트의 맥락을 압축합니다.
  • 품사 태깅(Part-of-Speech (PoS) tagging): 품사를 기반으로 모든 문서의 토큰에 태그를 할당합니다. 명사, 동사, 형용사 등으로 나타내며, 이 단계에서 구조화되지 않은 텍스트의 의미 분석이 가능합니다.
  • 텍스트 분류(Text categorization): 텍스트 문서를 분석하고 미리 정의된 주제와 범주를 기반으로 분류합니다. 동의어와 약어를 분류할 때에 유용하게 사용됩니다.
  • 감정 분석(Sentiment analysis) : 내외부의 데이터 소스에서 긍정적/부정적 감정을 감지하고 시간 경과에 따른 고객 태도의 변화를 추적하는 데에 쓰입니다. 일반적으로 브랜드 인지도, 제품 및 서비스의 인식 변화에 대한 정보 추적에 사용됩니다. 기업이 고객의 사용자 경험을 개선하게 하거나, 고객과의 마케팅 활동에 사용될 수 있습니다.
  • 정보 추출(Information Extraction)

정보 추출은 다양한 문서를 검색할 때에, 관련 데이터를 표시합니다. 또한 일반적인 텍스트에서 구조화된 정보를 추출하고 단위별 엔티티, 속성, 관계 정보 등을 데이터 베이스에 저장하는 데에 중점을 둡니다. 이를 위한 하위 작업은 다음과 같습니다.

  • 기능 선택(Feature selection): 기능 선택이나 속성 선택은 분석 모델에 사용하기 위해 중요한 기능(혹은 차원)을 선택하는 프로세스입니다.
  • 특징 추출(Feature extraction): 분류작업의 정확성을 향상시키기 위해 특징의 하위 집합을 선택하는 프로세스입니다. 특히 차원 감소에 중요하게 사용됩니다.
  • NER(Named-entity recognition) : 명명된 엔티티 인식(NER)은 엔티티 식별 혹은 엔티티 추출이라고도 하며, 이름이나 위치와 같은 텍스트에서 특정 엔티티를 찾아 분류하는 것을 목표로 합니다. 예를 들어 “Califonia”는 위치로, “Mary”는 여성의 이름으로 식별합니다.
  • 데이터 수집(Data mining)

데이터 마이닝은 빅데이터 세트에서 패턴을 식별하고 유용한 의미를 찾아내는 프로세스입니다. 이 방식은 데이터의 구조화 여부와 상관없이 데이터의 평가를 통해 정보의 식별과 소비자 행동 패턴의 분석에 사용되며, 마케팅이나 판매 등의 행위에서 주로 활용됩니다. 텍스트 마이닝은 비구조화 데이터를 구조화하여 분석하는 것이므로 데이터 마이닝의 일부라고 볼 수 있습니다. 따라서 위에서 언급한 기술은 데이터 마이닝의 기술의 한 형태로 텍스트 마이닝에서 사용된다고 볼 수 있습니다.

텍스트 마이닝 어플리케이션(Text mining applications)

텍스트 분석 소프트웨어는 다양한 산업에 적용되고 있으며, 사용자 경험을 개선하거나 더 나은 비즈니스 의사결정에 도움을 주고 있습니다. 이와 관련된 사례는 아래와 같습니다.

  • 고객 서비스(Customer Service): 고객 피드백은 다양한 채널과 방식으로 사용자의 경험을 수집합니다. 텍스트 분석 도구, 챗봇, 고객 설문조사, NPS,(net-promoter scores), 온라인 리뷰, 지원 티켓 및 SNS프로필 등에 연결하여 고객 경험을 개선하는 데에 사용할 수 있습니다. 텍스트 마이닝과 감정분석은 고객의 주요 불만사항에 우선 순위를 부여하는 메커니즘을 제공하여 기업의 문제해결 능력 향상에 기여할 수 있고, 고객 만족도 개선으로 이어갈 수 있습니다. 이에 대한 실제 사례로 Verizon의 고객서비스가 텍스트 분석을 활용하는 방안을 살펴보세요.
  • 위험 관리(Risk Manangement): 텍스트 마이닝에는 감정 변화를 모니터링하고 분석보고서 및 백서에서 정보를 추출하여 산업 동향 및 금융 시장에 대한 통찰력을 제공할 수 있는 위험 관리 어플리케이션도 있습니다. 이 데이터는 다양한 부문의 비즈니스 투자를 고려할 때에 많은 신뢰를 제공하기 떄문에 은행과 같은 금융기관에서 특히 유용합니다. CIBC와 EquBOt이 위험 관리를 위해 텍스트 분석을 사용하는 사례를 살펴보세요.
  • 유지 관리(Maintenace): 텍스트 마이닝은 제품 및 기계의 작동과 기능에 대한 가시성을 제공합니다. 시간이 지남에 따라 문제의 예방과 사휴 유지관리를 위한 절차 등에 대한 패턴을 학습하여 이에 대한 의사결정을 자동화합니다. 텍스트 분석은 유지보수 전문가가 문제와 실패의 근본원인을 찾아내는 데에 도움을 줄 수 있습니다. 대한항공이 유지보수에 텍스트 분석을 활용하는 사례를 살펴보세요.
  • 의료(Healthcare): 텍스트 마이닝 기술은 특히 클러스터링 정보가 중요한 생물/의료 분야의 연구자들에게 더 큰 가지를 제공하고 있습니다. 의료와 관련된 연구가 다양하게 진행됨에 따라 정보를 찾아내고 정리하는 데에도 많은 시간이 소요됩니다. 의학 저널에서 중요한 정보를 추출하고 사용성을 확보해주는 다양한 방법이 있습니다.
  • 스팸 필터링(Spam Spelling): 스팸메일은 악의적인 해커로부터 컴퓨터 시스템을 감염시키는 접점으로 활용됩니다. 텍스트 마이닝은 메일함에서 필터링하고 제외하는 방법을 제공하여 전반적인 사용자 경험의 개선과 사이버 공격 위험에서 벗어날 수 있도록 합니다.

텍스트 마이닝과 IBM Watson (Text mining and IBM Watson)

IBM Watson Discovery를 활용하면, 데이터를 기반으로 트렌드를 찾아내어 비즈니스에 적용할 수 있습니다. 텍스트 분석은 실시간으로 데이터를 조사하여 숨겨진 패턴이나 추세, 콘텐츠 간의 상관관계를 보여줍니다. 텍스트 분석을 사용하여 고객 및 사용자 행동에 대한 통찰력을 얻고, SNS나 e-커머스의 추세를 분석하여 문제의 근본적인 원인을 찾는 작업을 수행하세요. 알려지지 않은 맥락은 곧 비즈니스의 가치로 이어집니다. 지금 바로 IBM Watson Discovery를 시작하세요.

데이터 사이언티스트에게 강력한 데이터 마이닝 툴킷을 제공하면 더 나은 성과를 가져올 수 있습니다. IBM의 Watson Natural Language Understanding은 텍스트를 분석하여 구조와 의미를 찾아내는 데에 도움이 될 수 있습니다. 자연어 분석을 통해 개념, 엔티티, 키워드, 카테고리, 정서, 감정, 관게, 의미적 역할 등과 같은 메타데이터를 추출할 수 있습니다. 지금 바로 IBM Watson Natural Language Understanding을 시작하세요.

그리고 IBM Cloud Pak for Data 플랫폼에서 NLP와 같은 언어처리가 작동하는 방식에 대해 알아보세요. 여기를 클릭하면 무료 IBM Cloud 계정을 사용할 수 있습니다.

발췌원문