자연어처리와 오피니언마이닝

Posted by 알 수 없는 사용자
2015. 4. 12. 03:47 프로그래밍/빅데이터

 


1. 오피니언마이닝(OpinionMining)




 텍스트 마이닝의 한 분류로서 평판 분석으로도 불리며, 소셜미디어 등의 정형/비정형 텍스트의 긍정,부정,중립의 선호도를 판별하는 기술이다. 오피니언 마이닝은 특정 서비스 및 상품에 대한 시장규모 예측, 소비자의 반응, 입소문 분석등에 활용되고 있다. 정확한 오피니언 마이닝을 위해서는 전문가에 의한 선호도를 나타내는 표현/단어자원의적이 필요하다.

 오피니언 마이닝 기술은 상품구매 및 정보획득에 있어서 평판의 중요성이 더욱 증대되고, 트위터, 페이스북과 같은 소셜기반 서비스와 블로깅 등을 통해 사용자가 자신의 경험을 바탕으로 작성한 이용후기나 평가내용을 공유하는 리뷰 관련 시장이 활성화되며서 그 가치가 더욱 높아지고 있다.


2. 자연어 처리 기술(Natural Language Processing)

 연어 처리 기술이란 인간의 언어를 이해하고 생성하는 문제를 다루는 기술이다. 인간이 발화한 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만들거나 혹은 컴퓨터가 처리한 결과를 이해할 수 있는 언어로 표현하는 제반 기술을 자연어 처리기술이라고 한다.

자연어 처리의 핵심 기술은 형태소분석, 구문분석, 화행분석, 대화처리라고 할수 있다.


 2-1) 형태소분석

 형태소 분석 기술은 문장을 구성하는 단어 열들로부터 최소 의미단위인 형태소들을 분리해 내고 각 형태소들의 문법적 기능에 따라 적절한 품사를 부착해 주고, 필요하다면 단어의 원형도 복원하는 기술이다.

 ex)   내가 우유를 먹었다.

본   보(다) / 동사+ㄴ / 어미;  형태소분석 후보(1) - 최적의 형태소 분석 및 품사부착 결과

살(다) / 동사+ㄴ/어미; 형태소분석 후보(2)    

산 / 명사; 형태소 분석 후보(3)

2-2) 구문분석

 구문분석은 형태소분석 결과를 기반으로 문장을 이루고 있는 명사구, 동사구, 부사구 등의 구문들을 묶어주는 것 뿐만 아니라, 주어, 술어, 목적어 등과 같은 주요한 문장 구성성분을 밝혀내고 그들 사이의 구문관계를 분석하여 문장의 문법적 구조를 결정하는 기술이다.

  ex)   내가 산 우유를 먹었다.

(((내가/주어 산/술어) 우유를)/목적어 먹었다/술어)  –  가장 적합한 구문구조

((내가/주어 (산 우유를)/목적어) (먹었다)/술어)    

((내가/주어 산) (우유를/목적어 (먹었다)/술어))

2-3) 화행분석

 단편적으로는 문장을 구성하는 단어들의 의미를 구분하고, 통합적으로는 문장 구성 성분들 사이의 의미적 관계를 논리적으로 밝혀내어 문장의 전체적 의미를 파악하는 기술이다.

ex ) 산 우유

    • 산: buy, live/alive, mountain
    • 우유: milk

2-4) 대화처리

 문서단위로 이루어지는 것이 보편적이며, 여러 문장 간의 연관관계 및 전후 문맥을 고려하여 문장간의 의미관계를 분석하는 기술이다. 이는 전후 문맥을 참조하여 해당 문장에 쓰인 대용어들(이것, 저것)이 구체적으로 가리키는 것을 찾아내는 것 뿐만 아니라 해당 문서 내에서 문장의 의도를 파악하는 기술을 포함한다.



3. 예제

단편소설인 소나기를 통해 소설에서의 단어들을 출현빈도수에 따라 높은순서로 R은 30개를 Python은 100개를 뽑는 예제이다.



 3-1)  Korea NLP Packages in R: KNLP





 3-2) Koean NLP in Python : KoNLPy





※ 출처 

 http://readme.skplanet.com/?p=3749              SK플래닛 기술 블로그