자연어처리와 오피니언마이닝
1. 오피니언마이닝(OpinionMining)
텍스트 마이닝의 한 분류로서 평판 분석으로도 불리며, 소셜미디어 등의 정형/비정형 텍스트의 긍정,부정,중립의 선호도를 판별하는 기술이다. 오피니언 마이닝은 특정 서비스 및 상품에 대한 시장규모 예측, 소비자의 반응, 입소문 분석등에 활용되고 있다. 정확한 오피니언 마이닝을 위해서는 전문가에 의한 선호도를 나타내는 표현/단어자원의적이 필요하다.
오피니언 마이닝 기술은 상품구매 및 정보획득에 있어서 평판의 중요성이 더욱 증대되고, 트위터, 페이스북과 같은 소셜기반 서비스와 블로깅 등을 통해 사용자가 자신의 경험을 바탕으로 작성한 이용후기나 평가내용을 공유하는 리뷰 관련 시장이 활성화되며서 그 가치가 더욱 높아지고 있다.
2. 자연어 처리 기술(Natural Language Processing)
자연어 처리 기술이란 인간의 언어를 이해하고 생성하는 문제를 다루는 기술이다. 인간이 발화한 언어 현상을 기계적으로 분석해서 컴퓨터가 이해할 수 있는 형태로 만들거나 혹은 컴퓨터가 처리한 결과를 이해할 수 있는 언어로 표현하는 제반 기술을 자연어 처리기술이라고 한다.
자연어 처리의 핵심 기술은 형태소분석, 구문분석, 화행분석, 대화처리라고 할수 있다.
2-1) 형태소분석
형태소 분석 기술은 문장을 구성하는 단어 열들로부터 최소 의미단위인 형태소들을 분리해 내고 각 형태소들의 문법적 기능에 따라 적절한 품사를 부착해 주고, 필요하다면 단어의 원형도 복원하는 기술이다.
ex) 내가 산 우유를 먹었다.
본 보(다) / 동사+ㄴ / 어미; 형태소분석 후보(1) - 최적의 형태소 분석 및 품사부착 결과
살(다) / 동사+ㄴ/어미; 형태소분석 후보(2)
산 / 명사; 형태소 분석 후보(3)
2-2) 구문분석
구문분석은 형태소분석 결과를 기반으로 문장을 이루고 있는 명사구, 동사구, 부사구 등의 구문들을 묶어주는 것 뿐만 아니라, 주어, 술어, 목적어 등과 같은 주요한 문장 구성성분을 밝혀내고 그들 사이의 구문관계를 분석하여 문장의 문법적 구조를 결정하는 기술이다.
ex) 내가 산 우유를 먹었다.
(((내가/주어 산/술어) 우유를)/목적어 먹었다/술어) – 가장 적합한 구문구조
((내가/주어 (산 우유를)/목적어) (먹었다)/술어)
((내가/주어 산) (우유를/목적어 (먹었다)/술어))
2-3) 화행분석
단편적으로는 문장을 구성하는 단어들의 의미를 구분하고, 통합적으로는 문장 구성 성분들 사이의 의미적 관계를 논리적으로 밝혀내어 문장의 전체적 의미를 파악하는 기술이다.
ex ) 산 우유
- 산: buy, live/alive, mountain
- 우유: milk
2-4) 대화처리
문서단위로 이루어지는 것이 보편적이며, 여러 문장 간의 연관관계 및 전후 문맥을 고려하여 문장간의 의미관계를 분석하는 기술이다. 이는 전후 문맥을 참조하여 해당 문장에 쓰인 대용어들(이것, 저것)이 구체적으로 가리키는 것을 찾아내는 것 뿐만 아니라 해당 문서 내에서 문장의 의도를 파악하는 기술을 포함한다.
3. 예제
단편소설인 소나기를 통해 소설에서의 단어들을 출현빈도수에 따라 높은순서로 R은 30개를 Python은 100개를 뽑는 예제이다.
3-1) Korea NLP Packages in R: KNLP
3-2) Koean NLP in Python : KoNLPy
※ 출처
http://readme.skplanet.com/?p=3749 SK플래닛 기술 블로그
'프로그래밍 > 빅데이터' 카테고리의 다른 글
[추천알고리즘] 협업필터링,Collaborative Filtering(CF) (315) | 2015.09.20 |
---|---|
[잡담] 데이터 사이언티스트(data scientist) (312) | 2015.09.20 |
[데이터분석] 탐색적 데이터 분석 vs 확증적 데이터 분석 (615) | 2015.09.20 |
Cloud & 빅데이터 (4) | 2015.06.21 |