본문 바로가기

NLP & Python

What is NLP?

 Web 개발만 하던 나에게 NLP 에 대해 공부할 기회가 주어진 것 같아 전에 공부했던 것과 엮어서 하나씩 정리하여 블로깅할 계획이다.










1. NLP 정의



 막상 NLP 에 대해 공부를 하려니 막연하기 짝이 없었다.  


검색, 세미나등을 통해 나에게 가장 잘 맞았던 부분을 추스려보았다.


NLP 
  자연어 처리. 컴퓨터를 통해 인간의 언어를 처리하고 이용하려는 분야.

Understanding (NLU)
  자연어 이해. 컴퓨터가 이해할 수 있는 형태로 변환시키는 것.


- Generation (NLG)
  자연어 생성. 인간이 이해할 수 있도록 자연어를 만들어 냄.






  검색하면서 가장 와닿았던 것은 위의 그림 한장이었다. 





2. NLP 응용 분야


스펠링 문법 체크(Spelling & Grammar Corrections)

  - 오, 탈자 및 문법을 검사


∙ 정보 추출 (Information Extraction)

  - 정보 추출은 비정규화된 대량의 문서로부터 의미의미 있는 정보만을 골라 구조화된 형태로 사용자에게 제시하는 시스템

  - 정보추출 기술은 웹문서의 구조정보를 이용하는 분야와 일반적인 텍스트 문서를 대상으로 문서의 언어패턴정보를 이용하는 분야로 구분.


∙ 정보 검색 (Information Retrieval)

  - 검색 포탈 등에서 흔히 사용하는 검색. 정보검색을 위해서는 검색 대상이 되는 문서를 색인하고, 검색질의를 분석하는 작업이 필요한데, 이러한 색인/질의분석 과정에 자연어처리의 기반기술들이 이용 및 응용.


∙ 음성 인식 (Speech Recognition)

 - 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리


∙ 문장 분류 (Text Categorization)

 - 문서 분류 혹은 범주화란 주어진 문서에 대하여 정해진 하나 혹은 복수의 부류(class, label) 을 부여하는 절차를 말함.


∙ 문장 요약 (Summarization)

 - 문서를 일정 크기 이내로 요약하여 사용자에게 제공함으로써 대량의 문서의 중요 부분만을 빠르게 열람.


∙ 기계번역 (Machine Translation)

 - 인간이 사용하는 자연 언어를 컴퓨터를 사용하여 다른 언어로 번역하는 일을 말한다. '자동 번역'이라고도 한다.


∙ 질의응답 시스템 (Question Answering)

 의미 분석까지의 자연어 처리 기술을 적용한 정보 검색. 정보검색이 사용자의 질의에 대해 분석된 키워드와 유사한 문서들을 나열해주는 방식이라면, QA는 사용자의 질의에 대한 답변이 될 수 있는 정답을 문서 내에서사용자에게 제시해주는 시스템.
 - QA는 질의에 대해 한 단어 또는 구, 문장 등의 형태로 질의의 정답만을 보여준다.
    ex) 토마토는 무슨 색인가? 빨간색.  => close domain
         나는 왜 연애를 못하는가? .....    => open domain


대화 시스템 (Dialog Systems)

- 사람과 대화하기 위한 컴퓨터 시스템




3. Deep Learning Applied NLP

 1) NER (Named Entity Recognition) 

   - 개체명 인식

 2) Image Caption Generator

   - 이미지 캡션(자막, 설명) 생성 

 3) Dialogue System Model

   - 대화형 체계 모델

 4) Sentiment Analysis

   - 감성 분석




 세미나 및 검색을 통해 1차적으로 인한 정리는 여기서 마칠까 한다.


원체 방대한 분야라 올릴 것이 산더미 같지 않을까...?



주요 출처 : 위키피디아, 자연언어처리튜토리얼(2018)









'NLP & Python' 카테고리의 다른 글

[Python] 파일 읽기  (0) 2018.11.08