Web 개발만 하던 나에게 NLP 에 대해 공부할 기회가 주어진 것 같아 전에 공부했던 것과 엮어서 하나씩 정리하여 블로깅할 계획이다.
1. NLP 정의
막상 NLP 에 대해 공부를 하려니 막연하기 짝이 없었다.
검색, 세미나등을 통해 나에게 가장 잘 맞았던 부분을 추스려보았다.
- Generation (NLG)
자연어 생성. 인간이 이해할 수 있도록
자연어를 만들어 냄.
검색하면서 가장 와닿았던 것은 위의 그림 한장이었다.
2. NLP 응용 분야
∙ 스펠링 문법 체크(Spelling & Grammar Corrections)
- 오, 탈자 및 문법을 검사
∙ 정보 추출 (Information Extraction)
- 정보 추출은 비정규화된 대량의 문서로부터 의미의미 있는 정보만을 골라 구조화된 형태로 사용자에게 제시하는 시스템.
- 정보추출 기술은 웹문서의 구조정보를 이용하는 분야와 일반적인 텍스트 문서를 대상으로 문서의 언어패턴정보를 이용하는 분야로 구분.
∙ 정보 검색 (Information Retrieval)
- 검색 포탈 등에서 흔히 사용하는 검색. 정보검색을 위해서는 검색 대상이 되는 문서를 색인하고, 검색질의를 분석하는 작업이 필요한데, 이러한 색인/질의분석 과정에 자연어처리의 기반기술들이 이용 및 응용.
∙ 음성 인식 (Speech Recognition)
- 사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 문자 데이터로 전환하는 처리
∙ 문장 분류 (Text Categorization)
- 문서 분류 혹은 범주화란 주어진 문서에 대하여 정해진 하나 혹은 복수의 부류(class, label) 을 부여하는 절차를 말함.
∙ 문장 요약 (Summarization)
- 문서를 일정 크기 이내로 요약하여 사용자에게 제공함으로써 대량의 문서의 중요 부분만을 빠르게 열람.
∙ 기계번역 (Machine Translation)
- 인간이 사용하는 자연 언어를 컴퓨터를 사용하여 다른 언어로 번역하는 일을 말한다. '자동 번역'이라고도 한다.
∙ 질의응답 시스템 (Question Answering)
- 의미 분석까지의 자연어 처리 기술을 적용한 정보 검색. 정보검색이
사용자의 질의에 대해 분석된 키워드와 유사한 문서들을 나열해주는 방식이라면, QA는 사용자의 질의에 대한 답변이 될 수 있는 정답을 문서 내에서사용자에게 제시해주는 시스템.
- QA는
질의에 대해 한 단어 또는 구, 문장
등의 형태로 질의의 정답만을 보여준다.
ex) 토마토는
무슨 색인가?
빨간색. => close domain
나는 왜
연애를 못하는가? ..... => open domain
∙ 대화 시스템 (Dialog Systems)
- 사람과 대화하기 위한 컴퓨터 시스템
3. Deep Learning Applied NLP
1) NER (Named Entity Recognition)
- 개체명 인식
2) Image Caption Generator
- 이미지 캡션(자막, 설명) 생성
3) Dialogue System Model
- 대화형 체계 모델
4) Sentiment Analysis
- 감성 분석
세미나 및 검색을 통해 1차적으로 인한 정리는 여기서 마칠까 한다.
원체 방대한 분야라 올릴 것이 산더미 같지 않을까...?
주요 출처 : 위키피디아, 자연언어처리튜토리얼(2018)
'NLP & Python' 카테고리의 다른 글
[Python] 파일 읽기 (0) | 2018.11.08 |
---|