카카오 챗봇은 인간의 언어르 어떻게 이해할까요?
우선 컴퓨터가 인간의 언어를 이해하게 된 역사부터 알아보겠습니다.
1. 컴파일러(Compiler) : 최초로 인간의 언어를 컴퓨터가 이해할 수 있게 바꾼 것.
- 원리 : 인간의 언어를 컴퓨터가 이해하는 언어로 바꾸어 준다.
- 단점 : 규칙 기반(rule-based)이므로, 정해진 것만 이해함. 인간이 표현하는 무궁무진한 자연어를 이해하지 못함.
-> 컴퓨터가 처음 보는 언어도 유사한 문장을 이해할 수 있게 하면 어떨까?
2. 이진법 : 0 또는 1로 세상의 모든 정보를 표현함
- 클로드 섀넌(1916~2001)은 이진법을 제안하였고, 정보의 개념을 수학적으로 표현할 수 있게 되었다.
3. 워드투벡(Word2Vec) : 단어를 벡터로 표현하고 벡터 간 유사도를 이용해 인간의 무한한 자연어를 이해할 수 있게 만듦.
- 2013년 구글이 처음 제안.
- 얇은 신경망 구조로, 문장에서 자동으로 특징을 추출해내서 단어를 벡터로 표현한다.
- 단어의 벡터 표현 예시 :
카카오 챗봇은 고객의 언어를 벡터로 바꾸어서 비슷한 문장을 찾아 이에 해당하는 답변을 합니다.