컴퓨터에게 사람의 말을 알아듣게 하는 것은 매우 어려운 일입니다. 그중에서도 한국어 NLP는 다른 언어들(Ex. 영어, 중국어)보다 훨씬 어려운 편에 속합니다. 그 이유에 대해서 알아봅니다.
한국어는 교착어에 속합니다. 교착어란 어간에 접사가 붙어 단어를 이루고 의미와 문법적 기능이 정해지는 언어입니다.
예를 들어 나는 밥을 먹다. 라는 문장이 있습니다.
해당 문장에서 과거의 의미를 부여하고 싶을 때, 먹다라는 동사에 -었- 이라는 어미를 붙여 먹었다 라는 단어를 사용합니다.
즉 나는 밥을 먹었다. 라는 문장으로 과거 시제를 표현합니다.
이러한 특징은 하나의 어근에서 비슷한 의미의 수많은 단어가 매우 많이 생성 된다는 점이 있습니다.
아래 표는 좋아하다 라는 동사의 활용을 정리한 것입니다. 언뜻 보기에도 하나의 단어에서 수많은 단어가 파생된 것을 볼 수 있습니다. 이러한 점은 한국어 NLP에서 파싱, 전처리, 모델 학습 등을 어렵게 만듭니다.
사실 한국어에서 띄어쓰기는 근대에서 도입된 개념입니다. 따라서 서구권 언어에 비해 한국어는 띄어쓰기의 표준이 계속 바뀌고, 비교적 자유분방하다는 특징이 있습니다. 또한 띄어쓰기에 따라 문장의 뜻이 달라지기도 합니다. 대표적인 예시로 아버지가방에들어가신다를 들 수 있습니다.
따라서 단어와 단어 사이 반드시 띄어쓰기를 하는 서구권 언어와 달리 한국어는 추가적으로 띄어쓰기를 정제해주는 과정이 필요합니다.
한국어는 평서문과 의문문의 구분이 모호한 경우가 많이 있습니다.
예를 들어 밥 먹었어? 와 밥 먹었어. 의 경우가 있습니다.
문장 부호가 붙지 않는다면 두 문장 의미의 차이를 알 수 없습니다.
사람이라면 주변 상황이나 말의 억양으로 판별할 수 있겠지만, AI의 경우에는 이를 처리하기가 쉽지 않습니다.
한국어는 동사를 중요시하고 주어가 자주 생략된다는 특징이 있습니다.
위와 같은 예로 밥 먹었어 라는 문장의 경우 주어가 명시되어 있지 않습니다.
주어가 생략된 문장을 AI가 정확히 이해하기란 쉽지 않은 일입니다.
한국어에는 한자의 조합으로 이루어지는 단어들이 많이 있습니다. 예를 들어 집중이라는 단어의 경우 모을 집(集)과 가운데 중(中)이라는 단어가 합쳐져 만들어집니다. 영어의 concentrate의 경우에도 서브워드들이 합쳐져 하나의 단어를 이루게 됩니다.
- Concentrate: con(=together) + centr(=center) + ate(= make)
- 집중(集中): 集(모을 집) + 中(가운데 중)
하지만 한글이 한자를 대체하면서 문제가 발생합니다. 표어 문자인 한자가 표음 문자인 한글로 대체되면서, 읽는 소리는 같을 지라도 형태와 그 뜻은 다른 단어들이 여럿 생겨났습니다. 집 의 경우에도 모을 집(集), 낳을 집(緝), 잡을 집(執) 등의 수 많은 한자 단어가 집이라는 한 글자로 대체되었습니다. 이는 정보의 손실 을 야기하게 됩니다. 사람이라면 문맥을 통해 정보의 손실을 해소할 수 있겠지만, AI의 경우에는 그렇지 못합니다.
안그래도 학습도 어려운 한국어인데, 다른 언어에 비해 한국어 데이터도 턱없이 부족합니다.
사이트에서 각 언어별 웹 데이터의 양을 비교한 자료를 살펴보면, 한국어가 다른 언어에 비해 데이터가 확실히 적은 것을 볼 수 있습니다.
또한 데이터의 개수가 적은 것과 동시에 한국어 데이터셋에 대한 연구와 개발도 부족한 실정입니다. 영어의 경우 SQuAD, GLUE 등 TASK에 따른 다양한 데이터셋에 대한 연구와 개발이 활발합니다. 최근 한국어도 정부나 기업 차원에서 모두의 말뭉치, KorQuAD 처럼 한국어 데이터셋을 개발 및 공개하고 있습니다. 지금부터라도 한국어도 좋은 데이터셋을 확보되었으면 하는 작은 바람이 있습니다 :)
한국어 NLP ㄹㅇ 어케하는건데 ㅋㅋ
한국어는 다른 언어에 비해 신조어의 생성이 활발하고 자유로운 편입니다.
그만 알아보도록 합시다... 😥
- 김기현의 자연어 처리 딥러닝 캠프 (김기현)
- https://tech.kakaoenterprise.com/117