그동안 자동 통역 시스템은 오랜 시험 단계를 거쳐 더 정확해지고, 더 자연스러워졌다. 최근 들어서는 사람의 영감(instpiration)을 읽는 알고리듬까지 등장했다. 첨단 인공 신경망(artificial neral networks) 덕분이다.
신경망을 이용하면 언어와 관련된 어마어마한 양의 데이터를 처리할 수 있다. 수백만 개의 문장을 다른 언어로 번역해 사람이 무엇을 의도하는지 번역해낼 수 있다. 최근 들어서는 이 인공신경망이 더 놀라운 일을 하기 시작했다.
스페인의 UPV(University of the Basque Country)의 컴퓨터과학자 미켈 아르떼체(Mikel Artetxe) 교수는 29일 ‘사이언스’ 지를 통해 “그동안 하나의 언어만 통역해오던 인공신경망이 두 나라 언어를 서로 교차 통역하는 방법을 배우기 시작했다”고 말했다.
한 기기로 2개 국어 이상 교차 통역 가능
아르떼체 교수는 “영어를 사용하고 있는 자동통역시스템에 많은 수의 서로 중복되지 않는 중국책과 아랍어 책을 제시한 후 중국어를 아랍어로 번역하도록 요구했다고 하자. 지금까지의 자동번역시스템은 그 일을 수행할 수 없었다”면서 “그러나 우리들이 그 일을 해냈다”고 밝혔다. 영어를 기본어로 사용하고 있는 번역시스템이 중국어를 아랍어로 번역하는 길이 열렸다는 것. 인공신경망을 포한한 지금까지의 머신러닝(기계학습) 기술은 지도학습(supervised learning) 방식이었다.
신경망을 학습시키는 데 반드시 입력 x와 원하는 목표치 d의 쌍(x, d)가 필요했다. 이를 학습 패턴 쌍(training pattern pair)이라고 한다. 이 방식을 통해 과학자들은 자동번역시스템의 정확한 번역은 물론 생각하는 능력을 배양해왔다.
그런데 아르떼체 교수 연구팀은 번역해야 할 언어에 또 다른 언어를 추가했다. 그리고 번역해야할 언어가 추가된 언어를 번역할 수 있는 능력을 학습시키고 있는 중이다. 그럴 경우 많은 사람의 통역관을 동원하듯이 다자간 교차 통역이 가능해진다.
관련 논문은 2개로 내년에 열리는 국제 컨퍼런스 ‘International Conference on Learning Representations’에 제출될 예정이다. 논문 발표를 위해 컨퍼런스 주최 측의 2~3명의 과학자들로부터 검증을 마친 상태다.
‘사이언스’ 지는 그러나 이번 연구 결과가 1개국 언어와 1개국 언어를 자동 통역하는 것을 넘어 대규모 행사장에서 다개국 언어를 서로 교차 통역할 수 있는 능력을 확보할 수 있는 자동 통역 분야의 놀라운 기술 진전이라고 평가했다.
논문들은 지도학습 방식이 아닌 지도를 받지 않는 머신러닝(unsupervised machine learning) 기술개발에 초점을 맞추고 있다. 연구팀은 새로운 방식으로 이 혁신 자동통역 기술에 접근하고 있다.
이중어 사전 방식 인공신경망에 도입
지금까지 2개 국어를 통역하는 사람들은 이중어 사전(bilingual dictionary)를 사용해왔다. 한국 사람이 영어·프랑스어를 사용하는 식이다. 그러나 자동통역시스템이 이런 상황을 연출하기 위해서는 번역하고 있는 2개국 언어 구조가 유사해야 한다.
연구팀은 인공신경망에 ‘역번역과 잡음제어(back translation and denoising)’라 불리는 2가지 기술을 도입했다. 역번역이란 A 언어를 B 언어로 번역한 후 다시 B 언어를 거꾸로 A 언어로 번역하는 것을 말한다.
만일 B 언어를 잘못 번역했을 경우 인공신경망으로 하여금 정확한 번역에 접근할 수 있도록 트레이닝을 시켜왔다. 잡음제어란 문장을 번역하면서 잘못된 내용을 제거하는 기술이다. 역번역 시 발생하는 오류를 제거한다는 의미다.
연구팀은 이 두 가지 방식을 통해 인공신경망이 언어 구조를 깊이 이해하는 것은 물론 상황에 따라 자율적으로 제 2, 제 3의 언어를 동시 통역할 수 있는 기능을 확보하는데 성공했다. UNMT(Unsupervised Neural Machine Translation)를 개발한 것이다.
연구팀은 이 기술이 엄청난 양의 데이터를 축적하고 있다고 밝혔다. 예를 들어 영어와 프랑스어 사이에서 약 3000만개의 문장을 습득했으며, 자체 테스트 결과 오류가 15개에 불과할 만큼 정확도를 지니고 있다고 밝혔다.
사람의 경우도 이보다 더 많은 실수가 있을 수 있다고 말했다. 아르떼체 교수는 “지금까지 이 시스템이 언어 능력을 보완하고 있으며, 데이터 축적에 따라 다개국어를 서로 교차해 자동통역할 수 있는 환경이 조성될 것”이라고 말했다.
교수는 또 “이 시스템을 현실에 적용할 경우 신문처럼 비교적 간단한 문장들이 사용되고 있는 텍스트들은 손쉽게 자동통역이 가능할 것”이라고 내다봤다. 현재 연구팀은 이 시스템이 가동될 수 있는 도메인을 마련 중이다.
또 의료, 패션 등 전문분야 통역을 위한 사이트, 더 나아가 지역마다 다른 사투리 전용 통역 사이트를 마련할 계획이다. 자동통역 시스템 개발의 초점은 사용자가 쓰는 단어나 문장, 스타일에 구애를 받지 않게 하는 데 있다.
최근 들어 많은 기술적 성취를 이루고 있다. 그러나 다양한 주제의 언어를 자유스럽게 통역할 수 있는 기기 개발은 요원한 상태였다. 이에 따라 영화에서처럼 어떤 말을 하던 상황에 따라 무슨 뜻인지 이해할 수 있는 길을 모색해왔다.
UPV의 연구 결과로 이런 난제가 해결되는 중이다. 내년 국제 컨퍼런스에서 이 연구 결과가 공식적으로 인정을 받을 경우 자동통역 기술 전반에 큰 영향을 미칠 전망이다. 다국어 자동통역기술 시대가 도래하고 있다.
- 이강봉 객원기자
- aacc409@naver.com
- 저작권자 2017-11-29 ⓒ ScienceTimes
관련기사