사이언스타임즈

그동안 자동 통역 시스템은 오랜 시험 단계를 거쳐 더 정확해지고, 더 자연스러워졌다. 최근 들어서는 사람의 영감(instpiration)을 읽는 알고리듬까지 등장했다. 첨단 인공 신경망(artificial neral networks) 덕분이다.

신경망을 이용하면 언어와 관련된 어마어마한 양의 데이터를 처리할 수 있다. 수백만 개의 문장을 다른 언어로 번역해 사람이 무엇을 의도하는지 번역해낼 수 있다. 최근 들어서는 이 인공신경망이 더 놀라운 일을 하기 시작했다.

스페인의 UPV(University of the Basque Country)의 컴퓨터과학자 미켈 아르떼체(Mikel Artetxe) 교수는 29일 ‘사이언스’ 지를 통해 “그동안 하나의 언어만 통역해오던 인공신경망이 두 나라 언어를 서로 교차 통역하는 방법을 배우기 시작했다”고 말했다.

세계 다양한 언어들을 서로 교차해 통역할 수 있는 자동통역시스템이 인공신경망을 통해 개발돼 세계적으로 큰 주목을 받고 있다. ⓒ ScienceTimes — 세계 다양한 언어들을 서로 교차해 통역할 수 있는 자동통역시스템이 인공신경망을 통해 개발돼 세계적으로 큰 주목을 받고 있다.

한 기기로 2개 국어 이상 교차 통역 가능

아르떼체 교수는 “영어를 사용하고 있는 자동통역시스템에 많은 수의 서로 중복되지 않는 중국책과 아랍어 책을 제시한 후 중국어를 아랍어로 번역하도록 요구했다고 하자. 지금까지의 자동번역시스템은 그 일을 수행할 수 없었다”면서 “그러나 우리들이 그 일을 해냈다”고 밝혔다. 영어를 기본어로 사용하고 있는 번역시스템이 중국어를 아랍어로 번역하는 길이 열렸다는 것. 인공신경망을 포한한 지금까지의 머신러닝(기계학습) 기술은 지도학습(supervised learning) 방식이었다.

신경망을 학습시키는 데 반드시 입력 x와 원하는 목표치 d의 쌍(x, d)가 필요했다. 이를 학습 패턴 쌍(training pattern pair)이라고 한다. 이 방식을 통해 과학자들은 자동번역시스템의 정확한 번역은 물론 생각하는 능력을 배양해왔다.

그런데 아르떼체 교수 연구팀은 번역해야 할 언어에 또 다른 언어를 추가했다. 그리고 번역해야할 언어가 추가된 언어를 번역할 수 있는 능력을 학습시키고 있는 중이다. 그럴 경우 많은 사람의 통역관을 동원하듯이 다자간 교차 통역이 가능해진다.

관련 논문은 2개로 내년에 열리는 국제 컨퍼런스 ‘International Conference on Learning Representations’에 제출될 예정이다. 논문 발표를 위해 컨퍼런스 주최 측의 2~3명의 과학자들로부터 검증을 마친 상태다.

‘사이언스’ 지는 그러나 이번 연구 결과가 1개국 언어와 1개국 언어를 자동 통역하는 것을 넘어 대규모 행사장에서 다개국 언어를 서로 교차 통역할 수 있는 능력을 확보할 수 있는 자동 통역 분야의 놀라운 기술 진전이라고 평가했다.

논문들은 지도학습 방식이 아닌 지도를 받지 않는 머신러닝(unsupervised machine learning) 기술개발에 초점을 맞추고 있다. 연구팀은 새로운 방식으로 이 혁신 자동통역 기술에 접근하고 있다.

이중어 사전 방식 인공신경망에 도입

지금까지 2개 국어를 통역하는 사람들은 이중어 사전(bilingual dictionary)를 사용해왔다. 한국 사람이 영어·프랑스어를 사용하는 식이다. 그러나 자동통역시스템이 이런 상황을 연출하기 위해서는 번역하고 있는 2개국 언어 구조가 유사해야 한다.

연구팀은 인공신경망에 ‘역번역과 잡음제어(back translation and denoising)’라 불리는 2가지 기술을 도입했다. 역번역이란 A 언어를 B 언어로 번역한 후 다시 B 언어를 거꾸로 A 언어로 번역하는 것을 말한다.

만일 B 언어를 잘못 번역했을 경우 인공신경망으로 하여금 정확한 번역에 접근할 수 있도록 트레이닝을 시켜왔다. 잡음제어란 문장을 번역하면서 잘못된 내용을 제거하는 기술이다. 역번역 시 발생하는 오류를 제거한다는 의미다.

연구팀은 이 두 가지 방식을 통해 인공신경망이 언어 구조를 깊이 이해하는 것은 물론 상황에 따라 자율적으로 제 2, 제 3의 언어를 동시 통역할 수 있는 기능을 확보하는데 성공했다. UNMT(Unsupervised Neural Machine Translation)를 개발한 것이다.

연구팀은 이 기술이 엄청난 양의 데이터를 축적하고 있다고 밝혔다. 예를 들어 영어와 프랑스어 사이에서 약 3000만개의 문장을 습득했으며, 자체 테스트 결과 오류가 15개에 불과할 만큼 정확도를 지니고 있다고 밝혔다.

사람의 경우도 이보다 더 많은 실수가 있을 수 있다고 말했다. 아르떼체 교수는 “지금까지 이 시스템이 언어 능력을 보완하고 있으며, 데이터 축적에 따라 다개국어를 서로 교차해 자동통역할 수 있는 환경이 조성될 것”이라고 말했다.

교수는 또 “이 시스템을 현실에 적용할 경우 신문처럼 비교적 간단한 문장들이 사용되고 있는 텍스트들은 손쉽게 자동통역이 가능할 것”이라고 내다봤다. 현재 연구팀은 이 시스템이 가동될 수 있는 도메인을 마련 중이다.

또 의료, 패션 등 전문분야 통역을 위한 사이트, 더 나아가 지역마다 다른 사투리 전용 통역 사이트를 마련할 계획이다. 자동통역 시스템 개발의 초점은 사용자가 쓰는 단어나 문장, 스타일에 구애를 받지 않게 하는 데 있다.

최근 들어 많은 기술적 성취를 이루고 있다. 그러나 다양한 주제의 언어를 자유스럽게 통역할 수 있는 기기 개발은 요원한 상태였다. 이에 따라 영화에서처럼 어떤 말을 하던 상황에 따라 무슨 뜻인지 이해할 수 있는 길을 모색해왔다.

UPV의 연구 결과로 이런 난제가 해결되는 중이다. 내년 국제 컨퍼런스에서 이 연구 결과가 공식적으로 인정을 받을 경우 자동통역 기술 전반에 큰 영향을 미칠 전망이다. 다국어 자동통역기술 시대가 도래하고 있다.

이강봉 객원기자
aacc409@naver.com: 저작권자 2017-11-29 ⓒ ScienceTimes

태그(Tag)

관련기사

항생제 내성, AI로 극복한다 항생제 내성이란? 항생제 내성으로 인한 감염으로 매년 자그마치 수백만 명이 사망하고 있다는 사실을 알고 있는가? WHO에 따르면, 2019년에는 약 130만 명이 다제내성 결핵으로 사망했으며, 항생제 내성으로 인한 사망자 수가 10년 내 1000만 명에 이를 것으로 예측된다. 특히 개발도상국에서는 항생제 오남용과 불량한 감염 관리로 인해 문제가 더욱

'내일 나의 기분은' 수면 패턴 보면 안다…예보기술 개발 수면-각성 데이터를 이용한 기분 삽화 예측 ⓒIBS 제공 일기예보처럼 내일의 기분을 미리 알려주는 기술이 개발됐다. 기초과학연구원(IBS) 수리·계산과학연구단 의생명수학그룹 김재경 CI(그룹장) 연구팀은 이헌정 고려대 의대 교수팀과 공동으로 오늘의 수면 패턴을 토대로 내일의 기분을 예측할 수 있는 기술을 개발했다고 25일 밝

촉매 신소재, AI로 찾아…"기존 방식대비 시간 70분의 1로 단축" 한국과학기술원(KAIST) 기계공학과 이강택 교수팀은 한국에너지기술연구원·한국지질자원연구원·KAIST 신소재공학과 연구팀과 공동으로 인공지능(AI)과 슈퍼컴퓨터를 활용해 성능이 우수한 스피넬 산화물 신소재를 설계했다고 21일 밝혔다. 스피넬 산화물은 산소 환원 반응을 활성화할 수 있는 신소재로, 그린수소(탄소 배출 없이 만들어

인간이 읽지 못하던 헤라클레니움 두루마리, AI가 읽었다! 인류 역사 속에서 자취를 감춘 폼페이, 무슨 일이 있었을까? 이탈리아 캄파니아주 나폴리 근처에 가면 반드시 들를 곳이 있다. 바로 갑작스러운 화산폭발로 인해 지구상에서 순식간에 자취를 감춘 곳이자 역사적으로 유명한 고대 로마의 휴양 도시 폼페이 발굴지이다. 참고로 현재의 폼페이는 새롭게 건설된 신시가지를 나타내므로 과거 유적지는 스카비 디 폼페이(Scav

딥페이크를 식별하는 방법 딥페이크 (Deepfake) = 딥 러닝(Deep learning) + 가짜(Fake) 인공지능 관련 기술들이 하루가 다르게 눈부시게 발전하고 있다. 이에 따라 조금의 노력으로도 선별된 고급 정보를 얻기 매우 쉬워지는 세상으로 변모하고 있다. 하지만 인공지능 발전으로 인해서 장점만 있는 것은 아니다. 가짜 정보가 판을 치고 있으며, 인공지능을 이용한 범죄

차량에 어린아이가 남겨져 있어요 글: HERE Technologies 프로덕트 오너 안현섭 차량 내부 방치로 인해 발생하는 영유아 사망 사고 매년 전 세계에서 어린이들이 주차된 차량에 방치된 후 열에 노출되어 사망하는 일이 끊이지 않고 있다. 미국의 경우 1998년 이후 900명 이상의 어린이가 이로 인해 사망한 것으로 공식 집계되었다. 이들 중 85%는 달하는 대다수가 4세 이하

로봇 요리사의 ‘특별한 요리 비결’은 유튜브? 바리스타 로봇, 치킨 로봇, 국수 로봇… 최근 푸드테크의 발전으로 사람을 대신해 다양한 요리를 선보이는 ‘요리로봇’을 흔히 볼 수 있게 됐다. 현재 상용화된 요리로봇은 머신러닝과 모션기술을 통해 프로그래밍된 음식을 조리하거나 요리사를 보조하는 수준까지 와있다. 덕분에 정석의 레시피대로 조리하지만, 요리법을 스스로 인식하여 요리하지는 않는다. 이 요리로

일론 머스크·유발 하라리가 AI 개발을 ‘일시 정지’하자고 주장한 까닭 지난 3월 29일 미국의 비영리 단체인 ’미래의 삶 연구소(FLI)’는 인공지능(AI) 시스템 개발 속도를 줄이자는 공개서한을 냈다. 독립적인 외부 전문가가 감독하는 안전한 프로토콜을 개발할 때까지 모든 AI 연구소에서 GPT-4보다 강력한 AI 개발을 최소 6개월간 중단하자는 내용이었다. 이 서한에 일론 머스크 테슬라 최고경영자(CEO)를 비롯해 튜링상

연합학습, ‘집단지성’의 디지털 버전이 될 수 있을까? 최근 연합학습이 주목받고 있다. 연합학습은 로컬에서 생산된 데이터를 로컬 클라이언트에서 저장하고 학습하는 로컬라이징 방식을 뜻한다. 이미 다양한 산업계가 빅데이터를 통해 AI모델을 구축·활용하고 있는바, 기존의 방식과는 차이가 있는 연합학습을 예의주시하는 모양이다. 디지털 기술이 발전함에 따라 데이터의 양과 활용이 급증하면서 데이터가 경쟁력이 시대가

코로나19 후유증 치료, AI의 ‘같은 그림 찾기’로 한다! 코로나19 후유증, AI가 치료제의 길을 열었다. ©GettyImagesBank 지난 3월 25일 사이언스타임즈는 GIST의 박지환 교수와 안현수 학생을 대상으로 단독인터뷰 기사를 게재한 바 있다. (기사링크 바로가기) 박지환 교수와 안현수 학생을 포함한 연구팀은 인공지능(AI) 기술인 ‘머신러닝’을 통해 코로나19 감염경험자 대다수가 겪는 코로

목록으로

통합검색

인기 뉴스 TOP 10

속보 뉴스

QUICK LINK