컬처테크놀로지

"I love you가 상형문자로 뭐야?"...구글 '이집트 상형문자 번역기' 공개

이지웅 기자 | 2020-07-28 15:49
image
center이미지 확대보기
(사진=구글 블로그)

"오늘(7월 15일)은 고대 이집트 상형문자의 신비를 처음으로 풀어낸 도구 '로제타석'을 발견한 기념일입니다. 고대 이집트인들은 4,000여 년 전에 이 문자 체계로 그들의 이야기를 기록했지만, 오직 선별된 집단만 읽고 쓰는 방법을 알고 있었습니다."

구글이 전 세계인을 위한 이집트 상형문자 번역기를 만들었다. 찬스 쿠게누르(Chance Coughenour) 구글 아트 & 컬쳐 프로그램 매니저는 이집트인 중 소수만 당시 언어를 사용했다는 사실을 아쉬워 하며 "오늘날 새로운 구글 아트 & 컬쳐 도구인 '파브리시우스(Fabricius)' 덕분에 누구나 이 매력있는 언어를 상호적으로(interactively) 발견할 수 있다"며 이 서비스를 소개했다.

파브리시우스는 인공지능(AI) 이집트 상형문자 번역기다. 영어를 상형문자로 바꿔준다. 구글은 "상형문자를 가장 쉽게 이해하는 방법은 그것들이 고대 이집트판 '이모지(emoji)'라고 생각하는 것"이라고 설명했다. 가령 '나는 너를 사랑해(I love you)'를 번역하면 아래 사진처럼 번역한다. 데스크탑 기준으로 상형문자에 마우스 커서를 두면 어느 알파벳 단어에 해당하는지 알려준다.

center이미지 확대보기
구글 파브리시우스에서 'I love you'를 번역한 결과(사진=Fabricius 갈무리)

AI를 활용한 기계 번역의 질은 번역 데이터의 양과 정비례한다. 번역 데이터가 많을 수록 날카롭고 정확한 번역 결과물이 나온다. 영어나 중국어처럼 많은 사람들이 쓰는 언어를 번역한 결과물이 소수 언어 번역보다 자연스러운 이유다. 물론 AI가 학습할 만큼 데이터를 확보하는 과정은 고단하다. 사람이 직접 정보를 입력해 가공·정제하는데 비용이 든다. '제로샷 학습(Zero-Shot)'학습처럼 비교적 적은 정보량으로 데이터 사이 관계와 공통점을 고려해 정답을 유추하는 방식을 대안으로 내놓을 수도 있다. 구글의 인공신경만 기계번역(GNMT)에서 활용하는 방식이다. 그래도 '저장된 데이터'가 필요하다.

center이미지 확대보기
구글은 상형문자 번역 결과는 '재미를 위한 것'이라고 말한다(사진=Fabricius 갈무리)

파브리시우스는 사람들이 보기좋게 편집한 이집트 상형문자 데이터를 수집하기 위해 나왔다. 탄생목적은 이집트학 연구 지원이다. 수 많은 유저들이 상형문자 사진을 편집해 파브리시우스에 올리면, 뉴럴 네트워크 구조로 이루어진 AI가 상형문자를 정확하게 식별하도록 훈련한다. 유저들은 편집도구로 상형문자를 구별·분석하기 쉽게 만들 수 있다. 문자 형태가 온전치 않다면 주석을 달거나 수정할 수도 있다.

파브리시우스에게 번역은 진짜 탄생 목적이 아니다. 구글은 "기억해주세요, 변역결과는 단순히 재미를 위한 것(for fun) 입니다"라며 "이 상형문자는 정확한 번역 결과를 반영하지 않을 겁니다"라고 설명했다.

center이미지 확대보기
샹형문자 이미지를 업로드 한 뒤 특정 문자를 한 구역으로 만들어 편집할 수 있다(사진=Fabricius 갈무리)


구글이 파브리시우스에 적용한 방식은 캡챠(CAPTCHA)와 리캡챠(reCAPTCHA)와 유사하다. 두 서비스는 인터넷에서 무단 가입을 방지하거나 정보를 보호하기 위한 장치다. 카페 등에 회원가입을 할 때마다 어김없이 등장한다. 형식은 같다. 손으로 쓴 삐뚤빼뚤한 글씨를 보여주고 정확한 단어를 쓰도록 요구한다. 사실 이 글씨들은 고문서를 스캔한 이미지들이다.

center이미지 확대보기
(사진=CAPTCHA.net 갈무리)

캡챠 개발자들은 광자문자인식기술(OCR)로 문서를 스캔했을 때 나오는 오류를 사람이 직접 잡도록 설계했다. 하루에 단어 1억개씩, 일년에 책 250만권을 전 세계 사람들이 해독했다. 이 데이터는 '프로젝트 구텐베르크'나 플라톤의 '향연' 등 고문서를 복원하는데 도움이 됐다. 캡챠를 개선한 리캡챠도 똑같다. 문자 대신 자동차나 강아지 사진 등 이미지를 사용할 뿐이다. 파브리시우스는 이 방식을 차용해. 전 세계에서 상형문자 이미지 데이터를 얻는다. 손 안대고 코 푸는 셈이다.

파브리시우스는 이집트 상형문자 번역에 터닝포인트가 될 것이다. 찬스 쿠게누르 매니저는 "지금까지 전문가들은 고대 언어를 번역하고 해독하기 위해 책을 통해 수작업으로 파고들어야 했다. 이 과정은 사실상 한 세기동안 변하지 않았다"며 "파브리시우스는 고대 언어 연구의 발전을 지원하기 위해 오픈 소스로 출시된 최초의 디지털 도구"라고 밝혔다.

BBC에 따르면, 알렉스 우즈 호주 이집트학 박사도 "손으로 쓴 책에서만 볼 수 있었던 텍스트 자료를 디지털화하는 작업은 이집트학자들의 방식에 혁명을 일으킬 것"이라고 말했다.

이지웅 웹데일리 기자 news@webdaily.co.kr

저작권자 © 웹데일리, 무단 전재 및 재배포 금지