사람은 하루에 평균 11,000에서 25,000개의 단어를 말하는데, 이것은 우리 자신을 표현하는 가장 일반적인 방법입니다. 대화, 토론, 연설, 발표, 또는 일반적인 잡담 등 우리는 우리 자신뿐 아니라 다른 사람의 생각과 행동을 이해하기 위해 말을 하는데 어느 한쪽이 언어를 이해하지 못하면 그 대화는 불완전해지므로 우리는 이 언어의 장벽을 넘을 수 있는 시스템이 필요합니다. 음성 대 음성번역은 다른 언어를 사용하는 사람들 사이의 의사소통을 촉진함으로써 중요한 역할을 할 수 있는 시스템 중 하나로 특히 음성 번역 기술, Speech to Speech는 인류의 오랜 꿈이었습니다. 오늘은 Speech to Speech 기술이 무엇인지 그리고 발전과정에 대해 자세히 알아보겠습니다.
Speech to Speech 기술이란?
음성번역 기술은 전 세계 다양한 언어의 화자들이 소통할 수 있게 해 글로벌 비즈니스와 문화 간 교류에서 언어 차이를 없애는 데 그 의미가 있습니다. 음성번역을 완성하는 것은 인류에게 엄청난 과학적, 문화적, 경제적 가치를 지녔기 때문에 자동 음성번역 기술은 이미 2004년에 세상을 바꿀 10대 기술 중 하나로 선정된 바 있습니다. (MIT Enterprise Technology Review, 2004)
자동 음성번역 기술은 세 개의 세부 기술로 구분되는데 첫째 화자의 음성을 인식하는 음성 인식 기술, 둘째 인식된 단어를 번역하는 언어 번역 기술, 그리고 마지막으로 상대방의 언어로 음성을 합성하는 음성 합성 기술입니다.
음성번역 기술은 텍스트를 번역하는 기술보다 훨씬 어려운데, 구어는 문법에 어긋나거나 회화적인 표현을 포함하는 경우가 많으며, 물음표나 느낌표 등과 같은 구두점을 포함하지 않는 경우가 많기 때문입니다. 따라서 음성 인식 단계부터 실수가 발생해 번역에 큰 오류가 발생하기도 합니다.
Speech to Speech 기술의 특징
자동 음성 대 음성 번역(S2ST)의 꿈은 일반적으로 자동 번역과 마찬가지로 1950년대 컴퓨팅의 기원으로 거슬러 올라갑니다. 휴대용 음성번역 장치는 외계 언어인 더글러스 애덤스의 말을 협상하기 위한 스타트렉의 “다목적 번역기”로 상상되어 왔습니다.
텍스트 번역과 달리 음성번역 분야는 더 많은 것을 고려해야 합니다. 텍스트 번역도 언어의 모호성 때문에 다소 어려움이 있지만 음성번역은 문어가 아닌 구어를 자동으로 변환하는 데 상당한 어려움을 더합니다. 음성번역 시스템은 다른 의미를 구별할 필요성 외에도 노이즈, 도메인 컨텍스트, 유창성(오류, 반복, 잘못된 시작 등), 대화 효과 및 더 많은 불확실성으로 인해 추가적인 오류와 모호성을 내포할 가능성이 더 커집니다.
음성 인식과 기계 번역의 이중적인 어려움 때문에 이 분야는 단계적으로 발전했으며 각 단계에서 작업의 복잡성을 줄이기 위한 시도가 여러 차원으로 수행되었습니다.
Speech to Speech 기술의 발전
1980년대부터 시작된 자동 음성번역 기술은 회의 일정과 같은 비교적 단순한 번역에서 호텔 예약이나 여행상황에서의 대화 등 점차 더 복잡한 번역에 적용 가능한 수준으로 발전되었으며 이제는 AI의 발전으로 실시간 번역이 가능해졌습니다. 2000년대에 들어서면서 다양한 일상 대화나 정교한 비즈니스 대화에 이르기까지 그 적용 분야가 폭넓게 확대되었습니다.
- 1983년 일본 기업 NEC가 그 해 ITU 텔레콤 월드에서 시스템을 선보였는데 이 시연 시스템은 도메인 제한 문구 책을 사용했기 때문에 앞으로의 기술에 대해서는 불완전하지만, 자동으로 음성을 해석하는 비전과 실현 가능성을 보여주었습니다.
- 많은 어휘를 위한 완벽한 기능 연속 음성 인식은 80년대 말에야 나타나기 시작했는데 무제한 음성 합성은 이제 막 나타났으며 [Allen et al., 1979]. 또한 Universe, Amikai, CompuServe, GlobalLink 등 여러 회사가 음성 요소가 부족하긴 하지만 최초의 채팅 기반 실시간 텍스트 번역 시스템을 선보였습니다.
- 90년대 초까지 비전으로서의 음성번역은 충분한 흥분을 불러일으켰고, 국가 차원의 자금 지원 본격적으로 시작됩니다. 일본에는 국제전기통신기술연구소(ATR)가 공식 개소하고 1989년 4월, 4개의 연구실 중 하나가 전화 통역을 전담하였는데 일본 정부가 구성한 컨소시엄은 NTT, KDD, NEC 등 다양한 일본 통신사의 투자와 참여를 이끌어 냅니다.
- 이를 계끼로 전 세계의 연구자들이 그 노력에 동참했고, 선도적인 국제 연구소와 공동 연구가 시작됩니다. 1992년 음성번역 첨단연구 컨소시엄이 설립되었으며 1993년 1월, 이러한 노력을 전화 해석에 관한 국제 공동 실험의 정점으로 연결하게 됩니다. CNN, 뉴욕 타임스, 비즈니스 위크 등 많은 뉴스 소스에 의해 영어, 독일어, 일본어의 장거리 비디오 음성 대 음성 렌더링을 보여주는 최초의 국제 음성 번역 시연으로 널리 보도되면서 기술이 언어 장벽을 깨는 꿈이 언젠가 실현될 수 있다는 것을 보여줍니다.
- 1998년 PC에서 음성번역을 위한 기술이 사용됩니다. 1998년 링게니오(Lingenio)가 제작한 독일어 <-> 영어의 토크&번역으로 여기에 IBM 및 관련 텍스트 음성 변환 소프트웨어가 회사의 양방향 번역 소프트웨어에 추가되었습니다. 이 제품은 개별 음성 등록의 어려움으로 활성화되지 못해 당시 화자에 의존하는 소프트웨어를 위해 20분간의 교육이 필요했으며, 이미 영어가 널리 사용되던 독일 사업에서 시장을 찾지 못하였습니다
- 당시 구글에서는 아직 음성번역이 시도되지 않았는데 이러한 음성번역 시장이 확장하게 된 계기는 모바일로의 전환입니다. 아이폰 3G의 등장으로, 진보된 음성 및 기계 번역 기술이 전화기에 들어갈 수 있었고 새로 활성화된 시스템은 고급 머신러닝을 활용해 임의 여행자의 요구를 충족할 수 있을 만큼 충분히 큰 어휘를 포함하게 됩니다.
- 2006년, 일본의 닛폰 전기(NEC Global)는 세계 최초로 일본어-영어 음성번역 기능이 내장된 모바일 장치를 개발하는 한편, 2007년 일본의 소프트웨어 회사인 ATR-Trek은 “shabette honyaku”라는 음성번역 시스템을 개발, 자사의 DoCoMo 905i 시리즈 휴대폰에 탑재하여 출시하였는데 이 시스템은 출시 반년 만에 누적 접속 수 500만 건 이상을 달성할 정도로 널리 사용되었습니다.

- 2009년 Alex Waibel과 그의 팀이 2001년에 설립한 신생 회사인 Mobile Technologies, LLC는 iPhone과 Android 스마트폰에서 네트워크 지원 없이 완전히 실행되는 최초의 음성 번역기 Jibbigo [Eck et al., 2010]를 출시하였고 이 제품은 40,000개의 단어 어휘를 특징으로 하며 채팅 메시지를 입력할 수 있는 것보다 더 빠르게 음성 입력을 통해 음성 출력을 생성할 수 있었습니다. 이 앱은 여행자나 의료 종사자를 염두에 두고 설계되었지만, 도메인 독립적이어서 일반적인 대화 번역기 역할을 수행하였습니다.
- Jibbigo의 등장 직후 구글은 모바일 음성번역에 대한 네트워크 기반 접근 방식으로 SLT(Spoken Language Translation) 분야에 진출하였는데. 대화 모드는 2010년에 시연되었으며 2011년 초에 영어 스페인어를 위한 알파 버전으로 출시된 이후 그해 10월까지, 그 서비스는 14개 언어로 확장되었습니다. 마이크로소프트도 음성번역 앱을 출시하며 음성번역 앱의 경쟁 시대가 도래합니다.
- 최근 머신러닝(ML) 등 기술의 발전과 더불어 기계 번역의 품질은 크게 향상되었습니다. 한 예로, 기계 번역 워크숍에서 영어를 독일어로 번역한 BLEU(Bilingual Evaluation Understudy) 점수는 2011년 5점에서 2018년 49.9점으로 두 배 이상 높아졌습니다. BLEU는 기계가 번역한 결과와 사람이 번역한 결과가 얼마나 유사한지를 비교하는 번역 지표로서 기계 번역이 전문 인간 번역에 더 가까울수록 우수함을 보여줍니다.
현재 번역 기술은 인공지능, 특히 머신 러닝과 딥 러닝을 활용하여 빠르게 발전하고 있습니다. 이러한 기술은 텍스트뿐만 아니라 음성, 이미지 등 다양한 형태의 데이터에서 언어를 인식하고 번역할 수 있게 해 줍니다. 구글 번역기, 네이버 파파고와 같은 툴은 일상 생활에서 널리 사용되고 있으며, 그 정확도와 사용 편의성이 날로 증가하고 있습니다.
이러한 도구들은 신경망 번역(Neural Machine Translation, NMT) 기술을 기반으로 합니다. NMT는 전체 문장을 하나의 단위로 처리하여 문맥을 파악하고, 더 자연스러운 번역을 생성합니다. 이 기술은 많은 언어에 대해 높은 수준의 정확성을 제공하며, 특히 자원이 풍부한 언어들에서 뛰어난 성능을 보입니다.
Speech to Speech 기술의 미래
Speech to Speech 기술의 미래는 더욱 흥미로워질 것입니다. 인공지능의 발전으로 머신 러닝 모델이 더욱 복잡해지고, 더 많은 언어와 방언을 지원할 수 있게 될 것입니다. 또한, 인간 번역가와 AI가 협력하는 하이브리드 모델이 등장할 것입니다. 이 모델은 인간의 창의성과 기계의 효율성을 결합하여 번역의 질을 한층 더 끌어올릴 것입니다.
뿐만 아니라, 실시간 번역 기술의 발전으로 인해 국제회의나 다국적 협력이 더욱 수월해질 전망입니다. AR(증강 현실) 기술을 활용한 번역도 점차 보편화될 것이며, 이를 통해 사용자는 자신의 환경에 맞춰 언어를 바로바로 번역 받아볼 수 있게 될 것입니다.