Google представила технологию синхронного перевода устной речи Translatotron

Google представила Translatotron — технологию синхронного перевода устной речи, которая построена на системе перевода отличной от существующих. Об этом компания сообщила в блоге.

В Google отмечают, что современные технологии по переводу устной речи обычно состоят из трех этапов: распознавание текста → перевод текста → синтез текста в голос. Такая «каскадная» система хорошо себя зарекомендовала во многих продуктах, в том числе в Google Translate, говорят в компании.

Google представила технологию, которая предлагает новый подход к переводу. Translatotron не выполняет этап расшифровки речи в текст и обратно. Вместо этого технология анализирует спектограмму источника и генерирует спектограмму на нужном языке. Кроме этого, такая система может сохранять интонацию и паузы оригинальной речи.

В Google выделяют несколько преимуществ Translatotron. Технология может быстрее совершать перевод (по сравнению с «каскадными» системами), избавляется от возможных ошибок при распознавании текста и может лучше справляться со словами, которые не нуждаются в переводе (например, названия и имена собственные).

Сейчас Translatotron выдает перевод хуже, чем системы с распознаванием текста, но в Google уверены, что создать рабочую технологию прямого перевода устной речи возможно: «Насколько нам известно, Translatotron — первая модель, которая может напрямую переводить речь с одного языка на речь на другом языке. Мы надеемся, что эта работа послужит отправной точкой для будущих исследований подобных систем».

Google представила технологию синхронного перевода устной речи Translatotron

Report Page