В июле 2012 года компания Microsoft объявила о коммерческой доступности Microsoft Translator Hub — новой системы, которая позволяет подписавшимся использовать машинный перевод на основе своих документов.

6622.clip_image002_4DFE781C

Использование хаба

Хаб работает с документами следующих типов:

  • XLIFF (XLF, XLIFF)
  • TMX (TMX)
  • LCL (файлы LocStudio)
  • Документы Microsoft Word (DOCX)
  • Файлы Adobe Acrobat (PDF)
  • HTML-файлы (HTML, HTM)
  • UTF-16 и UTF-8 текстовые файлы (TXT, ALIGN). Расширение ALIGN специально создано для тех случаев, когда пользователь уверен, что выравнивание параллельных текстов прошло без ошибок. Таким образом, можно пропустить один шаг при создании собственной системы машинного перевода.

Создание системы перевода проходит в четыре простых шага:8206.clip_image003_197DA5D4Пользователи могут загружать параллельные и одноязычные тексты в различных форматах, и создавать модели перевода с заданными параметрами в закрытых рабочих пространствах с помощью обучающих систем Microsoft Translator.

Хаб позволяет создать простую и надежную систему, в которой могут работать и редакторы для корректировки текста перед отправкой его в память переводов и последующего использования. Создатель хаба может оставить его в своем личном пользовании, открыть к нему доступ всем или только определенным лицам.

Следует заметить, что перед загрузкой документов и последующим обучением хаба, необходимо переименовать все файлы следующим образом: <имя документа>_<код языка>.ext, где код языка — трёхбуквенная аббревиатура. Все коды языка можно найти в Microsoft Translator Hub API guide.

Обучение хаба

Документы в хаб можно загружать по одному или в архиве. Поддерживаемые форматы архивов: ZIP, GZ и TGZ.

Обучение хаба состоит в том, что пользователь должен указать системе, какие именно документы следует использовать для создания системы машинного перевода и как. Для этого существуют три массива данных: массив обучения, массив настройки и массив проверки.

Все документы, которые попадают в массив обучения, используются хабом в качестве фундамента для системы машинного перевода.

Предложения, находящиеся в массиве настройки, помогают системе в создании оптимального варианта перевода. При создании данного массива следует быть особенно внимательным, потому что именно он отвечает за качество конечного перевода. Поэтому в массиве настройки могут использоваться только двуязычные документы. В то же время, Microsoft рекомендует выбирать предложения для внесения в массив вручную.

Массив проверки использует загруженные тексты для подсчета BLEU (Bilingual Evaluation Understudy) — оценки общего качества конечного перевода. Таким образом, загружать в этот массив также следует только проверенные документы, в качестве перевода которых вы уверены.

В процессе обучения хаб выравнивает параллельные тексты и создает отчет с количеством предложений, которые он смог сопоставить. Система «читает» по одному предложению за раз — оригинал, затем перевод — и сопоставляет слова в предложениях. Этот процесс позволяет создать карту связей слов в одном предложении, а затем система выравнивания пытается убедиться в том, что предложения являются оригиналом и переводом и соответствуют друг другу.

Добавить комментарий