Что это такое?

Корпус параллельных текстов создаётся при сравнении текста-оригинала и перевода. Корпус впоследствии переносится в переводческую память с помощью стандарта tmx; конвертировать tmx-файл можно в любой формат переводческой памяти, используемый популярными CAT-инструментами.

Как создать корпус?

С помощью WinAlign/SDL Trados Studio 2011

У студии есть стандартная утилита — WinAlign, с помощью которой можно создать корпус параллельных текстов. Вызвать её можно из домашнего окна программы, нажав на панели инструментов кнопку «Align translated documents«.

Главное окно WinAlign выглядит довольно непримечательно:

winalign_main_windowСкромный, однако, вид не должен вводить вас в заблуждение, потому что перед вами довольно мощный инструмент.

Для того, чтобы создать корпус, нужно начать в WinAlign новый проект. Диалоговое окно проекта можно вызвать нажатием клавиш CTRL+N.

winalign_settingsВ окне проекта вы можете выбрать необходимые языки, тип файла, сами файлы, а также возможности экспорта. WinAlign может экспортировать данные в корпус в двух форматах — стандартный tmx и не такой стандартный формат Workbench. Рекомендую настроить этот параметр в процессе создания проекта. Эта настройка находится во вкладке Export.

winalign_window_project_tmxПосле того, как файлы были добавлены, нужно открыть их, выровнять параллельные предложения и проверить, насколько правильно они были совмещены. Для этого выбираем в меню пункт «Alignment -> Align project» и открываем проект, два раза нажимая на файл.

winalign_window_align_project_openСвязи между сегментами можно разбивать и соединять сегменты заново, если выравнивание прошло неудачно. Случается, что правила сегментации, что уже были настроены в Studio, тоже некорректно обрабатывают текст. Чтобы исправить это, вы можете разбивать и/или объединять сегменты. Для этого нужно нажать правой кнопкой по сегменту оригинала, с которым вы хотите провести какую-либо из этих операций.

Режим редактирования текста, в случае, если вы нашли какие-то ошибки, открывается по двойному нажатию на сегмент, а закрывается с помощью кнопки Esc.

Экспортируется корпус с помощью команды из меню «File -> Export project».

С помощью LF Aligner

Для создания TMX из уже переведенных вами текстов, вы можете использовать LF Aligner – OpenSource проект.

Процесс создания корпуса параллельных текстов в LF Aligner занимает всего пару минут.

Главное окно Aligner выглядит следующим образом:lf_aligner_main_windowПрограмма работает со следующими типами файлов:

  • txt, rtf, doc/docx (текстовые файлы должны быть сохранены в UTF-8)
  • pdf или pdf, экспортированный в текстовый файл
  • любой локальный html-файл
  • страница сайта (вместо места расположения файлов оригинала и перевода достаточно просто указать две ссылки)
  • и документы Еврокомиссии и Европарламента

Для корректной работы LF Aligner необходимо использовать только латиницу, как в местах хранения файлов, так и в их названиях.
После того, как вы указали нужные файлы, вы можете выбрать между сегментированием по абзацам и по предложениям. Однако, выбирать сегментирование по абзацам следует только в том случае, если сегментация прошла не очень удачно, то есть программа не распознала некоторые сегменты или добавила новые.

lf_aligner_segmentation_windowДля просмотра и правки сегментированного текста, вы можете использовать встроенный редактор или открыть полученный файл в Excel.В конце, вы сможете сохранить TMX-файл, если он вам нужен, и отредактировать его свойства: дату создания и создателя.

Заключение

Такой корпус необходим, если у вас уже есть большой пул переведённых документов в цифровом формате и вы, например, решили начать использовать какие-либо CAT-инструменты. Готовые документы помогут сохранить общий стиль – если документы, конечно же, на одну и ту же тему – и сделать перевод немного быстрее.

N.B.: Существует, конечно же, много других программ и утилит для создания корпуса параллельных текстов. ABBYY отдает свой ABBYY Aligner в руки фрилансеров бесплатно, после регистрации в SmartCAT.

А вот в SDL решили отказаться от WinAlign и внедрили эту функцию в саму студию. Работает, говорят, интеллектуальнее и лучше.

 

Добавить комментарий