Інструменты Okapi для лакалізацыі і перакладу
6 лютага, 2017

Okapi framework – праект з адкрытым зыходным кодам. Часткамі праекта з’яўляюцца інструменты, якія выкарыстоўваюцца, каб правяраць якасць пераклада, падрыхтоўваць дакументы да перакладу і вызначаць правілы сегментацыі. Для працы праграм патрабуецца Java (нягледзячы на тое, што на сайце пазначана толькі неабходнасць JRE, неабходна ўстанавіць яшчэ і JDK).

Rainbow

Rainbow – крос-платформенная графічная праграма, якая дазваляе карыстацца рознымі інструментамі для падрыхтоўкі тэкстаў да перакладу. Як і іншыя інструменты з пакета Okapi, Rainbow карыстаецца фільтрамі, каб працаваць з рознымі файламі і пераўтвараць іх ў фарматы, якія дазваляюць іх змяняць. Фільтры, якія выкарыстоўваюцца праграмай, даюць магчымасць працаваць з файламі OpenOffice, MS Office, XML, HTML, DTD, Properties і г.д.

Rainbow таксама працуе з канектарамі, якія дазваляюць падлучаць розныя сістэмы машыннага пераклада (Google MT, Microsoft Translator, Open-Tran, MyMemory, Translate Toolkit TM, Apertium, TDA-Search). Унутраныя задачы Rainbow можна таксама аб’ядноўваць ва агульны працэс, каб праводзіць некалькі розных аперацый над файламі ў паўаўтаматычным рэжыме.

Асноўныя функцыі Rainbow гэта:

  • стварэнне пакетаў праектаў для перакладу (XLIFF, OmegaT, RTF для Trados);
  • змяненне кадоўкі тэксту ці разрываў радкоў;
  • пераўтварэнне фармата файлаў;
  • здабыванне тэрміналогіі і праверка якасці перакладу;
  • пераклад з дапамогай сістэм машыннага перакладу і перакладчаскай памяці;
  • псеўда-пераклад і рэдагаванне зыходнага тэксту;
  • прымяненне шаблонаў XSLT і параўнанне розных перакладаў;
  • пошук і замена тэксту па фільтрах, а таксама стварэнне корпуса паралельных тэкстаў.

Праграмныя канвееры / Pipelines

Праграмныя канвееры – гэта шэраг аперацый па падрыхтоўцы і перакладу файла. Канвееры таксама дазваляюць правяраць пераклад на якасць, змяняць выявы ў дакументах і здабываць тэрміналогію. Галоўнае акно Rainbow выглядае наступным чынам:

Галоўнае акно Rainbow

Стварыць новы канвеер вы можаце праз меню Utilities ці з дапамогай клавішCtrl + P. У дыялогавым акне можна дадаваць новыя крокі для выканання, адкрываць існуючы файл канвеера, захоўваць і запускаць канвеер.

[wp_ad_camp_2]

Праверка якасці і рэдагаванне

  • Whitespace Correction. Дужа карысная аперацыя для тых, хто перакладае на японскую ці кітайскую мовы ці наадварот: выдаляе прабелы ці ставіць іх зноў;
  • Text Modification: Дазваляе замяшчаць ASCII-сімвалы на сімвалы з пашыранага лацінскага алфавіта ці кіріліцы, а таксама заменьвае пэўныя буквы на Х, а лічбы на N;
  • Space Quality Check: Параўновае арыгінальны і перакладзены тэксты і выпраўляе, калі неабходна, прабелы кодаў;
  • Quality Check: Крок, усе налады якога вылучаны ў асобную праграму фрэймфорка, аб якой я напісаў ніжэй. Робіць тое ж самае, але ў адным акне;
  • Search and Replace: Адна з найпростых функцый пошука і замены. Заўсёды дапамагае мне, таму што дазваляе, нават з паверхневым знаёмствам з рэгулярнымі выразамі, шукаць і выпраўляць найчасцейшыя памылкі;
  • Inconsistency Check: Гэта аперацыя праводзіць праверку пераклад аднолькавых сегментаў тэксту-арыгінала. У тым выпадку, калі пераклад такіх сегментаў адрозніваецца, праграма пазначыць іх як памылковыя;
  • Cleanup: Аперацыя Cleanup выкарыстоўваецца для рэдагавання тэксту-арыгінала і выпраўлення памылак з пунктуацыяй, двукоссем і нечаканымі сімваламі. Калі гэтая аперацыя будзе дададзена ў канвеер, з’явіцца магчымасць задаць рэгулярны выраз, згодна з якім канвеер пазначыць сегменты, якія неабходна выдаліць.

Перамяшчэнне файлаў

Copy or Move

Аперацыя, якая ў ручным рэжыме, замяшчае стварэнне штодзеннай рэзервнай копіі. Дазваляе перамяшчаць ці капіяваць файлы ў пазначанае месца з наступнай перазапіссю, захаваннем ці пропускам пры наяўнасці ўжо існуючых файлаў.

Праца з перакладчаскай памяццю і тэрміналогіяй

  • Diff leverage. Дае магчымасць параўноваць дзве версіі аднаго тэксту і, калі з’яўляюцца аднолькавыя сегменты, капіяваць ужо існуючы пераклад. Вы можаце выкарыстоўваць адна-, двухмоўны ці тры аднамоўных файла. Звярніце ўвагу на тое, што скапіяваны пераклад сегментавацца не будзе;
  • Generate SimpleTM | SimpleTM to TMX. Гэтыя алгарытмы рэкамендую выконваць адначасова. Generate SimpleTM стварае корпус паралельных тэкстаў з некалькіх дакументаў, каб унесці яго далей у перакладчаскую памяць SimpleTM. Другі крок пераўтварае памяць SimpleTM у стандарт ТМХ, які потым магчыма будзе імпартаваць у любы САТ-інструмент, якім вы карыстаецеся;
  • Translation Comparison параўноўвае пераклад з некалькімі іншымі перакладзенымі дакументамі. Вынікі параўнання можна атрымаць у выглядзе HTML-табліцы ці ў файле TMX;
  • Term Extraction – адна з самых карысных функцый. На жаль, не заўсёды добра працуе для рускай ці беларускай моў. Дазваляе ствараць спіс магчымых (важна!) тэрмінаў на выснове арыгінальнага дакумента;
  • Sentence Alignment і Paragraph Alignment ствараюць корпус паралельных тэкстаў па сказах і абзацах.
  • Segmentation – алгарытм, які дазваляе ствараць свае правілы сегментацыі тэксту для тых выпадкаў, калі стандартныя не здолелі сегментаваць тэкст належным чынам;

Падлік слоў і сімвалаў

Для простага падліку слоў і сімвалаў у зыходным тэксце выкарыстоўваюцац наступныя аперацыі: Word Count, Character Count і Simple Word Count.

Розніца Word Count і Simple Word Count у тым, што Simple Word Count падлічвае колькасць слоў у кожным сегменце і стварае ў зыходным тэксце заўвагі ў сегментах. Word Count усяго ж падлічвае колькасць слоў у дакуменце.

Image Modification

Просты алгарытм групавога рэдагавання выяў, які дазваляе змяняць памеры і пераводзіць выяву ў шкалу шэрага.

CheckMate

CheckMate гэта яшчэ адна праграма з фрэймворка Okapi. Яна выкарыстоўваецца толькі для праверкі перакладу згодна з дадзенымі правіламі. Прынцып працы вельмі просты: неабходна дадаць дакумент, наладзіць правілы праверкі і націснуць кнопку “Check Document”.

Правілы наладжваюцца праз пункт меню Issues – Edit configuration.

Укладка з агульнымі наладамі дае магчымасць праверыць наяўнасць пустых сегментаў, сегментаў, пераклад якіх супадае з тэкстам арыгіналу, а таксама папярэджвае аб наяўнасці паўторных слоў.

Укладка з наладамі даўжыні тэксту вельмі важная для лакалізатараў, таму што вельмі часта з’яўляюцца патрабаванні прытрымлівацца пэўнай даўжыні перакладу ў сімвалах.

Налады Inline Codes і Patterns правяраюць адпаведнасць кодаў і шаблонаў пазначаным параметрам. Па змаўчанню, на адпаведнасць шаблонам правяраюцца адкрываючыя і закрываючыя дужкі, паштовыя і адрасы сайтаў, IP-адрасы і іншы тэкст, які павінны заставацца нязменным.

CheckMate дазваляе падлучаць вэб-версію LanguageTool, якая правярае тэкст згодна сваёй базе дадзеных. Памятайце толькі, што падлучэнне сервера LanguageTool альбо карыстаннне вэб-аплетам значна павялічвае час праверкі дакументаў.

Okapi: Заключэнне

Okapi, як і іншыя падобныя інструменты, прызначаецца для выканання руцінных алгарытмаў і першапачатковай праверкі дакументаў пасля перакладу. Зразумела, рэкамендую выкарыстоўваць фрэймворк толькі ў тых перакладах, дзе вельмі важна сачыць за тэрміналогіяй ці пэўнымі патрабаваннямі.

Image credit: Juan Bosco

[AdSense-A]

0 каментарыяў
    Пакінуць каментарый

    Ваш адрас электроннай пошты не будзе апублікаваны. Неабходныя палі пазначаны як *