Help:Extension:Translate/Translation memories/uk

Пам'ять перекладів розширення Translate підтримує ElasticSearch. Ця сторінка має на меті надати вам інсталяцію ElasticSearch та детальніше вивчити її характеристики.

На відміну від інших засобів перекладу, наприклад зовнішніх служб машинного перекладу пам’ять перекладів постійно оновлюється новими перекладами у вашій вікі. Розширений пошук у перекладах також доступний на сторінці Special:SearchTranslations, якщо ви вирішите використовувати ElasticSearch.

Порівняння
Бекенд бази даних використовується за замовчуванням: він не має залежностей і не потребує налаштування. Бекенд бази даних не може бути спільним між кількома вікі, і він не масштабується до великої кількості перекладеного вмісту. Тому ми також підтримуємо ElasticSearch як бекенд. Також можна використовувати пам’ять перекладів іншої вікі, якщо їхній веб-API відкритий. На відміну від ElasticSearch, віддалені бекенди не оновлюються перекладами з поточної вікі.

Бекенд ElasticSearch
ElasticSearch відносно легко налаштувати. Якщо він недоступний у ваших дистрибутивних пакетах, ви можете отримати його з їхнього веб-сайту. Вам також потрібно буде отримати розширення Elastica. Нарешті, див. , щоб отримати конкретну конфігурацію, необхідну для Перекладача.

Скрипт завантаження створить необхідні схеми. Якщо ви використовуєте бекенд ElasticSearch з кількома вікі, вони за замовчуванням використовуватимуть пам’ять перекладів, якщо ви не встановите параметр індексу в конфігурації.

Під час оновлення до наступної основної версії ElasticSearch (наприклад, оновлення з 2.x до 5.x) настійно рекомендуємо прочитати примітки до випуску та документацію щодо процесу оновлення.

Встановлення
Після встановлення вимог інсталяція вимагає від вас налаштувати конфігурацію, а потім виконати завантаження.

Конфігурація
Усі допомоги перекладу включно з пам'яттю перекладу налаштовуються у налаштуваннях конфігурацій.

Основна серверна частина пам’яті перекладів має використовувати ключ. Основний серверний сервер отримує оновлення перекладів і використовується Special:SearchTranslations.

Приклад конфігурації TTMServers:

Можливі ключі і значення:

Зараз для баз даних підтримується лише MySQL.

Bootstrap
Once you have chosen ElasticSearch and set up the requirements and configuration, run  to bootstrap the translation memory. Bootstrapping is also required when changing translation memory backend. If you are using a shared translation memory backend for multiple wikis, you'll need to bootstrap each of them separately.

Sites with lots of translations should consider using multiple threads with the  parameter to speed up the process. The time depends heavily on how complete the message group completion stats are (incomplete ones will be calculated during the bootstrap). New translations are automatically added by a hook. New sources (message definitions) are added when the first translation is created.

Bootstrap does the following things, which don't happen otherwise:
 * adding and updating the translation memory schema;
 * populating the translation memory with existing translations;
 * cleaning up unused translation entries by emptying and re-populating the translation memory.

When the translation of a message is updated, the previous translation is removed from the translation memory. However, when translations are updated against a new definition, a new entry is added but the old definition and its old translations remain in the database until purged. When a message changes definition or is removed from all message groups, nothing happens immediately. Saving a translation as fuzzy does not add a new translation nor delete an old one in the translation memory.

Доступ до TTMServer через API
Якщо Ви хотіли б впровадити власний сервіс TTMServer, тут подано деякі технічні параметри.

Параметри запиту:

Ваш сервіс повинен прийняти такі параметри:

Ваш сервіс повинен надавати об'єкт JSON, що мусить мати ключ  з масивом об'єктів. Ці об'єкти повинні містити такі дані:

Приклад:


 * URL: http://translatewiki.net/w/api.php?action=ttmserver&sourcelanguage=en&targetlanguage=fi&text=january&format=jsonfm
 * Повертає:

Database backend
Backend містить три таблиці:,   і. Вони відповідають джерелам, цілям та повному тексту. Ви можете знайти визначення таблиць у. Джерела містять усі визначення повідомлень. Незважаючи на те, що зазвичай вони написані тією ж мовою, скажімо, англійською, мова тексту також зберігається, крім рідкісних винятків.

Кожен запис має унікальний id і два додаткові поля, "length" і "context". "Length" використовується як перший фільтр довжини, так що при подачі запиту не треба порівнювати текст, який ми шукаємо, з кожним записом у базі даних. У "context" прописується назва сторінки, з якої цей текст, наприклад "MediaWiki:Jan/en". Виходячи з цієї інформації, ми можемо видати підказку на "MediaWiki:Jan/de", що дає можливість перекладачам швидко працювати, та й просто визначати, де використано такий вид перекладу.

Другий крок фільтрації забезпечується повнотекстовим пошуком. Визначення змішані за спеціальним алгоритмом. Спершу текст розбивається на сегменти (слова) з допомогою  MediaWiki. Якщо сегментів достатньо, відсівається все, що не є літерами слів, і впорядковується. Потім беремо перші десять унікальних слів довжиною щонайменше 5 байтів (5 букв англійською, але навіть і менші слова у мовах з мультибайтними кодовими точками). Ці слова потім зберігаються у повнотекстовому індексі для подальшої фільтрації у довших рядках.

Коли ми відфільтрувати список кандидатів, дістаємо з цільової таблиці те, що співпадає. Потім застосовується алгоритм відстані редагування Левенштейна для останнього фільтрування і ранжування. Давайте визначимо:


 * E : відстань редагування
 * S : текст, для якого шукаються підказки
 * Tc : текст підказки
 * To : вихідний текст, перекладом якого є Tc

Якість підказки Tc обраховується як E/min(length(Tc),length(To)). Залежно від довжини (length) рядків, ми користуємося або вбудованою функцією Левенштейна PHP, або, якщо будь-який з рядків довший, ніж 255 байтів, реалізацією алгоритму Левенштейна. Не перевірялось чи вбудована реалізація алгоритму Левенштейна коректно відображає мультибайтні символи. Це може бути ще одним слабким місцем, якщо мова джерела не англійська (іншими є повнотекстовий пошук і сегментація).