Help:Extension:Translate/Translation memories/uk

The Translate extension translation memory supports multiple backends. The available backends are database, Solr and ElasticSearch. This page helps you install the best one for you and explains their specifications in deeper detail.

Unlike other translation aids, for instance external machine translation services, the translation memory is constantly updated by new translations in your wiki. Advanced search across translations is also available at Special:SearchTranslations if you choose Solr or ElasticSearch.

Comparison
The database backend is used by default: it has no dependencies and doesn't need configuration. The database backend can't be shared among multiple wikis and it does not scale to large amounts of translated content. Hence we also support Solr and ElasticSearch backends. It is also possible to use another wiki's translation memory via their web API if open. Unlike the others, remote backends are not updated with translations from the current wiki.

ElasticSearch backend
ElasticSearch is relatively easy to set up. If it is not available in your distribution packages, you can get it from their website. You will also need to get the Elastica extension. Finally, please see for specific configuration needed by Translate.

The bootstrap script will create necessary schemas. If you are using ElasticSearch backend with multiple wikis, they will share the translation memory by default, unless you set the index parameter in the configuration.

Solr backend
Ось загальні швидкі кроки встановлення і налаштування Solr для TTMServer. Ви маєте адаптувати їх до своєї ситуації. To use Solr backend you also need Solarium library. The easiest way is to  install the Solarium extension. See the example configuration for Solr backend in the configuration section of this page. You can pass extra configuration to Solarium via the  key as done for example  in the.

Installation
After putting the requirements in place, installation requires you to tweak the configuration and then execute the bootstrap.

Configuration
All translation aids including translation memories are configured with the  configuration variable.

The primary translation memory backend must use the key. The primary backend receives translation updates and is used by Special:SearchTranslations.

Example configuration of TTMServers:

Можливі ключі і значення:

Currently only MySQL is supported for the database backend.

Bootstrap
When you have chosen Solr or ElasticSearch and set up the requirements and configuration, run  to bootstrap the translation memory. Bootstrapping is also required when changing translation memory backend. If you are using a shared translation memory backend for multiple wikis, you'll need to bootstrap each of them separately.

Sites with lots of translations should consider using multiple threads with the  parameter to speed up the process. The time depends heavily on how complete the message group completion stats are (incomplete ones will be calculated during the bootstrap). New translations are automatically added by a hook. New sources (message definitions) are added when the first translation is created.

Bootstrap does the following things, which don't happen otherwise:
 * adding and updating the translation memory schema;
 * populating the translation memory with existing translations;
 * cleaning up unused translation entries by emptying and re-populating the translation memory.

When the translation of a message is updated, the previous translation is removed from the translation memory. However, when translations are updated against a new definition, a new entry is added but the old definition and its old translations remain in the database until purged. When a message changes definition or is removed from all message groups, nothing happens immediately. Saving a translation as fuzzy does not add a new translation nor delete an old one in the translation memory.

Доступ до TTMServer через API
Якщо Ви хотіли б впровадити власний сервіс TTMServer, тут подано деякі технічні параметри.

Параметри запиту:

Ваш сервіс повинен прийняти такі параметри: Ваш сервіс повинен надавати об'єкт JSON, що мусить мати ключ  з масивом об'єктів. Ці об'єкти повинні містити такі дані: Приклад:


 * URL: http://translatewiki.net/w/api.php?action=ttmserver&sourcelanguage=en&targetlanguage=fi&text=january&format=jsonfm
 * Повертає:

Database backend
Backend містить три таблиці:,   і. Вони відповідають джерелам, цілям та повному тексту. Ви можете знайти визначення таблиць у. Джерела містять усі визначення повідомлень. Незважаючи на те, що зазвичай вони написані тією ж мовою, скажімо, англійською, мова тексту також зберігається, крім рідкісних винятків.

Кожен запис має унікальний id і два додаткові поля, "length" і "context". "Length" використовується як перший фільтр довжини, так що при подачі запиту не треба порівнювати текст, який ми шукаємо, з кожним записом у базі даних. У "context" прописується назва сторінки, з якої цей текст, наприклад "MediaWiki:Jan/en". Виходячи з цієї інформації, ми можемо видати підказку на "MediaWiki:Jan/de", що дає можливість перекладачам швидко працювати, та й просто визначати, де використано такий вид перекладу.

Другий крок фільтрації забезпечується повнотекстовим пошуком. Визначення змішані за спеціальним алгоритмом. Спершу текст розбивається на сегменти (слова) з допомогою  MediaWiki. Якщо сегментів достатньо, відсівається все, що не є літерами слів, і впорядковується. Потім беремо перші десять унікальних слів довжиною щонайменше 5 байтів (5 букв англійською, але навіть і менші слова у мовах з мультибайтними кодовими точками). Ці слова потім зберігаються у повнотекстовому індексі для подальшої фільтрації у довших рядках.

Коли ми відфільтрувати список кандидатів, дістаємо з цільової таблиці те, що співпадає. Потім застосовується алгоритм відстані редагування Левенштейна для останнього фільтрування і ранжування. Давайте визначимо:


 * E : відстань редагування
 * S : текст, для якого шукаються підказки
 * Tc : текст підказки
 * To : вихідний текст, перекладом якого є Tc

Якість підказки Tc обраховується як E/min(length(Tc),length(To)). Залежно від довжини (length) рядків, ми користуємося або вбудованою функцією Левенштейна PHP, або, якщо будь-який з рядків довший, ніж 255 байтів, реалізацією алгоритму Левенштейна. Не перевірялось чи вбудована реалізація алгоритму Левенштейна коректно відображає мультибайтні символи. Це може бути ще одним слабким місцем, якщо мова джерела не англійська (іншими є повнотекстовий пошук і сегментація).

Solr backend
Solr Solr search platform backend works similar to the database backend, except that it uses a dedicated search engine for increased speed. The results are by default ranked with the levenshtein algorithm on the Solr side, but other available string matching algorithms can also be used, like ngram matching for example.

У Solr немає таблиць. Натомість є документи з полями. Ось приклад документу: Кожен переклад і документація повідомлення мають свій документ. Щоб, власне кажучи, отримати підказки, ми спершу робимо пошук по відсортованому за подібністю рядків алгоритму для всіх документів вихідною мовою. Далі робимо інший запит на переклади для цих повідомлень, якщо вони є.

Використовуються численні перехоплення, щоб підтримувати базу даних пам'яті перекладів оновленою майже в реальному часі. Якщо користувач перекладає схожі повідомлення одне за одним, попередній переклад може (якщо він підходить) відобразитись як підказка для наступного повідомлення.

Новий переклад (якщо не застарілий)
 * 1) Створити документ

Оновлений переклад (якщо не застарілий)
 * 1) Видалити wiki:X language:Y message:Z
 * 2) Створити документ

Оновлене визначення повідомлення Усі існуючі документи для повідомлення залишаються, бо мають різні globalid.
 * 1) Створити новий документ

Переклад застарілий
 * 1) Видалити wiki:X language:Y message:Z

Зміна приналежності повідомлення до групи
 * 1) Видалити wiki:Z message:Z
 * 2) Створити документ (для усіх мов)

Повідомлення більше не використовується Усі подальші зміни до визначень або перекладів не оновлюються у пам'яті перекладів.
 * 1) Видалити wiki:Z message:Z
 * 2) Створити документ (для усіх мов)

Запит до пам'яті перекладів
 * 1) Зібрати подібні повідомлення зі strdist("message definition",content)
 * 2) Зібрати переклади з globalid:[A,B,C]

Пошуковий запит Може звужуватись до мови або групи повідомлень.
 * 1) Знайти усі співпадіння з text:"пошуковий запит"

Поля ідентифікатора Поле  ідентифікує переклад або визначення повідомлення унікально, комбінуючи такі поля: Використовуваний формат:.
 * вікі ідентифікатор (ID бази даних MediaWiki)
 * ідентифікатор повідомлення (Заголовок базової сторінки)
 * ідентифікатор версії повідомлення (ID версії сторінки визначення повідомлення)
 * мова повідомлення

На додачу, ми виділили окремі поля для вікі id, id повідомлення та мови, щоб зробити можливими запити на видалене, перераховані вище.