Help:Extension:Translate/Translation memories/cs

Rozšíření překladové paměti podporuje ElasticSearch. Cílem této stránky je provést vás při instalaci ElasticSearch a podrobněji prozkoumat jeho specifikace.

Na rozdíl od jiných překladových pomůcek, například externích služeb strojového překladu, je překladová paměť neustále aktualizována novými překlady na vaší wiki. Rozšířené vyhledávání v překladech je také k dispozici na stránce Special: SearchTranslations, pokud se rozhodnete použít ElasticSearch.

Srovnání
Ve výchozím nastavení se používá databázový backend: nemá žádné závislosti a nevyžaduje konfiguraci. Databázový backend nelze sdílet mezi více wiki a nemění se na velké množství přeloženého obsahu. Proto také podporujeme ElasticSearch jako backend. Je také možné použít jinou překladovou paměť wiki, pokud je jejich webové API otevřené. Na rozdíl od ElasticSearch nejsou vzdálené backendy aktualizovány překlady z aktuální wiki.

ElasticSearch backend
Nastavení ElasticSearch je relativně snadné. Pokud není ve vašich distribučních balíčcích k dispozici, můžete si jej stáhnout z jejich webových stránek. Budete také muset získat Elastica rozšíření. Nakonec se podívejte na pro konkrétní konfiguraci potřebnou pro překlad.

Skript bootstrap vytvoří potřebná schémata. Pokud používáte backend ElasticSearch s více wiki, budou ve výchozím nastavení sdílet překladovou paměť. Pokud nenastavíte parametr indexu v konfiguraci.

Při upgradu na další hlavní verzi ElasticSearch (např. Upgrade z 2.x na 5.x) se důrazně doporučuje přečíst poznámky k verzi a dokumentaci týkající se procesu upgradu.

Instalace
Po splnění požadavků vyžaduje instalace vyladění konfigurace a provedení spouštěcího pruhu.

Konfigurace
Všechny překladové pomůcky včetně překladových pamětí jsou konfigurovány pomocí konfigurační proměnné.

Backend primární překladové paměti musí používat klíč. Primární backend přijímá aktualizace překladu a používá jej Special:SearchTranslations.

Příklad konfigurace TTMServers:

Možné klíče a hodnoty jsou:

V současné době je pro backend databáze podporována pouze MySQL.

Bootstrap
Jakmile vyberete ElasticSearch a nastavíte požadavky a konfiguraci, spusťte  a zavádějte překladovou paměť. Bootstrapping je vyžadován také při změně backend překladové paměti. Pokud používáte backend sdílené překladové paměti pro více wiki, musíte každou z nich zavést samostatně.

Weby se spoustou překladů by měly zvážit použití více vláken s parametrem, aby se proces urychlil. Čas do značné míry závisí na tom, jak kompletní jsou statistiky dokončení skupiny zpráv (neúplné budou vypočteny během zavádění systému). Nové překlady jsou automaticky přidávány háčkem. Při vytvoření prvního překladu jsou přidány nové zdroje (definice zpráv).

Bootstrap dělá následující věci, které se nestávají jinak:
 * přidávání a aktualizace schématu překladové paměti;
 * naplnění překladové paměti stávajícími překlady;
 * vyčištění nepoužívaných překladových záznamů vyprázdněním a opětovným naplněním překladové paměti.

Po aktualizaci překladu zprávy se předchozí překlad odstraní z překladové paměti. Když se však překlady aktualizují oproti nové definici, přidá se nová položka, ale stará definice a její staré překlady zůstanou v databázi, dokud nebudou vymazány. Když zpráva změní definici nebo je odstraněna ze všech skupin zpráv, nic se nestane okamžitě. Uložení překladu jako fuzzy nepřidá nový překlad ani neodstraní starý překlad v překladové paměti.

TTMServer API
Pokud byste chtěli implementovat vlastní službu TTMServer, zde jsou specifikace.

Parametry dotazu:

Vaše služba musí akceptovat následující parametry:

Your service must provide a JSON object that must have the key  with an array of objects. Those objects must contain the following data:

Example:


 * URL: http://translatewiki.net/w/api.php?action=ttmserver&sourcelanguage=en&targetlanguage=fi&text=january&format=jsonfm
 * Response:

Database backend
The backend contains three tables:,   and. Those correspond to sources, targets and fulltext. You can find the table definitions in. The sources contain all the message definitions. Even though usually they are always in the same language, say, English, the language of the text is also stored for the rare cases this is not true.

Each entry has a unique id and two extra fields, length and context. Length is used as the first pass filter, so that when querying we don't need to compare the text we're searching with every entry in the database. The context stores the title of the page where the text comes from, for example "MediaWiki:Jan/en". From this information we can link the suggestions back to "MediaWiki:Jan/de", which makes it possible for translators to quickly fix things, or just to determine where that kind of translation was used.

The second pass of filtering comes from the fulltext search. The definitions are mingled with an ad hoc algorithm. First the text is segmented into segments (words) with MediaWiki's. If there are enough segments, we strip basically everything that is not word letters and normalize the case. Then we take the first ten unique words, which are at least 5 bytes long (5 letters in English, but even shorter words for languages with multibyte code points). Those words are then stored in the fulltext index for further filtering for longer strings.

When we have filtered the list of candidates, we fetch the matching targets from the targets table. Then we apply the levenshtein edit distance algorithm to do the final filtering and ranking. Let's define:


 * E : edit distance
 * S : the text we are searching suggestions for
 * Tc : the suggestion text
 * To : the original text which the Tc is translation of

The quality of suggestion Tc is calculated as E/min(length(Tc),length(To)). Depending on the length of the strings, we use: either PHP's native levenshtein function; or, if either of the strings is longer than 255 bytes, the PHP implementation of levenshtein algorithm. It has not been tested whether the native implementation of levenshtein handles multibyte characters correctly. This might be another weak point when source language is not English (the others being the fulltext search and segmentation).