Nápověda:Rozšíření:Překlad/Překladové paměti

From mediawiki.org
Jump to navigation Jump to search
This page is a translated version of the page Help:Extension:Translate/Translation memories and the translation is 100% complete.
Other languages:
Deutsch • ‎English • ‎Lëtzebuergesch • ‎Nederlands • ‎Zazaki • ‎dansk • ‎español • ‎français • ‎lietuvių • ‎polski • ‎português • ‎português do Brasil • ‎čeština • ‎български • ‎русский • ‎українська • ‎العربية • ‎فارسی • ‎தமிழ் • ‎中文 • ‎日本語

Rozšíření překladové paměti podporuje ElasticSearch. Cílem této stránky je provést vás při instalaci ElasticSearch a podrobněji prozkoumat jeho specifikace.

Na rozdíl od jiných překladových pomůcek, například externích služeb strojového překladu, je překladová paměť neustále aktualizována novými překlady na vaší wiki. Rozšířené vyhledávání v překladech je také k dispozici na stránce Special: SearchTranslations, pokud se rozhodnete použít ElasticSearch.

Srovnání

Ve výchozím nastavení se používá databázový backend: nemá žádné závislosti a nevyžaduje konfiguraci. Databázový backend nelze sdílet mezi více wiki a nemění se na velké množství přeloženého obsahu. Proto také podporujeme ElasticSearch jako backend. Je také možné použít jinou překladovou paměť wiki, pokud je jejich webové API otevřené. Na rozdíl od ElasticSearch nejsou vzdálené backendy aktualizovány překlady z aktuální wiki.

Databáze Vzdálené API ElasticSearch
Ve výchozím nastavení povoleno Ano Ne Ne
Může mít více zdrojů Ne Ano Ano
Aktualizováno místními překlady Ano Ne Ano
Přímý přístup k databázi Ano Ne Ne
Přístup ke zdroji Editoři Odkaz Editor, pokud je místní nebo odkaz
Lze sdílet jako službu API Ano Ano Ano
Výkon Není správné měřítko Neuvedeno Rozumné

Požadavky

ElasticSearch backend

Nastavení ElasticSearch je relativně snadné. Pokud není ve vašich distribučních balíčcích k dispozici, můžete si jej stáhnout z jejich webových stránek. Budete také muset získat Elastica rozšíření. Nakonec se podívejte na puppet/modules/elasticsearch/files/elasticsearch.yml pro konkrétní konfiguraci potřebnou pro překlad.

Skript bootstrap vytvoří potřebná schémata. Pokud používáte backend ElasticSearch s více wiki, budou ve výchozím nastavení sdílet překladovou paměť. Pokud nenastavíte parametr indexu v konfiguraci.

Při upgradu na další hlavní verzi ElasticSearch (např. Upgrade z 2.x na 5.x) se důrazně doporučuje přečíst poznámky k verzi a dokumentaci týkající se procesu upgradu.

Instalace

Po splnění požadavků vyžaduje instalace vyladění konfigurace a provedení spouštěcího pruhu.

Konfigurace

Všechny překladové pomůcky včetně překladových pamětí jsou konfigurovány pomocí konfigurační proměnné $wgTranslateTranslationServices.

Backend primární překladové paměti musí používat klíč TTMServer. Primární backend přijímá aktualizace překladu a používá jej Special:SearchTranslations.

Příklad konfigurace TTMServers:

Výchozí konfigurace
$wgTranslateTranslationServices['TTMServer'] = array(
        'database' => false, // Passed to wfGetDB
        'cutoff' => 0.75,
        'type' => 'ttmserver',
        'public' => false,
);
Vzdálená konfigurace API
$wgTranslateTranslationServices['example'] = array(
        'url' => 'http://example.com/w/api.php',
        'displayname' => 'example.com',
        'cutoff' => 0.75,
        'timeout' => 3,
        'type' => 'ttmserver',
        'class' => 'RemoteTTMServer',
);
Konfigurace backendu ElasticSearch
$wgTranslateTranslationServices['TTMServer'] = array(
        'type' => 'ttmserver',
        'class' => 'ElasticSearchTTMServer',
        'cutoff' => 0.75,
        /*
         * See http://elastica.io/getting-started/installation.html
         * See https://github.com/ruflin/Elastica/blob/master/lib/Elastica/Client.php
        'config' => This will be passed to \Elastica\Client
         */
);
Konfigurace více backendů ElasticSearch (podporováno MLEB 2017.04)
// Definuje výchozí službu používanou pro operace čtení
// Umožňuje rychle přepnout na jiný backend
$wgTranslateTranslationDefaultService = 'cluster1';
$wgTranslateTranslationServices['cluster1'] = array(
        'type' => 'ttmserver',
        'class' => 'ElasticSearchTTMServer',
        'cutoff' => 0.75,
        /*
         * Definuje seznam služeb, do kterých se replikují zápisy.
         * Jsou zde povoleny pouze "zapisovatelné" služby.
         */
        'mirrors' => [ 'cluster2' ],
        'config' => [ 'servers' => [ 'host' => 'elastic1001.cluster1.mynet' ] ]
);
$wgTranslateTranslationServices['cluster2'] = array(
        'type' => 'ttmserver',
        'class' => 'ElasticSearchTTMServer',
        'cutoff' => 0.75,
        /*
         * pokud je "cluster2" definován jako výchozí služba, začne se replikovat zápisy do "cluster1".
         */
        'mirrors' => [ 'cluster1' ],
        'config' => [ 'servers' => [ 'host' => 'elastic2001.cluster2.mynet' ] ]
);

Možné klíče a hodnoty jsou:

Klíč Platí pro Popis
config ElasticSearch Konfigurace předána Elastice.
cutoff Vše Minimální prahová hodnota pro odpovídající návrh. Uvádí se pouze několik nejlepších návrhů, i když by jich bylo více nad prahem.
database Místní Pokud chcete ukládat překladovou paměť na jiném místě, můžete zde zadat název databáze. Musíte také nakonfigurovat vyrovnávač zatížení MediaWiki, abyste věděli, jak se připojit k této databázi.
displayname Vzdálený Text zobrazený v popisku, když umístíte kurzor na zdrojový odkaz návrhu (odrážky).
index ElasticSearch Index, který se použije v ElasticSearch. Výchozí: ttmserver.
public Vše Zda lze tento TTMServer dotazovat prostřednictvím api.php této wiki.
replicas ElasticSearch Pokud používáte klastr, můžete zvýšit počet replik. Výchozí: 0.
shards ElasticSearch Kolik shards použít. Výchozí: 5.
timeout Vzdálený Jak dlouho v sekundách čekat na odpověď od vzdálené služby.
type Vše Typ serveru TTMS z hlediska formátu výsledků.
url Vzdálený URL pro api.php vzdáleného TTMServeru.
use_wikimedia_extra ElasticSearch Boolean, když je nasazen the extra plugin, můžete deaktivovat dynamické skriptování na Elastic v1.x. Tento plugin je nyní povinný pro klastry Elastic 2.x.
mirrors Pisatelné služby Pole řetězců, definuje seznam služeb, na které se replikují zápisy, umožňuje udržovat aktuální více služeb TTM. Užitečné pro rychlé přepínání nebo ke snížení prostojů během plánovaných údržbářských operací (přidáno v MLEB 2017.04)
Klíč TTMServer musíte použít jako index pole pro $wgTranslateTranslationServices, pokud chcete aktualizovat překladovou paměť novými překlady. Vzdálené servery TTMS na to nelze použít, protože je nelze aktualizovat. Od MLEB 2017.04 může být klíč TTMServer konfigurován s konfigurační proměnnou $wgTranslateTranslationDefaultService. Support for Solr backend was dropped in MLEB-2019.10, in October, 2019.

V současné době je pro backend databáze podporována pouze MySQL.

Bootstrap

Jakmile vyberete ElasticSearch a nastavíte požadavky a konfiguraci, spusťte ttmserver-export.php a zavádějte překladovou paměť. Bootstrapping je vyžadován také při změně backend překladové paměti. Pokud používáte backend sdílené překladové paměti pro více wiki, musíte každou z nich zavést samostatně.

Weby se spoustou překladů by měly zvážit použití více vláken s parametrem --thread, aby se proces urychlil. Čas do značné míry závisí na tom, jak kompletní jsou statistiky dokončení skupiny zpráv (neúplné budou vypočteny během zavádění systému). Nové překlady jsou automaticky přidávány háčkem. Při vytvoření prvního překladu jsou přidány nové zdroje (definice zpráv).

Bootstrap dělá následující věci, které se nestávají jinak:

  • přidávání a aktualizace schématu překladové paměti;
  • naplnění překladové paměti stávajícími překlady;
  • vyčištění nepoužívaných překladových záznamů vyprázdněním a opětovným naplněním překladové paměti.

Po aktualizaci překladu zprávy se předchozí překlad odstraní z překladové paměti. Když se však překlady aktualizují oproti nové definici, přidá se nová položka, ale stará definice a její staré překlady zůstanou v databázi, dokud nebudou vymazány. Když zpráva změní definici nebo je odstraněna ze všech skupin zpráv, nic se nestane okamžitě. Uložení překladu jako fuzzy nepřidá nový překlad ani neodstraní starý překlad v překladové paměti.

TTMServer API

Pokud byste chtěli implementovat vlastní službu TTMServer, zde jsou specifikace.

Parametry dotazu:

Vaše služba musí akceptovat následující parametry:

Klíč Hodnota
format json
action ttmserver
service Volitelný identifikátor služby, pokud existuje více sdílených překladových pamětí. Pokud není poskytnuta, předpokládá se výchozí služba.
sourcelanguage Kód jazyka používaný v MediaWiki, viz IETF a ISO693?
targetlanguage Kód jazyka používaný v MediaWiki, viz IETF a ISO693?
test Zdrojový text ve zdrojovém jazyce

Vaše služba musí poskytnout objekt JSON, který musí mít klíč ttmserver s řadou objektů. Tyto objekty musí obsahovat následující údaje:

Klíč Hodnota
source Původní zdrojový text.
target Návrh překladu.
context Místní identifikátor zdroje, nepovinný.
location URL na stránku, na které se návrh zobrazuje.
quality Desítkové číslo v rozsahu [0..1] popisující kvalitu návrhu. 1 znamená perfektní shoda.

Příklad:

{
        "ttmserver": [
                {
                        "source": "January",
                        "target": "tammikuu",
                        "context": "Wikimedia:Messages\\x5b'January'\\x5d\/en",
                        "location": "https:\/\/translatewiki.net\/wiki\/Wikimedia:Messages%5Cx5b%27January%27%5Cx5d\/fi",
                        "quality": 0.85714285714286
                },
                {
                        "source": "January",
                        "target": "tammikuu",
                        "context": "Mantis:S month january\/en",
                        "location": "https:\/\/translatewiki.net\/wiki\/Mantis:S_month_january\/fi",
                        "quality": 0.85714285714286
                },
                {
                        "source": "January",
                        "target": "Tammikuu",
                        "context": "FUDforum:Month 1\/en",
                        "location": "https:\/\/translatewiki.net\/wiki\/FUDforum:Month_1\/fi",
                        "quality": 0.85714285714286
                },
                {
                        "source": "January",
                        "target": "tammikuun",
                        "context": "MediaWiki:January-gen\/en",
                        "location": "https:\/\/translatewiki.net\/wiki\/MediaWiki:January-gen\/fi",
                        "quality": 0.85714285714286
                },
                {
                        "source": "January",
                        "target": "tammikuu",
                        "context": "MediaWiki:January\/en",
                        "location": "https:\/\/translatewiki.net\/wiki\/MediaWiki:January\/fi",
                        "quality": 0.85714285714286
                }
        ]
}

Backend databáze

Backend obsahuje tři tabulky: translate_tms, translate_tmt a translate_tmf. Odpovídají zdrojům, cílům a fulltextům. Definice tabulky najdete v sql/translate_tm.sql. Zdroje obsahují všechny definice zpráv. I když jsou obvykle vždy ve stejném jazyce, řekněme anglicky, jazyk textu je také uložen pro vzácné případy, což není pravda.

Každá položka má jedinečné id a dvě další pole, délku a kontext. Délka se používá jako filtr prvního průchodu, takže při dotazování nemusíme porovnávat hledaný text s každou položkou v databázi. Kontext ukládá název stránky, odkud text pochází, například "MediaWiki:Jan/en". Z těchto informací můžeme návrhy propojit zpět na "MediaWiki:Jan/de", což umožňuje překladatelům rychle opravit věci nebo jen určit, kde byl tento druh překladu použit.

Druhý průchod filtrování pochází z fulltextového vyhledávání. Definice se mísí s ad hoc algoritmem. Nejprve je text rozdělen do segmentů (slov) pomocí Language::segmentByWord od MediaWiki. Pokud je k dispozici dostatek segmentů, v podstatě odejmeme všechno, co není slovo, a normalizujeme případ. Potom vezmeme prvních deset jedinečných slov, která jsou dlouhá alespoň 5 bajtů (5 písmen v angličtině, ale i kratší slova pro jazyky s vícebajtovými kódovými body). Tato slova jsou potom uložena v fulltextovém indexu pro další filtrování pro delší řetězce.

Když jsme vyfiltrovali seznam kandidátů, načteme odpovídající cíle z tabulky cílů. Potom použijeme levenshtein editovací algoritmus vzdálenosti, abychom provedli finální filtrování a hodnocení. Definujme:

E
uprava vzdálenosti
S
text, který hledáme návrhy
Tc
text návrhu
To
původní text, do kterého Tc překládá

Kvalita návrhu Tc se počítá jako E/min (délka (Tc), délka (To)). V závislosti na délce řetězců používáme: buď nativní funkci levenshteinu PHP; nebo, pokud je některý z řetězců delší než 255 bajtů, implementace algoritmu levenshtein v PHP. [1] Nebylo testováno, zda nativní implementace levenshtein správně zpracovává vícebajtové znaky. To může být další slabou stránkou, pokud zdrojovým jazykem není angličtina (ostatní jsou fulltextové vyhledávání a segmentace).