MinT/cs

MinT (Machine in Translation - „Překladatelský nástroj”) je služba, založená na open-source neurálních překladatelských modelech, která překladatelům nabízí strojový překlad. Je hostována v rámci infrastruktury Wikimedia Foundation a pracuje překlady, které vyprodukovaly jiné organizace pod některou z otevřených open source licencí. Strojový překlad, který staví na textech bez licenčního omezení, tak může být klíčovým prvkem základní infrastruktury ekosystému pro svobodné šíření znalostí. Tato stránka zahrnuje iniciativy, které mají vést k rozšíření této služby a její infrastruktury tak, aby mohla být dostupná v nejširším měřítku.

MinT je už součástí různých projektů, jako např. Překlad obsahu (Content translation), či Translatewiki.net, kde si můžete vyzkoušet jak se s ním pracuje. Ale také si ho můžete vyzkoušet přes testovací stránku.



Technologie MinT
MinT je navržen tak, aby nabízel překlady, které jsou výsledkem zpracování několika modelů strojového překladu. Zpočátku používá následující modely:


 * NLLB-200. Je nejnovější model strojového překladu. Jeho základem je No Language Left Behind project vývojářského týmu z Meta wiki. Tento model podporuje překládat texty mezi 200 jazyky, mezi nimiž je i řada jazyků, které nikdo jiný nepodporuje.
 * OpusMT. Jeho základem se stal OPUS (Open Parallel Corpus) project univerzity v Helsinkách. Obsah multijazyčných stránek, publikovaných pod svobodnou licencí, se využívá ke trénování modelu OpusMT. Každý tak může snadno být nápomocen při zlepšování kvality překladu tím, že zpřístupní své projekty, a tak přispěje k dalšímu rozšíření databáze se kterou pracuje OPUS. Takovým způsobem se například využijí překlady článků Wikipedie, které se tak stanou novým zdrojem dat, co umožní zlepšit kvalitu překladu u následujících verzí tohoto modelu díky tomu, že do něj začlení data, založená na publikovaných překladech. Velice rychle a efektivně můžete přispět také tím, že nahrajete své překlady vět na server Tatoeba.
 * IndicTrans2. Projekt IndicTrans2 nabízí překladové modely, které podporují překlad mezi více než 20 jazyků, z těch co se jimi hovoří v Indii. Za jeho vývojem je výzkumná skupina AI4Bharat@IIT z Indian Institute of Technology v Madrase. These models were developed by AI4Bharat@IIT Madras, a research group at the Indian Institute of Technology Madras.
 * Softcatalà. Je nezisková organizace, jejíž cílem je implementace katalánštiny do různých digitálních produktů. V rámci jejich projektu s názvem [$3 Softcatalà Translation], vytvořili překladové modely, které umožňují [$4 v rámci jejich překladatelské služby] využívat překladu z a do katalánštiny pro dalších 10 jazyků. As part of the Softcatalà Translation project, translation models used in their translator service to translate 10 languages to and from Catalan have been released.

MinT podporuje více než 200 jazyků, včetně více než 50 jazyků, které žádné jiné služby nepodporoují. A 27 z nich nemá zatím ani vlastní instanci Wikipedie. Podrobnější informace naleznete v článku věnovaném počátečnímu vydání MinT, a na stránce věnované této službě, kde naleznete také sekci, ve které jsou odpovědi i na několik často kladených otázek. You can read more about the initial release of MinT and check some frequently asked questions in the summary page for the service.



Technické podrobnosti
Překladové modely byly optimalizovány pro výkon pomocí OpenNMT Ctranslate2 knihovny, aby se vyhnulo potřebě akcelerace GPU. To usnadňuje organizacím a jednotlivcům vytvářet a provozovat vlastní instance. Další podrobnosti naleznete ve zdrojovém kódu, [$4 specifikaci API] a [$5 testovací instanci]. This makes it easier for organizations and individuals to build and run their own instances. For more details you can check the source code, the API spec, and a test instance.

MinT poskytuje platformu pro provozování více překladatelských modelů. Za účelem podpory různých iniciativ byly nad modely založené na prostém textu vyvinuty aspekty jako [$1 větná segmentace], detekce jazyka, před/po zpracování obsahu a podpora bohatého formátu. In order to support different initiatives, aspects such as sentence segmentation, language detection, pre/post-processing of contents, and rich format support has been developed on top of the plain-text based models.



Zapojte se
Neváhejte se podělit o jakoukoli zpětnou vazbu na stránce diskuze. Plánovaná vylepšení jsou zachycena ve Phabricatoru, můžete [$3 navrhovat vylepšení nebo nahlásit jakýkoli problém], sledovat průběh jakéhokoli úkolu a sdílet svůj pohled na něj. Pro dokončenou práci můžete také zkontrolovat aktualizace stavu níže. Planned improvements are captured in Phabricator, you can propose improvements or report any issue, track the progress of any task, and share your perspective on it. For completed work you can also check the status updates below.



MinT pro překladatele
Překlad je běžný způsob, jak přispívat do ekosystému Wikimedie pro vícejazyčné uživatele. Strojový překlad může uživatelům poskytnout užitečný počáteční překlad ke kontrole a vylepšení. Jazykový tým vyvinul nástroje na podporu překladů ve svých pracovních postupech, které mohou integrovat různé služby strojového překladu a urychlit jejich procesy. Jakmile byl MinT dostupný, jeho integrace s těmito nástroji byla dalším logickým krokem k zesílení jejich dopadu. MinT je k dispozici v následujících projektech: Translation is a common way to contribute in the Wikimedia ecosystem for multilingual users. Machine translation can provide a useful initial translation for users to review and improve. The Language team has developed tools to support translations in their workflows that can integrate different machine translation services to speed up their processes. Once MinT was available, integrating it with these tools was a logical next step to amplify their impact. MinT is available in the following projects:

Content Translation integrates several translation services to provide an initial translation. Communities of translators use it on Translatewiki.net, Wikimedia Meta-wiki, Mediawiki.org and more.
 * Překlad obsahu. Překlad obsahu poskytuje návod, jak vytvořit překlad článku na Wikipedii do jiného jazyka. Překlad obsahu integruje několik překladatelských služeb a poskytuje počáteční překlad.
 * Lokalizační infrastruktura. Rozšíření Translate poskytuje infrastrukturu používanou k překladu našeho softwaru a vícejazyčných stránek. Komunity překladatelů jej používají na Translatewiki.net, Wikimedia Meta-wiki, $4 a dalších.



MinT pro čtenáře Wikipedie
Počet témat a množství informací, o kterých se čtenář může z Wikipedie dozvědět, závisí na jazycích, kterými mluví. Strojový překlad může lidem pomoci dozvědět se více o tématech, která je zajímají, když obsah není dostupný v jejich jazyce. Machine translation can help people to learn more about their topics of interest when the content is not available in their language.

Tato iniciativa zkoumá, jak zpřístupnit podporu strojového překladu od MinT v článcích Wikipedie způsobem, který:


 * Umožňuje čtenářům dozvědět se více o tématech zájmu z jiných jazyků
 * Jasně odlišuje automaticky generovaný obsah od obsahu vytvořeného komunitou.
 * Pokud je to možné, vybízí k přispívání k obsahu vytvořenému komunitou.

V současné době jazykový tým pracuje na návrhu a výzkumných aspektech projektu, aby identifikoval nejlepší způsoby, jak zpřístupnit MinT na Wikipedii, a technické průzkumy, aby služba fungovala v tomto kontextu.



MinT dostupnější
Práce na předchozích iniciativách pomůže vylepšit a zpevnit systém. Prozatím je MinT API dostupné pouze pro produkty Wikimedie. Až se systém připraví, zvážíme širší expozici. Poskytování služby, kterou mohou komunity využívat inovativním způsobem, může být velmi mocným nástrojem. V budoucnu zde budou zachyceny nové iniciativy k širší dostupnosti MinT. Mezitím si můžete nakonfigurovat vlastní instanci MinT a experimentovat s ní. For now, the MinT API is only available for Wikimedia products. As the system gets ready, we'll consider a wider exposure. Providing a service that can be used by communities in innovative ways can be a very powerful tool. New initiatives to make MinT more widely available will be captured here in the future. Meanwhile, feel free to configure your own MinT instance to experiment with it.



A message well received by the attendees.
 * Dokončen počáteční průzkum designu pro ilustraci 5 konceptů, jak zobrazit strojově přeložený obsah z jiných jazyků pro články na Wikipedii
 * Dokončeno povolení MinT v překladu obsahu pro Lingurian, kde komunita požadovala další vysvětlení ohledně MinT, a poslední sada 14 jazyků, které by mohly být podporovány modelem NLLB-200.
 * Povoleno MinT pro přeložitelné stránky na testovací wiki
 * Rozšířená expozice MinT s umožněním překladu obsahu pro mobilní zařízení a počítače jako výchozí v 7 Wikipediích podporovaných MinT (čerokézština, tonžština, maďarština, kazašština, kyrgyzština, minangkabau a sardinština).
 * Dokončeno ověření pro všechny jazyky podporované překladatelskými modely používanými MinT jako součást finálního QA pro aktivaci nové překladatelské služby.
 * Santhosh prezentovaný na 10. workshopu o asijském překladu, zdůrazňující nutnost, aby strojový překlad byl univerzální, bezplatný a dostupný ve více jazycích. Zpráva [$4 dobře přijata účastníky].
 * Plánování výzkumu začalo počátečním návrhem výzkumného zadání pro MinT na Wikipedii
 * Pokračující technické zkoumání aplikace strojového překladu mimo prostý text (co poskytují základní modely) na podporu kontextu Wikipedie: Nový vylepšený přístup pro segmentaci vět (s ukázkovou stránkou k vyzkoušení), který poskytuje přesnější způsob identifikace, kdy věta končí v různých jazycích, a přednostně se vyvarovat rozdělení v případě pochybností (upřednostňuje se v kontextu strojového překladu, aby se zabránilo fragmentaci kontextu překladu, například nesprávná interpretace tečky zkratky jako tečky ).


 * Úspěšný průzkum použití MinT k překladu strukturovaných formátů, jako jsou HTML, SVG a markdown.
 * Dokončeno ukončení podpory Youdao, externí překladatelské služby, která dlouhou dobu selhávala.
 * Pokračující průzkum vývoje pro MinT na Wikipedii s novými a aktualizovanými pracovními postupy na základě zpětné vazby.
 * Identifikované jazyky, které mohou nejvíce těžit z nových modelů OpusMT
 * Vytvořeno MinT jako výchozí překladatelská služba pro Zulu v Content Translation


 * Povolen strojový překlad s MinT (a komunikace s komunitami) pro 75 nových jazyků: 62 jazyků, kde je k dispozici mobilní překlad, a 13 jazyků, kde kvalita překladu z jiných služeb nemusí být ideální na základě údajů zprávy o použití MT anebo zpětné vazby komunity.
 * Ověření předchozích aktivací: Identifikované problémy s Bhojpuri a s lotyštinou, kdy MinT nebyl k dispozici kvůli neshodám s jazykovými kódy používanými Wikipediemi, MinT a základními překladatelskými modely.
 * Počáteční průzkumy designu a prototypy o způsobech, jak bychom mohli integrovat MinT do Wikipedie
 * Vylepšené následné zpracování překladu Mint pro lepší podporu jazyků používajících arabské písmo tím, že se vyhnete dalším krokům po tečkách.
 * Dokončení integrace modelu IndicTrans2 ověřením aktivace všech jejich 23 podporovaných jazyků.
 * Počáteční analýza aktivity pro komunity Wikipedie, které jsou poprvé podporovány MinT, aby se identifikovaly potenciální pilotní wikiny pro budoucí výzkum a jako první uživatelé.
 * Povolení MinT na translatewiki.net pro použití při lokalizaci Wikimedie a dalších otevřených projektů.