Jump to content

MinT

From mediawiki.org
This page is a translated version of the page MinT and the translation is 100% complete.

MinT (Machine in Translation - „Překladatelský nástroj”) je služba, založená na open-source neurálních překladatelských modelech, která překladatelům nabízí strojový překlad. Je hostována v rámci infrastruktury Wikimedia Foundation a pracuje překlady, které vyprodukovaly jiné organizace pod některou z otevřených open source licencí. Strojový překlad, který staví na textech bez licenčního omezení, tak může být klíčovým prvkem základní infrastruktury ekosystému pro svobodné šíření znalostí. Tato stránka zahrnuje iniciativy, které mají vést k rozšíření této služby a její infrastruktury tak, aby mohla být dostupná v nejširším měřítku.

MinT je už součástí různých projektů, jako např. Překlad obsahu (Content translation), či translatewiki.net, kde si můžete vyzkoušet jak se s ním pracuje. Ale také si ho můžete vyzkoušet přes testovací stránku.

Přehled iniciativ MinT

Strojový překlad může být užitečný v různých kontextech. Protože více produktů využívá MinT pro různé účely, je užitečné tyto různé kontexty rozlišovat. Tímto způsobem, když uživatelé nahlásí chybu, je jasnější, kde je třeba ji opravit.

  • MinT Service. Backendová služba provozující open-source modely neuronového strojového překladu.
    • MinT test instance. Základní rozhraní pro vyzkoušení různých modelů překladu.
  • MinT for Translators. Iniciativa k integraci služby MinT s nástroji, které podporují další služby strojového překladu, jako je Content Translation a Translate Extension.
    • MinT Client for Content Translation. Klient vystavuje službu MinT jako jednu ze služeb strojového překladu dostupných v Content Translation.
    • MinT Client for Translate extension. Klient vystavuje službu MinT jako jednu ze služeb strojového překladu dostupných v rozšíření Translate.
  • MinT for Wiki Readers. Produkt umožňující čtenářům používat strojový překlad ke čtení obsahu z jiných jazyků na wiki.

Níže si můžete přečíst více o každé z iniciativ MinT.

Zapojte se

Neváhejte se podělit o jakoukoli zpětnou vazbu na stránce diskuze. Plánovaná vylepšení jsou zachycena ve Phabricatoru (více informací nejdete zde), můžete nahlásit špatné chování nebo navrhnout vylepšení funkcí, sledovat průběh jakéhokoli úkolu a sdílet svůj pohled na něj. Pro dokončenou práci můžete také zkontrolovat aktualizace stavu níže.

Služba MinT

Služba MinT je navržena tak, aby nabízela překlady, které jsou výsledkem zpracování několika modelů strojového překladu. V současné době používá následující modely:

  • NLLB-200. Je nejnovější model strojového překladu. Jeho základem je Projekt No Language Left Behind vývojářského týmu z Meta wiki. Tento model podporuje překládat texty mezi 200 jazyky, mezi nimiž je i řada jazyků, které nikdo jiný nepodporuje.
  • OpusMT. Jeho základem se stal projekt OPUS (Open Parallel Corpus) univerzity v Helsinkách. Obsah multijazyčných stránek, publikovaných pod svobodnou licencí, se využívá ke trénování modelu OpusMT. Každý tak může snadno být nápomocen při zlepšování kvality překladu tím, že zpřístupní své projekty, a tak přispěje k dalšímu rozšíření databáze se kterou pracuje OPUS. Takovým způsobem se například využijí překlady článků Wikipedie, které se tak stanou novým zdrojem dat, co umožní zlepšit kvalitu překladu u následujících verzí tohoto modelu díky tomu, že do něj začlení data, založená na publikovaných překladech. Velice rychle a efektivně můžete přispět také tím, že nahrajete své překlady vět na server Tatoeba.
  • IndicTrans2. Projekt IndicTrans2 nabízí modely, které podporují překlad mezi více než 20 jazyků, používaných v Indii. Tyto modely byly vyvinuty AI4Bharat@IIT Madras, výzkumnou skupinou na Indian Institute of Technology, Madras.
  • Softcatalà. Je nezisková organizace, jejíž cílem je implementace katalánštiny do různých digitálních produktů. V rámci jejich projektu s názvem Softcatalà Translation, vytvořili překladové modely, které umožňují v rámci jejich překladatelské služby využívat překladu z a do katalánštiny pro dalších 10 jazyků.
  • MADLAD-400. MADLAD-400 is a multilingual machine translation model by Google Research that supports 419 languages.

MinT podporuje více než 200 jazyků, včetně více než 70 jazyků, které žádné jiné služby nepodporují. A 27 z nich nemá zatím ani vlastní instanci Wikipedie. Podrobnější informace naleznete v článku věnovaném počátečnímu vydání MinT a na stránce věnované této službě, kde naleznete také sekci, ve které jsou odpovědi i na několik často kladených otázek.

Technické podrobnosti

Překladové modely byly optimalizovány pro výkon pomocí knihovny OpenNMT Ctranslate2, aby se vyhnulo potřebě akcelerace GPU. To usnadňuje organizacím a jednotlivcům vytvářet a provozovat vlastní instance. Pro více podrobností můžete zkontrolovat následující:

MinT poskytuje platformu pro provozování více překladatelských modelů. Za účelem podpory různých iniciativ byly nad modely založené na prostém textu vyvinuty aspekty jako větná segmentace, detekce jazyka, před/po zpracování obsahu a podpora bohatého formátu.

Testovací instance

testovací instance MinT je základní rozhraní pro vyzkoušení různých modelů překladu. Umožňuje překládat obsah mezi vybranými jazykovými páry a vybrat preferovaný model překladu, pokud je k dispozici více. To umožňuje různým komunitám zkontrolovat, jak dobře modely podporují jejich jazyk. Tato instance je určena pro testování, takže výkon a dostupnost mohou být ve srovnání s jinými produkty založenými na MinT sníženy. Můžete zkontrolovat stav dostupnosti testovací instance MinT.

MinT pro překladatele

Mobilní překlad pomocí MinT

Překlad je běžný způsob, jak přispívat do ekosystému Wikimedie pro vícejazyčné uživatele. Strojový překlad může uživatelům poskytnout užitečný počáteční překlad ke kontrole a vylepšení. Jazykový tým vyvinul nástroje na podporu překladů ve svých pracovních postupech, které mohou integrovat různé služby strojového překladu a urychlit jejich procesy. Jakmile byl MinT dostupný, jeho integrace s těmito nástroji byla dalším logickým krokem k zesílení jejich dopadu. MinT je k dispozici v následujících projektech:


MinT pro čtenáře wiki

Počet témat a množství informací, o kterých se čtenář může z Wikipedie a jiných wikin dozvědět, závisí na jazycích, kterými mluví. Strojový překlad může lidem pomoci dozvědět se více o tématech, která je zajímají, když obsah není dostupný v jejich jazyce.

Tato iniciativa zkoumá, jak zpřístupnit podporu strojového překladu od MinT v článcích Wikipedie způsobem, který:

  • Umožňuje čtenářům dozvědět se více o tématech zájmu z jiných jazyků
  • Jasně odlišuje automaticky generovaný obsah od obsahu vytvořeného komunitou.
  • Pokud je to možné, vybízí k přístupu k obsahu vytvořenému komunitou a přispívání k němu.

V současné době jazykový tým pracuje na počáteční implementaci pro tuto iniciativu na základě výzkumu a návrhů. Poznatky založené na datech a vstupu komunity určí další kroky iniciativy.

MinT dostupnější

Práce na předchozích iniciativách pomůže vylepšit a zpevnit systém. Prozatím je MinT API dostupné pouze pro produkty Wikimedie. Až se systém připraví, zvážíme širší expozici. Poskytování služby, kterou mohou komunity využívat inovativním způsobem, může být velmi mocným nástrojem. V budoucnu zde budou zachyceny nové iniciativy k širší dostupnosti MinT. Mezitím si můžete nakonfigurovat vlastní instanci MinT a experimentovat s ní.

Zřeknutí se odpovědnosti

  1. Accuracy of MinT’s Translations - Přesnost překladů generovaných MinT se může lišit. Překlady nemusí být zcela přesné nebo nemusí vždy vyjadřovat zamýšlený význam nebo kontext původního obsahu. Wikimedia neposkytuje žádná prohlášení ani záruky týkající se přesnosti nebo přiměřenosti automaticky přeloženého obsahu.
  2. Limitation of Liability - Wikimedia, její přidružené společnosti a zaměstnanci nenesou odpovědnost za žádné přímé, nepřímé, náhodné, represivní nebo následné škody, včetně, ale bez omezení na škody za dobré jméno, použití, data nebo jakékoli jiné nehmotné ztráty vyplývající z nebo v souvislosti s použití MinT nebo překladů generovaných pomocí MinT.
  3. Creative Commons Compliance - Překlady generované pomocí MinT jsou považovány za odvozená díla podle platné licence Creative Commons, která upravuje původní obsah. Uživatelé musí při používání přeloženého obsahu dodržovat podmínky příslušné licence Creative Commons.
  4. Terms of Use and Privacy Policy - Používání MinT podléhá Zásadám použití a Zásadám ochrany osobních údajů Wikimedie.

Aktualizace stavu

února 2024

ledna 2024

prosince 2023

listopadu 2023

října 2023

září 2023

srpna 2023

července 2023