MinT
MinT (Machine in Translation - „Překladatelský nástroj”) je služba, založená na open-source neurálních překladatelských modelech, která překladatelům nabízí strojový překlad. Je hostována v rámci infrastruktury Wikimedia Foundation a pracuje překlady, které vyprodukovaly jiné organizace pod některou z otevřených open source licencí. Strojový překlad, který staví na textech bez licenčního omezení, tak může být klíčovým prvkem základní infrastruktury ekosystému pro svobodné šíření znalostí. Tato stránka zahrnuje iniciativy, které mají vést k rozšíření této služby a její infrastruktury tak, aby mohla být dostupná v nejširším měřítku.
MinT je už součástí různých projektů, jako např. Překlad obsahu (Content translation), či translatewiki.net, kde si můžete vyzkoušet jak se s ním pracuje. Ale také si ho můžete vyzkoušet přes testovací stránku.
Přehled iniciativ MinT
Strojový překlad může být užitečný v různých kontextech. Protože více produktů využívá MinT pro různé účely, je užitečné tyto různé kontexty rozlišovat. Tímto způsobem, když uživatelé nahlásí chybu, je jasnější, kde je třeba ji opravit.
- MinT Service. Backendová služba provozující open-source modely neuronového strojového překladu.
- MinT test instance. Základní rozhraní pro vyzkoušení různých modelů překladu.
- MinT for Translators. Iniciativa k integraci služby MinT s nástroji, které podporují další služby strojového překladu, jako je Content Translation a Translate Extension.
- MinT Client for Content Translation. Klient vystavuje službu MinT jako jednu ze služeb strojového překladu dostupných v Content Translation.
- MinT Client for Translate extension. Klient vystavuje službu MinT jako jednu ze služeb strojového překladu dostupných v rozšíření Translate.
- MinT for Wiki Readers. Produkt umožňující čtenářům používat strojový překlad ke čtení obsahu z jiných jazyků na wiki.
Níže si můžete přečíst více o každé z iniciativ MinT.
Zapojte se
Neváhejte se podělit o jakoukoli zpětnou vazbu na stránce diskuze. Plánovaná vylepšení jsou zachycena ve Phabricatoru (více informací nejdete zde), můžete nahlásit špatné chování nebo navrhnout vylepšení funkcí, sledovat průběh jakéhokoli úkolu a sdílet svůj pohled na něj. Pro dokončenou práci můžete také zkontrolovat aktualizace stavu níže.
Služba MinT
Služba MinT je navržena tak, aby nabízela překlady, které jsou výsledkem zpracování několika modelů strojového překladu. V současné době používá následující modely:
- NLLB-200. Je nejnovější model strojového překladu. Jeho základem je Projekt No Language Left Behind vývojářského týmu z Meta wiki. Tento model podporuje překládat texty mezi 200 jazyky, mezi nimiž je i řada jazyků, které nikdo jiný nepodporuje.
- OpusMT. Jeho základem se stal projekt OPUS (Open Parallel Corpus) univerzity v Helsinkách. Obsah multijazyčných stránek, publikovaných pod svobodnou licencí, se využívá ke trénování modelu OpusMT. Každý tak může snadno být nápomocen při zlepšování kvality překladu tím, že zpřístupní své projekty, a tak přispěje k dalšímu rozšíření databáze se kterou pracuje OPUS. Takovým způsobem se například využijí překlady článků Wikipedie, které se tak stanou novým zdrojem dat, co umožní zlepšit kvalitu překladu u následujících verzí tohoto modelu díky tomu, že do něj začlení data, založená na publikovaných překladech. Velice rychle a efektivně můžete přispět také tím, že nahrajete své překlady vět na server Tatoeba.
- IndicTrans2. Projekt IndicTrans2 nabízí modely, které podporují překlad mezi více než 20 jazyků, používaných v Indii. Tyto modely byly vyvinuty AI4Bharat@IIT Madras, výzkumnou skupinou na Indian Institute of Technology, Madras.
- Softcatalà. Je nezisková organizace, jejíž cílem je implementace katalánštiny do různých digitálních produktů. V rámci jejich projektu s názvem Softcatalà Translation, vytvořili překladové modely, které umožňují v rámci jejich překladatelské služby využívat překladu z a do katalánštiny pro dalších 10 jazyků.
- MADLAD-400. MADLAD-400 is a multilingual machine translation model by Google Research that supports 419 languages.
MinT podporuje více než 200 jazyků, včetně více než 70 jazyků, které žádné jiné služby nepodporují. A 27 z nich nemá zatím ani vlastní instanci Wikipedie. Podrobnější informace naleznete v článku věnovaném počátečnímu vydání MinT a na stránce věnované této službě, kde naleznete také sekci, ve které jsou odpovědi i na několik často kladených otázek.
Technické podrobnosti
Překladové modely byly optimalizovány pro výkon pomocí knihovny OpenNMT Ctranslate2, aby se vyhnulo potřebě akcelerace GPU. To usnadňuje organizacím a jednotlivcům vytvářet a provozovat vlastní instance. Pro více podrobností můžete zkontrolovat následující:
MinT poskytuje platformu pro provozování více překladatelských modelů. Za účelem podpory různých iniciativ byly nad modely založené na prostém textu vyvinuty aspekty jako větná segmentace, detekce jazyka, před/po zpracování obsahu a podpora bohatého formátu.
Testovací instance
testovací instance MinT je základní rozhraní pro vyzkoušení různých modelů překladu. Umožňuje překládat obsah mezi vybranými jazykovými páry a vybrat preferovaný model překladu, pokud je k dispozici více. To umožňuje různým komunitám zkontrolovat, jak dobře modely podporují jejich jazyk. Tato instance je určena pro testování, takže výkon a dostupnost mohou být ve srovnání s jinými produkty založenými na MinT sníženy. Můžete zkontrolovat stav dostupnosti testovací instance MinT.
MinT pro překladatele
Překlad je běžný způsob, jak přispívat do ekosystému Wikimedie pro vícejazyčné uživatele. Strojový překlad může uživatelům poskytnout užitečný počáteční překlad ke kontrole a vylepšení. Jazykový tým vyvinul nástroje na podporu překladů ve svých pracovních postupech, které mohou integrovat různé služby strojového překladu a urychlit jejich procesy. Jakmile byl MinT dostupný, jeho integrace s těmito nástroji byla dalším logickým krokem k zesílení jejich dopadu. MinT je k dispozici v následujících projektech:
- Překlad obsahu. Překlad obsahu poskytuje návod, jak vytvořit překlad článku na Wikipedii do jiného jazyka. Překlad obsahu integruje několik překladatelských služeb a poskytuje počáteční překlad. You can check which languages supported by MinT are available in Content Translation
- Lokalizační infrastruktura. Rozšíření Translate poskytuje infrastrukturu používanou k překladu našeho softwaru a vícejazyčných stránek. Komunity překladatelů jej používají na translatewiki.net , Wikimedia Meta-wiki, MediaWiki.org a dalších.
MinT pro čtenáře wiki
Počet témat a množství informací, o kterých se čtenář může z Wikipedie a jiných wikin dozvědět, závisí na jazycích, kterými mluví. Strojový překlad může lidem pomoci dozvědět se více o tématech, která je zajímají, když obsah není dostupný v jejich jazyce.
Tato iniciativa zkoumá, jak zpřístupnit podporu strojového překladu od MinT v článcích Wikipedie způsobem, který:
- Umožňuje čtenářům dozvědět se více o tématech zájmu z jiných jazyků
- Jasně odlišuje automaticky generovaný obsah od obsahu vytvořeného komunitou.
- Pokud je to možné, vybízí k přístupu k obsahu vytvořenému komunitou a přispívání k němu.
V současné době jazykový tým pracuje na počáteční implementaci pro tuto iniciativu na základě výzkumu a návrhů. Poznatky založené na datech a vstupu komunity určí další kroky iniciativy.
MinT dostupnější
Práce na předchozích iniciativách pomůže vylepšit a zpevnit systém. Prozatím je MinT API dostupné pouze pro produkty Wikimedie. Až se systém připraví, zvážíme širší expozici. Poskytování služby, kterou mohou komunity využívat inovativním způsobem, může být velmi mocným nástrojem. V budoucnu zde budou zachyceny nové iniciativy k širší dostupnosti MinT. Mezitím si můžete nakonfigurovat vlastní instanci MinT a experimentovat s ní.
Zřeknutí se odpovědnosti
- Accuracy of MinT’s Translations - Přesnost překladů generovaných MinT se může lišit. Překlady nemusí být zcela přesné nebo nemusí vždy vyjadřovat zamýšlený význam nebo kontext původního obsahu. Wikimedia neposkytuje žádná prohlášení ani záruky týkající se přesnosti nebo přiměřenosti automaticky přeloženého obsahu.
- Limitation of Liability - Wikimedia, její přidružené společnosti a zaměstnanci nenesou odpovědnost za žádné přímé, nepřímé, náhodné, represivní nebo následné škody, včetně, ale bez omezení na škody za dobré jméno, použití, data nebo jakékoli jiné nehmotné ztráty vyplývající z nebo v souvislosti s použití MinT nebo překladů generovaných pomocí MinT.
- Creative Commons Compliance - Překlady generované pomocí MinT jsou považovány za odvozená díla podle platné licence Creative Commons, která upravuje původní obsah. Uživatelé musí při používání přeloženého obsahu dodržovat podmínky příslušné licence Creative Commons.
- Terms of Use and Privacy Policy - Používání MinT podléhá Zásadám použití a Zásadám ochrany osobních údajů Wikimedie.
Aktualizace stavu
února 2024
- Upravené limity překladu pro pandžábštinu na žádost komunity, aby byly méně přísné kvůli lepší kvalitě strojového překladu.
- Výzkum MinT pro čtenáře Wikipedie je dokončen. Dvě zprávy byly zveřejněny na stránce výzkumu
- podpora více modelů pro testovací instanci MinT. Komunitám podporovaným více modely překladů umožníme vyzkoušet, porovnat a posoudit kvalitu a určit, který z nich funguje nejlépe.
ledna 2024
- Infrastruktura aktualizace pro užitek z novějších verzí Pythonu.
prosince 2023
- Pro MinT byla vytvořena nová větší instance. Kvóta paměti byla zvýšena, aby vyhovovala potřebám MinT, protože využití a dostupné modely rostou.
- Byly vytvořeny nové designové koncepty pro vystavení MinT čtenářům Wikipedie na základě vstupních informací z počátečního výzkumu. Vícejazyčné prototypy byly aktualizovány, aby se v dalším kole výzkumu poučily z nových konceptů.
- Upravená expozice MinT v rozšíření překladu na nezobrazování návrhů překladu obsahu s označením wikitext
listopadu 2023
- Lepší podpora wikitextu díky lepšímu zpracování chyb, když MinT zpracovává wikitext.
- Výzkumný plán je dokončen a začaly výzkumné relace.
- Prozkoumáno nové pokročilé rozhraní API pro segmentaci vět pro podporu potřeb pro případ použití EditCheck a další.
- Vylepšená odezva testovací instance MinT tím, že vyhnete se zasekávání některých požadavků na překlad.
- MinT byl nastaven jako výchozí překladatelská služba v Content Translation pro kurdštinu (ku) a sesothoštinu (st), jazyky, kde je volitelná, ale často používaná.
- Pro MinT byla vytvořena nová větší instance. Kvóta paměti byla zvýšena, aby vyhovovala potřebám MinT, protože využití a dostupné modely rostou.
- Byly vytvořeny nové designové koncepty pro vystavení MinT čtenářům Wikipedie na základě vstupu z počátečního kola výzkumu.
- Zveřejněna zpráva analyzující využití služeb strojového překladu
října 2023
- MinT je nyní podporována v Content Translation pro Fon, Wikipedii, která nedávno absolvovala inkubátor.
- Oznámená knihovna vět: sentencex: Posílení NLP s extrakcí vícejazyčných vět – Knihovna python a js, která vyhovuje potřebám segmentace vět pro všechny jazyky, které podporujeme.
- Navrhovaný model karty pro identifikaci jazyka jako součást vytvoření služby LiftWing, která tyto schopnosti poskytuje MinT a dalším.
- Nový přístup segmentace vět byl vystaven v Section Translation a sekcí, aby byl ověřen skutečným obsahem. Vyřešené problémy nahlášené komunitou, jako jsou problémy s překladem soudních případů.
- MinT testovací instance poskytuje konzistentní názvy jazyků s Wikipedií pomocí rozhraní API Wikipedie namísto omezených možností lokalizace prohlížeče.
- Spuštěna služba identifikace jazyka k automatickému zjištění, v jakém jazyce je daný text napsán. Služba podporuje detekci 201 jazyků a kdokoli má přístup k API, aby mohl službu používat, nebo přečtěte si modelovou kartu pro další podrobnosti. Tým strojového učení dokončil poslední kontroly po nasazení na LiftWing a vyhodnocení, že služba "snadno odolá vysokému objemu provozu".
- Základní podpora pro překlad formátovaného textu pomocí podporující přenos značek pro použití stylů, jako jsou slova tučně ze zdrojového textu, na ekvivalentní ve strojovém překladu (který postrádá formát, protože modely překladu pracují s prostým textem) .
- Dokončen proces na povolení MinT pro jazyky dosud bez Wikipedie. Překladové modely v MinT podporují 25 jazyků, pro které neexistuje Wikipedie. Ty lze otestovat v testu instance společnosti MinT pro mluvčí těchto jazyků za účelem posouzení kvality a zajistí, že po vytvoření wikin pro tyto jazyky budou překladatelské nástroje dobře vybaveny (jak tomu bylo v případě nedávného promoce Fon Wikipedia mimo inkubátor).
- Dokončili jsme proces aktivace MinT pro úzce příbuzné jazyky na základě příspěvku komunity. U některých jazyků, kde není k dispozici strojový překlad, redaktoři Wikipedie požádali, aby měli přístup ke strojovému překladu v Content Translation pomocí příbuzného jazyka, místo aby neměli žádnou podporu. S tímto povolením budou mít překladatelé Gan (gan) Wikipedie jako výchozí bod strojový překlad založený na tradiční variantě písma čínštiny.
- Analýza překladatelské aktivity na 55 jazycích, pro které MinT poskytuje strojový překlad poprvé, ukazuje, jak (a) překlady vzrostly 2x od doby, kdy je MinT k dispozici, a (b) míra mazání se zvýšila nezvýšené. Úrovně aktivity pro těchto 55 wikin se po aktivaci MinT změnily z ~500 překladů/měsíc na 1000+ překladů/měsíc. Například nedávný vrchol 2 150 000 překladů byl publikován v srpnu 2023, kdy byl pro tyto jazyky k dispozici MinT, což je významný nárůst z 225 překladů v srpnu 2022, kdy pro ně MinT nebyl dostupný.
- Lepší viditelnost kvality překladu díky včetně značky v překladech, kde se neupravený strojový překlad blíží limitům. To usnadní analýzu kvality překladu a limitů.
- Vytvořené prototypy pro nadcházející výzkum ilustrující 5 konceptů, jak mohou čtenáři Wikipedie používat MinT, a podporující 4 jazyky, v nichž budeme provádět výzkum: hindština, chattisgarhi, awadhi a korejština.
- Vylepšení pro MinT pro zpracování obsahu předvídatelněji s novými řádky.
září 2023
- Dokončen počáteční průzkum designu pro ilustraci 5 konceptů, jak zobrazit strojově přeložený obsah z jiných jazyků pro články na Wikipedii
- Dokončeno povolení MinT v překladu obsahu pro Lingurian, kde komunita požadovala další vysvětlení ohledně MinT, a poslední sada 14 jazyků, které by mohly být podporovány modelem NLLB-200.
- Povoleno MinT pro přeložitelné stránky na testovací wiki
- Rozšířená expozice MinT s umožněním překladu obsahu pro mobilní zařízení a počítače jako výchozí v 7 Wikipediích podporovaných MinT (čerokézština, tonžština, maďarština, kazašština, kyrgyzština, minangkabau a sardinština).
- Dokončeno ověření pro všechny jazyky podporované překladatelskými modely používanými MinT jako součást finálního QA pro aktivaci nové překladatelské služby.
- Santhosh prezentovaný na 10. workshopu o asijském překladu, zdůrazňující nutnost, aby strojový překlad byl univerzální, bezplatný a dostupný ve více jazycích. Zpráva dobře přijata účastníky.
- Plánování výzkumu začalo počátečním návrhem výzkumného zadání pro MinT na Wikipedii
- Pokračující technické zkoumání aplikace strojového překladu mimo prostý text (co poskytují základní modely) na podporu kontextu Wikipedie: Nový vylepšený přístup pro segmentaci vět (s ukázkovou stránkou k vyzkoušení), který poskytuje přesnější způsob identifikace, kdy věta končí v různých jazycích, a přednostně se vyvarovat rozdělení v případě pochybností (upřednostňuje se v kontextu strojového překladu, aby se zabránilo fragmentaci kontextu překladu, například nesprávná interpretace tečky zkratky jako tečky ).
srpna 2023
- Úspěšný průzkum použití MinT k překladu strukturovaných formátů, jako jsou HTML, SVG a markdown.
- Dokončeno ukončení podpory Youdao, externí překladatelské služby, která dlouhou dobu selhávala.
- Pokračující průzkum vývoje pro MinT na Wikipedii s novými a aktualizovanými pracovními postupy na základě zpětné vazby.
- Identifikované jazyky, které mohou nejvíce těžit z nových modelů OpusMT
- Vytvořeno MinT jako výchozí překladatelská služba pro Zulu v Content Translation
července 2023
- Povolen strojový překlad s MinT (a komunikace s komunitami) pro 75 nových jazyků: 62 jazyků, kde je k dispozici mobilní překlad, a 13 jazyků, kde kvalita překladu z jiných služeb nemusí být ideální na základě údajů zprávy o použití MT anebo zpětné vazby komunity.
- Ověření předchozích aktivací: Identifikované problémy s Bhojpuri a s lotyštinou, kdy MinT nebyl k dispozici kvůli neshodám s jazykovými kódy používanými Wikipediemi, MinT a základními překladatelskými modely.
- Počáteční průzkumy designu a prototypy o způsobech, jak bychom mohli integrovat MinT do Wikipedie
- Vylepšené následné zpracování překladu Mint pro lepší podporu jazyků používajících arabské písmo tím, že se vyhnete dalším krokům po tečkách.
- Dokončení integrace modelu IndicTrans2 ověřením aktivace všech jejich 23 podporovaných jazyků.
- Počáteční analýza aktivity pro komunity Wikipedie, které jsou poprvé podporovány MinT, aby se identifikovaly potenciální pilotní wikiny pro budoucí výzkum a jako první uživatelé.
- Povolení MinT na translatewiki.net pro použití při lokalizaci Wikimedie a dalších otevřených projektů.