MinT
MinT (Machine in Translation) is een machine vertaaldienst gebaseerd op open source neurale machine vertaalmodellen. De dienst wordt gehost in de infrastructuur van de Wikimedia Foundation en draait vertaalmodellen die zijn vrijgegeven door andere organisaties onder een open source-licentie. Een open machine vertalingsdienst kan een belangrijke onderdeel zijn van de essentiële infrastructuur van het ecosysteem van vrije kennis. Deze pagina bevat de initiatieven om de schaalbaarheid van de dienst te vergroten en deze infrastructuur breder beschikbaar te maken.
U kunt MinT proberen via projecten zoals Inhoud Vertaling en translatewiki.net, of direct in een testomgeving.
Overzicht van MinT initiatieven
Machinevertaling kan in verschillende contexten nuttig zijn. Aangezien meer producten MinT voor verschillende doeleinden gebruiken, is het nuttig om deze verschillende contexten te onderscheiden. Op deze manier is het duidelijker wanneer gebruikers een fout melden waar deze moet worden opgelost.
- MinT Service. De backend service met open source neurale machine vertalingsmodellen.
- MinT test instance. Een basisinterface om de verschillende vertaalmodellen te proberen.
- MinT for Translators. Initiatief om de MinT-service te integreren met hulpmiddelen die andere machinevertalingsdiensten ondersteunen, zoals Content Translation en de extensie Translate.
- MinT Client for Content Translation. Client die de MinT-dienst als een van de machinevertalingsdiensten in Content Translation noemt.
- MinT Client for Translate extension. Client die de MinT-service als een van de machinevertalingsdiensten in de extensie Translate noemt.
- MinT for Wiki Readers. Product om readers in staat te stellen om machinevertaling te gebruiken om inhoud uit andere talen op een wiki te lezen.
U kunt hieronder meer lezen over elk van de MinT-initiatieven.
Doe mee
U kunt terugkoppeling delen op de overlegpagina. Geplande verbeteringen worden vastgelegd in Phabricator (meer informatie), waar u problemen kunt melden, voorstellen voor uitbreidingen kunt doen, de vorderingen van elke taak kunt volgen en uw perspectief erover kunt delen. Voor het afgeronde werk kunt u hieronder de voortgang volgen.
MinT Service
De service MinT is ontworpen om vertalingen van meerdere machinevertalingsmodellen aan te bieden. Er wordt gebruik gemaakt van de volgende modellen:
- NLLB-200. Het laatste model van het project No Language Left Behind van een onderzoeksteam bij Meta. Dit model ondersteunt vertaling in 200 talen, waaronder veel die niet door andere leveranciers worden ondersteund.
- OpusMT.. Het project OPUS (Open Parallel Corpus) van de Universiteit van Helsinki maakt meertalige inhoud beschikbaar, samen met een gratis licentie om de OpusMT-vertaalmodellen te trainen. Iedereen kan gemakkelijk bijdragen aan de verbetering van de vertaalkwaliteit door deel te nemen aan de verschillende projecten die gegevens bijwerken voor OPUS. Bijvoorbeeld, wanneer u Content translation gebruikt om vertalingen van Wikipedia-artikelen te maken, wordt de data over gepubliceerde vertalingen opgenomen als een nieuwe bron om de vertalingskwaliteit voor de volgende versie van het model te verbeteren. Een andere snelle manier om bij te dragen is door met Tatoeba zinnenvertalingen te verstrekken.
- IndicTrans2. Het IndicTrans2 project biedt vertaalmodellen aan voor meer dan 20 Indo-Arische talen. Deze modellen zijn ontwikkeld door AI4Bharat@IIT Madras, een onderzoeksgroep van het Indian Institute of Technology in Madras.
- Softcatalà. Softcatalà is een non-profit organisatie die zich richt op het verbeteren van het gebruik van het Catalaans in digitale producten. Als onderdeel van het Softcatalà Translation project zijn vertaalmodellen beschikbaar die in hun vertaaldienst worden gebruikt om 10 talen naar en van het Catalaans te vertalen.
- MADLAD-400. MADLAD-400 is a multilingual machine translation model by Google Research that supports 419 languages.
MinT ondersteunt meer dan 200 talen, met meer dan 70 talen die niet worden ondersteund door andere diensten (waaronder 27 talen waarvoor nog geen Wikipedia is). U kunt meer lezen over de eerste release van MinT en de lijst met veelgestelde vragen bekijken op de samenvattingspagina.
Technische details
De vertalingsmodellen zijn geoptimaliseerd voor prestaties met behulp van de OpenNMT Ctranslate2 bibliotheek om de behoefte aan GPU-versnelling te vermijden. Dit maakt het voor organisaties en individuen gemakkelijker om hun eigen instanties op te bouwen en te draaien. Voor meer details kunt u de bekijken:
MinT biedt een platform om meerdere vertaalmodellen uit te voeren. Om verschillende initiatieven te ondersteunen, zijn aspecten zoals zinsegmentatie, taalherkenning, voor- en na-verwerking van inhoud en ondersteuning voor opgemaakte inhoud bovenop de modellen gebaseerd op platte tekst, ontwikkeld.
Test instantie
De MinT test instantie is een basisinterface om de verschillende vertaalmodellen te proberen. Het maakt het mogelijk om inhoud over de geselecteerde taalparen te vertalen en het voorkeursvertalingsmodel te selecteren wanneer er meerdere beschikbaar zijn. Dit stelt gemeenschappen in staat te controleren hoe goed de modellen hun taal ondersteunen. Deze instantie is bedoeld voor testen, zodat de prestaties en beschikbaarheid kunnen worden verminderd in vergelijking met andere op MinT gebaseerde producten. U kunt de beschikbaarheidsstatus van deze instantie controleren.
MinT voor vertalers
Vertaling is een veel voorkomende manier om bij te dragen aan het Wikimedia-ecosysteem voor meertalige gebruikers. Machinevertaling kan een nuttige eerste vertaling bieden voor vertalers om te bekijken en te verbeteren. Het taalteam heeft hulpmiddelen ontwikkeld om vertalingen in hun werkstromen te ondersteunen die verschillende machinevertalingsdiensten kunnen integreren om hun processen te versnellen. Zodra MinT beschikbaar was, was de integratie ervan met deze hulpmiddelen een logische volgende stap om hun impact te versterken. MinT is beschikbaar in de volgende projecten:
- Content Translation. Content Translation biedt begeleiding om een vertaling van een Wikipedia-artikel in een andere taal te maken. Content Translation integreert verschillende vertaaldiensten om een eerste vertaling te leveren. You can check which languages supported by MinT are available in Content Translation
- Localisatie-infrastructuur. De extensie Translate biedt de infrastructuur die wordt gebruikt om onze software en meertalige pagina's te vertalen. De meeste vertalers gebruiken het op translatewiki.net , Wikimedia Meta-wiki, MediaWiki.org en op andere plaatsen.
MinT voor wiki-lezers
Het aantal onderwerpen en de hoeveelheid informatie die een lezer kan leren van Wikipedia en andere wiki's, hangt af van de talen die de lezer beheerst. Machinevertaling kan mensen helpen meer te lezen over voor hun van belang zijnde onderwerpen wanneer dat artikel niet in hun taal beschikbaar is.
Dit initiatief onderzoekt hoe de machinevertalingsondersteuning van MinT in Wikipedia-artikelen op een manier te worden opgevoerd die:
- Lezers in staat stellen meer te lezen over hun onderwerpen in andere talen.
- Er is duidelijk een verschil tussen automatisch gegenereerde inhoud en door de gemeenschap gemaakte inhoud.
- Moedigt aan om bij te dragen aan (en te lezen van) door de gemeenschap gecreëerde inhoud waar mogelijk.
Op dit moment werkt het taalteam aan de eerste implementaties voor dit initiatief op basis van het onderzoek en de ontwerpen. Lessen op basis van gegevens en input van de gemeenschap zullen de volgende stappen voor het initiatief bepalen.
MinT breder beschikbaar
De werkzaamheden op de voorgaande initiatieven zullen bijdragen tot het verfijnen en versterken van het systeem. Voorlopig is de MinT API alleen beschikbaar voor Wikimedia-producten. Als het systeem klaar is, overwegen we een bredere beschikbaarheid. Het leveren van een service die op innovatieve manieren door een gemeenschap kan worden gebruikt, kan een zeer krachtig hulpmiddel zijn. In de toekomst zullen nieuwe initiatieven worden opgenomen om MinT breder beschikbaar te maken. In de tussentijd kunt u uw eigen MinT-instantie configureren om er mee te experimenteren.
Disclaimer
- Accuracy of MinT’s Translations - De nauwkeurigheid van de door MinT gegenereerde vertalingen kan variëren. Vertalingen kunnen niet volledig accuraat zijn of niet altijd de beoogde betekenis of context van de oorspronkelijke inhoud geven. Wikimedia geeft geen verklaring of garantie over de juistheid of adequaatheid van de automatisch vertaalde inhoud.
- Limitation of Liability - Wikimedia, haar gelieerde ondernemingen en werknemers zijn niet aansprakelijk voor directe, indirecte, incidentele, strafbare of consequentiële schade, met inbegrip van maar niet beperkt tot schade voor goodwill, gebruik, gegevens of andere immateriële verliezen die voortvloeien uit of in verband met het gebruik van MinT of vertalingen die met MinT worden gegenereerd.
- Creative Commons Compliance - Vertalingen die met MinT worden gegenereerd, worden als afgeleide werken beschouwd onder de toepasselijke Creative Commons-licentie die de oorspronkelijke inhoud regelt. De gebruikers moeten zich houden aan de voorwaarden van de toepasselijke Creative Commons-licentie wanneer zij vertaalde inhoud gebruiken.
- Terms of Use and Privacy Policy - Het gebruik van MinT is onderworpen aan de Wikimedia Gebruikersvoorwaarden en het Privacy-beleid.
Status updates
februari 2024
- Aangepaste vertaallimieten voor Punjabi na verzoek van de gemeenschap om ze minder streng te maken vanwege de verbeterde kwaliteit van de machinevertaling.
- Het onderzoek naar MinT voor Wikipedia-lezers is afgerond. Twee rapporten zijn gepubliceerd op de onderzoekspagina
- multi-model ondersteuning voor de MinT test-instantie. Het is mogelijk om een bepaalde gemeenschap meerdere vertaalmodellen te laten proberen, dit om de kwaliteit te evalueren om te bepalen welke het beste werkt.
januari 2024
- Infrastructuur updates om te profiteren van nieuwere Python-versies.
december 2023
- Er is een nieuwe, grotere instantie gemaakt voor de MinT. Het geheugenquotum is verhoogd om tegemoet te komen aan de behoeften van MinT naarmate het gebruik en de beschikbare modellen toenemen.
- Op basis van de input uit het eerste onderzoek zijn nieuwe ontwerpconcepten gemaakt voor het laten gebruiken van MinT door Wikipedia-lezers op basis van de input van het eerste onderzoek. De meertalige prototypes zijn bijgewerkt om in de volgende onderzoeksronde te leren van de nieuwe concepten.
- Tonen van MinT in de extensie aangepast naar vermijd het tonen van vertaalsuggesties voor inhoud met wikitext opmaak
november 2023
- Betere ondersteuning wikitext door verbetering van foutafhandeling wanneer MinT wikitekst wordt verwerkt.
- Het Onderzoeksplan is voltooid en de onderzoekssessies zijn gestart.
- Onderzocht de nieuwe geavanceerde API voor zinsegmentatie ter ondersteuning van de behoeften voor EditCheck use-case en anderen.
- Verbeterde responsiviteit van de MinT-testinstantie door voorkomen dat sommige vertaalverzoeken vastlopen.
- MinT is ingesteld als de standaard vertaalservice in Content Translation voor Koerdisch (ku) en Sesotho (st), talen waar het optioneel is maar vaak wordt gebruikt.
- Er is een nieuwe, grotere instantie gemaakt voor de MinT. Het geheugenquotum is verhoogd om tegemoet te komen aan de behoeften van MinT naarmate het gebruik en de beschikbare modellen toenemen.
- Er zijn nieuwe ontwerpconcepten gemaakt voor het tonen van MinT aan Wikipedia-lezers op basis van inbreng uit de eerste onderzoeksronde.
- Gepubliceerd rapport analyse van het gebruik van machinevertalingsdiensten
oktober 2023
- MinT wordt nu ondersteund in Content Translation voor Fon, een Wikipedia die onlangs is vrijgegeven door incubator.
- Aangekondigde sentencex-bibliotheek: sentencex: Empowering NLP with Multilingual Sentence Extraction - Een python- en js-bibliotheek om te voldoen aan de behoeften van zinsegmentatie voor alle talen die we ondersteunen.
- Voorgestelde modelkaart voor taalidentificatie als onderdeel van de oprichting van een service LiftWing om deze mogelijkheden voor MinT en anderen te bieden.
- De nieuwe zinssegmentatie-benadering is ingevoerd in Inhoud en Sectie Vertaling om het te valideren met echte inhoud. Er zijn door de gemeenschap gerapporteerde problemen opgelost, zoals de problemen met het vertalen van rechtszaken.
- MinT-testinstantie biedt consistente taalnamen met Wikipedia door gebruik te maken van Wikipedia-API's in plaats van de beperkte browserlokalisatiemogelijkheden.
- Lancering van de service Language Identification om automatisch te detecteren in welke taal een bepaalde tekst is geschreven. De service ondersteunt de detectie van 201 talen en iedereen heeft toegang tot de API om de service te gebruiken. Lees de modelkaart voor meer details. Het team Machine Learning voltooide de laatste controles na implementatie op LiftWing en evalueerde dat de service "gemakkelijk een grote hoeveelheid verkeer aan kan".
- Basisondersteuning voor vertaling van 'rich text' door ondersteuning voor het overbrengen van opmaak om styling zoals vetgedrukte woorden uit de brontekst toe te passen op de equivalente in de machinevertaling (die geen formaat heeft omdat vertaalmodellen werken met platte tekst).
- Het proces om MinT in te schakelen voor talen waarvoor nog geen Wikipedia is, is voltooid. Vertaalmodellen in MinT ondersteunen 25 talen waarvoor er geen Wikipedia is. Deze kunnen worden getest in MinT's testinstantie voor sprekers van die talen om de kwaliteit te beoordelen, en zorgt ervoor dat vertaalhulpmiddelen goed uitgerust zijn zodra wiki's voor die talen zijn gemaakt (zoals het geval is geweest met de recente vrijgeven van Fon Wikipedia via Incubator).
- Het proces om MinT in te schakelen voor nauw verwante talen op basis van invoer van de gemeenschap, is voltooid. Voor sommige talen waarvoor geen machinevertaling beschikbaar is, hebben Wikipedia-redakteurs gevraagd toegang te krijgen tot machinevertalingen in Content Translation met behulp van een verwante taal in plaats van helemaal geen ondersteuning te hebben. Met deze mogelijkheid zullen vertalers van Gan (gan) Wikipedia een machinevertaling hebben die gebaseerd is op de traditionele scriptvariant van het Chinees als uitgangspunt.
- Analyse van de vertaalactiviteit op 55 talen waarvoor MinT voor het eerst machinevertaling levert, laat zien hoe (a) vertalingen 2x zijn toegenomen sinds MinT beschikbaar is, en (b) verwijderingspercentages niet zijn toegenomen. De activiteitsniveaus van deze 55 wiki's zijn veranderd van ~ 500 vertalingen per maand, naar meer dan 1.000 vertalingen per maand na de activatie van MinT. Bijvoorbeeld, een recente piek van 2.150 vertalingen werd gepubliceerd in augustus 2023 toen MinT beschikbaar was voor die talen, wat een significante toename is van 225 vertalingen in augustus 2022 toen MinT nog niet beschikbaar was.
- Betere zichtbaarheid van de vertaalkwaliteit door een tag toe te voegen in vertalingen waar onbewerkte machinevertaling dicht bij de limieten ligt. Dit zal de analyse van de kwaliteit en de beperkingen van de vertaling vergemakkelijken.
- Prototypes gemaakt voor aankomend onderzoek die 5 concepten illustreren over hoe MinT kan worden gebruikt door Wikipedia-lezers en ter ondersteuning van de 4 talen waarin we onderzoek zullen doen: Hindi, Chattisgarhi, Awadhi en Koreaans.
- Verbeteringen in MinT om inhoud voorspelbaarder te verwerken met nieuwe regels.
september 2023
- Een voltooide initiële ontwerp exploratie om 5 concepten te illustreren hoe machine-vertaalde inhoud uit andere talen voor Wikipedia-artikelen eruit kan zien.
- Voltooid mogelijkheden van MinT in Content Translation voor Lingurian, waar de gemeenschap verdere verduidelijkingen over MinT verlangde, en de laatste set van 14 talen die met het NLLB-200-model ondersteund konden worden.
- De MinT voor vertaalbare pagina's is ingeschakeld op de test wiki
- Uitgebreid gebruik van MinT voor Content Translation mobiele en desktop ervaringen als standaard in 7 ondersteunde talen (Cherokee, Tongaans, Hongaars, Kazachs, Kirgizisch, Minangkabau en Sardijns).
- De validatie voltooid voor alle talen die worden ondersteund door de vertaalmodellen die door MinT worden gebruikt als onderdeel van de uiteindelijke QA voor het inschakelen van de nieuwe vertaalservice.
- Santhosh gepresenteerd op de 10e workshop over Aziatische vertaling benadrukte de noodzaak van machinevertaling om universeel, gratis en beschikbaar te zijn in meer talen. Een bericht goed ontvangen door de deelnemers.
- De onderzoeksplanning begon met een eerste versie van de onderzoeksopdracht voor MinT op Wikipedia
- Voortdurende technische verkenningen voor het toepassen van machinevertaling buiten platte tekst (wat onderliggende modellen bieden) om de Wikipedia-context te ondersteunen: een nieuwe verbeterde aanpak voor zinssegmentatie (met een demopagina om te proberen) die een nauwkeurigere manier biedt om te identificeren wanneer een zin eindigt in verschillende talen, en met een voorkeur om splitsing in geval van twijfel te voorkomen (bij voorkeur in de context van machinevertaling om fragmentatie van de context van een vertaling te voorkomen, bijvoorbeeld het verkeerd interpreteren van de punt van een afkorting als een fullstop).
augustus 2023
- Succesvolle niet-exploratie voor het gebruik van MinT om gestructureerde formaten te vertalen zoals HTML, SVG en markdown.
- Voltooid, het verwijderen van Youdao, een externe vertaaldienst die al lang niet meer werkte.
- Op basis van nieuwe en bijgewerkte werkstromen het geven van feedback.
- Talen geïdentificeerd die het meeste kunnen profiteren van nieuwe OpusMT-modellen.
- Voor Zulu is MinT de standaard vertaalservice gemaakt voor Content Translation
juli 2023
- Machine vertaling met MinT (en communiceren met gemeenschappen) is ingeschakeld voor 75 nieuwe talen: 62 talen waar de mobiele vertalingservaring beschikbaar is, en 13 talen waar de vertalingskwaliteit van andere diensten misschien niet ideaal is op basis van het MT-gebruikersrapport gegevens en / of feedback van de gemeenschap.
- Validering van eerdere mogelijkheden: er zijn problemen geïdentificeerd met Bhojpuri en met Lets waar MinT niet beschikbaar was vanwege ongelijke taalcodes die worden gebruikt in Wikipedia, MinT en de onderliggende vertaalmodellen.
- Initiële ontwerpprocessen en prototypes over manieren om MinT in Wikipedia te integreren
- Verbeterde naverwerking van de Mint-vertaling om talen met behulp van het Arabische script beter te ondersteunen door extra stappen na fullstops te vermijden.
- Voltooide integratie van het IndicTrans2-model door het inschakelen van alle 23 ondersteunde talen te verifiëren.
- Initiële analyse van activiteit voor Wikipedia-gemeenschappen die voor het eerst worden ondersteund met MinT om potentiële pilot-wiki's te identificeren voor toekomstig onderzoek en als vroege adopters.
- Inschakelen van MinT op translatewiki.net voor gebruik in de lokalisatie van Wikimedia en andere open projecten.