MinT/nl

MinT (Machine in Translation) is een machine vertaaldienst gebaseerd op open source neurale machine vertaalmodellen. De dienst wordt gehost in de infrastructuur van de Wikimedia Foundation en draait vertaalmodellen die zijn vrijgegeven door andere organisaties onder een open source-licentie. Een open machine vertalingsdienst kan een belangrijke onderdeel zijn van de een essentiële infrastructuur van het ecosysteem van vrije kennis. Deze pagina bevat de initiatieven om de schaalbaarheid van de dienst te vergroten en deze infrastructuur breder beschikbaar te maken.

U kunt MinT proberen via projecten zoals Inhoud Vertaling en translatewiki.net, of direct in een testomgeving.



Over MinT
MinT is ontworpen om vertalingen van meerdere machinevertalingsmodellen aan te bieden. In de eerste instantie wordt gebruik gemaakt van de volgende modellen:


 * NLLB-200. Het laatste model van de No Language Left Behind project van een onderzoeksteam bij Meta. Dit model ondersteunt vertaling in 200 talen, waaronder veel die niet door andere leveranciers worden ondersteund.
 * OpusMT.. De OPUS (Open Parallel Corpus) project van de Universiteit van Helsinki maakt meertalige inhoud beschikbaar, samen met een gratis licentie om de OpusMT-vertalingsmodellen te trainen. Iedereen kan gemakkelijk bijdragen aan de verbetering van de vertaalkwaliteit door deel te nemen aan de verschillende projecten die gegevens bijwerken voor OPUS. Bijvoorbeeld, wanneer u Content translation gebruikt om vertalingen van Wikipedia-artikelen te maken, wordt de data over gepubliceerde vertalingen opgenomen als een nieuwe bron om de vertalingskwaliteit voor de volgende versie van het model te verbeteren. Een andere snelle manier om bij te dragen is door met Tatoeba zinnenvertalingen te verstrekken.
 * IndicTrans2. Het IndicTrans2 project biedt vertaalmodellen aan voor meer dan 20 Indo-Arische talen. Deze modellen zijn ontwikkeld door AI4Bharat@IIT Madras, een onderzoeksgroep van het Indian Institute of Technology Madras.
 * Softcatalà. Softcatalà is een non-profit organisatie die zich richt op het verbeteren van het gebruik van het Catalaans in digitale producten. Als onderdeel van het Softcatalà Translation project zijn vertaalmodellen beschikbaar die in hun vertaaldienst worden gebruikt om 10 talen naar en van het Catalaans te vertalen.

MinT ondersteunt meer dan 200 talen, met meer dan 50 talen die niet worden ondersteund door andere diensten (waaronder 27 talen waarvoor nog geen Wikipedia is). U kunt meer lezen over de eerste release van MinT en de lijst met veelgestelde vragen bekijken op de samenvattingspagina.



Technische details
De vertalingsmodellen zijn geoptimaliseerd voor prestaties met behulp van de OpenNMT Ctranslate2 bibliotheek om de behoefte aan GPU-versnelling te vermijden. Dit maakt het voor organisaties en individuen gemakkelijker om hun eigen instanties op te bouwen en te draaien. Voor meer details kunt u de broncode, de API-specificatie of de testinstallatie bekijken.

MinT biedt een platform om meerdere vertaalmodellen uit te voeren. Om verschillende initiatieven te ondersteunen, zijn aspecten zoals zinsegmentatie, taalherkenning, voor- en na-verwerking van inhoud en ondersteuning voor opgemaakte inhoud bovenop de modellen gebaseerd op platte tekst, ontwikkeld.



Doe mee
U kunt terugkoppeling delen op de overlegpagina. Geplande verbeteringen worden vastgelegd in Phabricator (meer informatie), waar u problemen kunt melden, voorstellen voor uitbreidingen kunt doen, de vorderingen van elke taak kunt volgen en uw perspectief erover kunt delen. Voor het afgeronde werk kunt u hier onder de voortgang volgen.



MinT voor vertalers
Vertaling is een veel voorkomende manier om bij te dragen aan het Wikimedia-ecosysteem voor meertalige gebruikers. Machinevertaling kan een nuttige eerste vertaling bieden voor vertalers om te bekijken en te verbeteren. Het taalteam heeft hulpmiddelen ontwikkeld om vertalingen in hun werkstromen te ondersteunen die verschillende machinevertalingsdiensten kunnen integreren om hun processen te versnellen. Zodra MinT beschikbaar was, was de integratie ervan met deze hulpmiddelen een logische volgende stap om hun impact te versterken. MinT is beschikbaar in de volgende projecten:


 * Content Translation. Content Translation biedt begeleiding om een vertaling van een Wikipedia-artikel in een andere taal te maken. Content Translation integreert verschillende vertaaldiensten om een eerste vertaling te leveren.
 * Localisatie-infrastructuur. De Translate-uitbreiding biedt de infrastructuur die wordt gebruikt om onze software en meertalige pagina's te vertalen. De meeste vertalers gebruiken het op Translatewiki.net, Wikimedia Meta-wiki, Mediawiki.org en op andere plaatsen.



MinT voor lezers van Wikipedia
Het aantal onderwerpen en de hoeveelheid informatie die een lezer kan leren van Wikipedia, hangt af van de talen die de lezer beheerst. Machinevertaling kan mensen helpen meer te lezen over voor hun van belang zijnde onderwerpen wanneer dat artikel niet in hun taal beschikbaar is.

Dit initiatief onderzoekt hoe de machinevertalingsondersteuning van MinT in Wikipedia-artikelen op een manier te worden opgevoerd die:


 * Lezers in staat stelt meer te lezen over over hun onderwerpen in andere talen
 * Er is duidelijk een verschil tussen automatisch gegenereerde inhoud en door de gemeenschap gemaakte inhoud.
 * Moedigt aan om bij te dragen aan door de gemeenschap gecreëerde inhoud waar mogelijk.

Het taalteam werkt nu aan de ontwerp- en onderzoeksaspecten van het project om de beste manieren te identificeren om MinT op Wikipedia te laten zien en de technische onderzoeken te maken om de service in dit verband te laten werken.



MinT breder beschikbaar
De werkzaamheden op de voorgaande initiatieven zullen bijdragen tot het verfijnen en versterken van het systeem. Voorlopig is de MinT API alleen beschikbaar voor Wikimedia-producten. Als het systeem klaar is, overwegen we een bredere beschikbaarheid. Het leveren van een service die op innovatieve manieren door een gemeenschap kan worden gebruikt, kan een zeer krachtig hulpmiddel zijn. In de toekomst zullen nieuwe initiatieven worden opgenomen om MinT breder beschikbaar te maken. In de tussentijd kunt u uw eigen MinT-instantie configureren om er mee te experimenteren.

A message well received by the attendees.
 * Een voltooide initiële ontwerp exploratie om 5 concepten te illustreren hoe machine-vertaalde inhoud uit andere talen voor Wikipedia-artikelen eruit kan zien.
 * Voltooid mogelijkheden van MinT in Content Translation voor Lingurian, waar de gemeenschap verdere verduidelijkingen over MinT verlangde, en de laatste set van 14 talen die met het NLLB-200-model ondersteund konden worden.
 * De MinT voor vertaalbare pagina's is ingeschakeld op de test wiki
 * Expanded exposure of MinT with the enablement of Content Translation mobile and desktop experiences as default in 7 Wikipedias supported by MinT (Cherokee, Tongan, Hungarian, Kazakh, Kyrgyz, Minangkabau, and Sardinian).
 * Completed the validation for all languages supported by the translation models used by MinT as part of the final QA for enabling the new translation service.
 * Santhosh presented at the 10th Workshop on Asian Translation emphasizing the need for machine translation to be universal, free, and available in more languages.
 * Research planning started with an initial draft of the research brief for MinT on Wikipedia
 * Continuing technical explorations for applying machine translation beyond plain text (what underlying models provide) to support the Wikipedia context: A new improved approach for sentence segmentation (with a demo page to try) that provides a more accurate way to identify when a sentence ends in different languages, and with a preference to avoid splitting in case of doubt (preferred in the context of machine translation to avoid fragmenting the context of a translation, for example, misinterpreting the dot of an abbreviation as a fullstop).


 * Successful exploration for the use of MinT to translate structured formats such as HTML, SVG and markdown.
 * Completed the deprecation of Youdao, an external translation service that was failing for a long time.
 * Continued design exploration for MinT on Wikipedia with new and updated workflows based feedback.
 * Identified languages which can benefit the most from new OpusMT models
 * Made MinT the default translation service for Zulu in Content Translation


 * Enabled machine translation with MinT (and communicating with communities) for 75 new languages: 62 languages where the mobile translation experience is available, and 13 languages where translation quality from other services may not be ideal based on the MT usage report data and/or community feedback.
 * Validation of previous enablements: identified issues with Bhojpuri and with Latvian where MinT was not available due to mismatches with the language codes used by Wikipedias, MinT and the underlying translation models.
 * Initial design explorations and prototypes on ways we could integrate MinT in Wikipedia
 * Improved Mint translation post-processing to better support languages using the Arabic script by avoiding extra paces after fullstops.
 * Completed the integration of the IndicTrans2 model by verifying the enablement of all their 23 supported languages.
 * Initial analysis of activity for Wikipedia communities that are supported with MinT for the first time to identify potential pilot wikis for future research and as early adopters.
 * Enablement of MinT on translatewiki.net for the use in localization of Wikimedia and other open projects.