MinT/nl

MinT (Machine in Translation) is a machine translation service based on open-source neural machine translation models. The service is hosted in the Wikimedia Foundation infrastructure, and it runs translation models that have been released by other organizations with an open-source license. An open machine translation service can be a key piece of the essential infrastructure of the ecosystem of free knowledge. This page captures the initiatives to scale the service and make this infrastructure more widely available.

U kunt MinT proberen via projecten zoals Inhoud Vertaling en Translatewiki.net, of direct in een testomgeving.



Over MinT
MinT is ontworpen om vertalingen van meerdere machinevertalingsmodellen aan te bieden. In de eerste instantie wordt gebruik gemaakt van de volgende modellen:

MinT ondersteunt meer dan 200 talen, met meer dan 50 talen die niet worden ondersteund door andere diensten (waaronder 27 talen waarvoor nog geen Wikipedia is). U kunt meer lezen over de eerste release van MinT en de lijst met veelgestelde vragen bekijken op de samenvattingspagina.
 * "NLLB-200". Het laatste model van de No Language Left Behind project van een onderzoeksteam bij Meta. Dit model ondersteunt vertaling in 200 talen, waaronder veel die niet door andere leveranciers worden ondersteund.
 * OpusMT.. De OPUS (Open Parallel Corpus) project van de Universiteit van Helsinki maakt meertalige inhoud beschikbaar, samen met een gratis licentie om de OpusMT-vertalingsmodellen te trainen. Iedereen kan gemakkelijk bijdragen aan de verbetering van de vertaalkwaliteit door deel te nemen aan de verschillende projecten die gegevens bijwerken voor OPUS. Bijvoorbeeld, wanneer u Inhouds Vertaling gebruikt om vertalingen van Wikipedia-artikelen te maken, wordt de data over gepubliceerde vertalingen opgenomen als een nieuwe bron om de vertalingskwaliteit voor de volgende versie van het model te verbeteren. Een andere snelle manier om bij te dragen is door met Tatoeba zinnenvertalingen te verstrekken.
 * IndicTrans2. Het IndicTrans2 project biedt vertaalmodellen aan voor meer dan 20 Indo-Arische talen. Deze modellen zijn ontwikkeld door AI4Bharat@IIT Madras, een onderzoeksgroep van het Indian Institute of Technology Madras.
 * Softcatalà. Softcatalà is een non-profit organisatie die zich richt op het verbeteren van het gebruik van het Catalaans in digitale producten. Als onderdeel van het Softcatalà Translation project zijn vertaalmodellen beschikbaar die in hun vertaaldienst worden gebruikt om 10 talen naar en van het Catalaans te vertalen.



Technische details
De vertalingsmodellen zijn geoptimaliseerd voor prestaties met behulp van de OpenNMT Ctranslate2 bibliotheek om de behoefte aan GPU-versnelling te vermijden. Dit maakt het voor organisaties en individuen gemakkelijker om hun eigen instanties op te bouwen en te draaien. Voor meer details kunt u de broncode, de [|API-specificatie], of de [|testinstallatie] bekijken.

MinT biedt een platform om meerdere vertaalmodellen uit te voeren. Om verschillende initiatieven te ondersteunen, zijn aspecten zoals zinsegmentatie, taalherkenning, voor- en na-verwerking van inhoud en ondersteuning voor opgemaakte inhoud bovenop de modellen gebaseerd op platte tekst, ontwikkeld.



Doe mee
Feel free to share any feedback in the discussion page. Planned improvements are captured in Phabricator, you can propose improvements or report any issue, track the progress of any task, and share your perspective on it. For completed work you can also check the status updates below.



MinT voor vertalers
Translation is a common way to contribute in the Wikimedia ecosystem for multilingual users. Machine translation can provide a useful initial translation for users to review and improve. The Language team has developed tools to support translations in their workflows that can integrate different machine translation services to speed up their processes. Once MinT was available, integrating it with these tools was a logical next step to amplify their impact. MinT is available in the following projects:


 * Inhouds Vertaling. Inhouds Vertaling biedt begeleiding om een vertaling van een Wikipedia-artikel in een andere taal te maken. Inhouds Vertaling integreert verschillende vertaaldiensten om een eerste vertaling te leveren.
 * Localisatie-infrastructuur. De Translate-uitbreiding biedt de infrastructuur die wordt gebruikt om onze software en meertalige pagina's te vertalen. De meeste vertalers gebruiken het op Translatewiki.net, Wikimedia Meta-wiki, Mediawiki.org en meer.

MinT voor lezers van Wikipedia
The number of topics and the amount of information a reader can learn about from Wikipedia depends on the languages they speak. Machine translation can help people to learn more about their topics of interest when the content is not available in their language.

This initiative explores how to surface the machine translation support from MinT in Wikipedia articles in a way that:


 * Allows readers to learn more about the topics of interest from other languages
 * Clearly differentiates automatically generated content from community-created one.
 * Moedigt aan om bij te dragen aan door de gemeenschap gecreëerde inhoud waar mogelijk.

At the moment the Language team is working on the design and research aspects of the project to identify the best ways to surface MinT on Wikipedia and the technical explorations for the service to work in this context.

MinT more widely available
Working on the previous initiatives will help to polish and solidify the system. For now, the MinT API is only available for Wikimedia products. As the system gets ready, we'll consider a wider exposure. Providing a service that can be used by communities in innovative ways can be a very powerful tool. New initiatives to make MinT more widely available will be captured here in the future. Meanwhile, feel free to configure your own MinT instance to experiment with it.


 * Completed initial design exploration to illustrate 5 concepts on how to surface machine-translated contents from other languages for Wikipedia articles
 * Completed enablements of MinT in Content Translation for Lingurian, where the community requested further clarifications about MinT, and the last set of 14 languages that could be supported with the NLLB-200 model.
 * Enabled Mint for translatable pages on test wiki
 * Expanded exposure of MinT with the enablement of Content Translation mobile and desktop experiences as default in 7 Wikipedias supported by MinT (Cherokee, Tongan, Hungarian, Kazakh, Kyrgyz, Minangkabau, and Sardinian).
 * Completed the validation for all languages supported by the translation models used by MinT as part of the final QA for enabling the new translation service.
 * Santhosh presented at the 10th Workshop on Asian Translation emphasizing the need for machine translation to be universal, free, and available in more languages. A message well received by the attendees.


 * Research planning started with an initial draft of the research brief for MinT on Wikipedia
 * Continuing technical explorations for applying machine translation beyond plain text (what underlying models provide) to support the Wikipedia context: A new improved approach for sentence segmentation (with a demo page to try) that provides a more accurate way to identify when a sentence ends in different languages, and with a preference to avoid splitting in case of doubt (preferred in the context of machine translation to avoid fragmenting the context of a translation, for example, misinterpreting the dot of an abbreviation as a fullstop).


 * Successful exploration for the use of MinT to translate structured formats such as HTML, SVG and markdown.
 * Completed the deprecation of Youdao, an external translation service that was failing for a long time.
 * Continued design exploration for MinT on Wikipedia with new and updated workflows based feedback.
 * Identified languages which can benefit the most from new OpusMT models


 * Made MinT the default translation service for Zulu in Content Translation


 * Enabled machine translation with MinT (and communicating with communities) for 75 new languages: 62 languages where the mobile translation experience is available, and 13 languages where translation quality from other services may not be ideal based on the MT usage report data and/or community feedback.
 * Validation of previous enablements: identified issues with Bhojpuri and with Latvian where MinT was not available due to mismatches with the language codes used by Wikipedias, MinT and the underlying translation models.


 * Initial design explorations and prototypes on ways we could integrate MinT in Wikipedia
 * Improved Mint translation post-processing to better support languages using the Arabic script by avoiding extra paces after fullstops.
 * Completed the integration of the IndicTrans2 model by verifying the enablement of all their 23 supported languages.
 * Initial analysis of activity for Wikipedia communities that are supported with MinT for the first time to identify potential pilot wikis for future research and as early adopters.
 * Enablement of MinT on translatewiki.net for the use in localization of Wikimedia and other open projects.