MinT/fr

MinT (Machine in Translation) est un service de traduction automatique basé sur des modèles de traduction neuronaux automatiques open source. Le service est hébergé dans l'infrastructure de la Fondation Wikimedia et il exécute des modèles de traduction publiés par d'autres organisations avec une licence open source. Un service de traduction automatique ouvert peut être une partie clé de l'infrastructure essentielle de l'écosystème de la connaissance libre. Cette page présente les initiatives visant à étendre le service et à rendre cette infrastructure disponible le plus largement.

Vous pouvez essayer MinT dans le cadre de projets tels que la traduction de contenu et translatewiki.net ou directement dans une instance de test.



À propos de MinT
MinT est conçu pour fournir des traductions à partir de plusieurs modèles de traduction automatique. Initialement il utilise les modèles suivants :


 * NLLB-200. Le dernier modèle de No Language Left Behind project par une équipe de recherche de Meta. Ce modèle supporte la traduction de 200 langues, y compris celles qui ne sont pas prises en charges par les autres vendeurs.
 * OpusMT. Le OPUS (Open Parallel Corpus) project de l'Université d'Helsinki compile des contenus multilingues avec une licence gratuite pour former les modèles de traduction OpusMT. Chacun peut facilement contribuer à améliorer la qualité de la traduction en participant aux différents projets qui contribuent aux données d'OPUS. Par exemple, lorsque vous utilisez la Traduction de contenu pour créer des traductions d'articles Wikipedia, les données des traductions publiées seront incorporées comme une nouvelle ressource pour améliorer la qualité de la traduction pour la prochaine version du modèle. Une autre façon rapide de contribuer est de fournir les traductions des phrases avec Tatoeba.
 * IndicTrans2. Le projet IndicTrans2 fournit des modèles de traduction pour soutenir sur 20 langues indiennes. Ces modèles ont été développés par AI4Bharat@IIT Madras, un groupe de recherche de l'Institut indien de technologie de Madras.
 * Softcatalà. Softcatalà est une organisation à but non lucratif qui vise à améliorer l'utilisation du catalan dans les produits numériques. Dans le cadre du projet de traduction Softcatalà, des modèles de traduction utilisés dans leur service de traduction pour traduire 10 langues vers et depuis le catalan ont été publiés.

MinT prend en charge plus de 200 langues, avec plus de 50 langues non prises en charge par les autres services (y compris 27 langues pour lesquelles il n'existe pas encore de Wikipedia). Vous pouvez lire davantage sur la sortie initiale de MinT et consulter certaines questions fréquemment posées dans la page de synthèse du service.



Détails techniques
Les modèles de traduction ont été optimisés pour les performances en utilisant la bibliothèque OpenNMT Ctranslate2 afin d'éviter l'accélération de la GPU. Cela facilite la création et la gestion de leurs propres instances aux organisations et aux individus. Les détails peuvent être vérifiés dans le code source, les spécifications de l'API, et pour une instance de test.

MinT fournit une plateforme pour exécuter plusieurs modèles de traduction. Afin de soutenir différentes initiatives, des aspects tels que la segmentation des phrases, la détection de la langue, le pré/post-traitement du contenu et le support du format riche ont été développés au-dessus des modèles basés sur le texte simple.



Impliquez-vous
Vous pouvez partager vos commentaires sur la page de discussion. Les améliorations prévues sont rassemblées dans Phabricator (informations supplémentaires), vous pouvez signaler un problème ou proposer des améliorations, suivre l'avancement de chacune des tâches et partager votre point de vue sur elle. Vous pouvez également vérifier pour les travaux terminés, les mises à jour de l'état ci-dessous.



MinT pour les traducteurs
La traduction est une façon commune de contribuer à l'écosystème Wikimedia pour les utilisateurs multilingues. La traduction automatique peut fournir une traduction initiale utile à l'utilisateur pour qu'il la révise et l'améliore. L'équipe linguistique a développé des outils pour soutenir les traductions dans leurs flux de travail qui peuvent intégrer différents services de traduction automatique pour accélérer leurs processus. Une fois que MinT était disponible, son intégration avec ces outils était une étape logique pour amplifier leur impact. MinT est disponible dans les projets suivants :


 * La Traduction du contenu. La traduction de contenu fournit des conseils pour créer la traduction d'un article Wikipedia dans une autre langue. La Traduction de contenu intègre plusieurs services de traduction pour fournir une traduction initiale.
 * Infrastructure de localisation. L' extension Translate fournit l'infrastructure utilisée pour traduire nos logiciels et nos pages multilingues. Les communautés de traducteurs l'utilisent sur Translatewiki.net, les communautés de Wikimedia Meta-wiki, Mediawiki.org et plus encore.



MinT pour les lecteurs Wikipedia
Le nombre de sujets et la quantité d'informations qu'un lecteur peut apprendre de Wikipédia dépendent des langues qu'il parle. La traduction automatique peut aider les gens à en apprendre davantage sur les sujets qui les intéressent lorsqu'ils ne sont pas disponibles dans leur langue.

Cette initiative explore comment mettre en évidence le support de traduction automatique de MinT dans les articles de Wikipedia de manière à :


 * Permet aux lecteurs d'en apprendre plus sur les sujets d'intérêt dans les autres langues
 * Différencie clairement le contenu généré automatiquement de celui créé par la communauté.
 * Encourage à contribuer au contenu créé par la communauté lorsque cela est possible.

L'équipe de langue travaille actuellement sur les aspects de conception et de recherche du projet afin d'identifier les meilleurs moyens de généraliser MinT dans Wikipedia, et sur les recherches techniques pour que le service fonctionne dans ce contexte.



MinT disponible plus largement
Le travail sur les initiatives précédentes contribuera à affiner et à solidifier le système. Pour l'instant, l'API MinT est uniquement disponible pour les produits Wikimedia. Alors que le système se prépare, nous envisagerons une exposition plus large. Fournir un service qui peut être utilisé par les communautés de manière innovante peut être un outil très puissant. De nouvelles initiatives visant à rendre la MINT plus largement disponible seront prises en compte ici à l'avenir. Pendant ce temps, n'hésitez pas à configurer votre propre instance MinT pour expérimenter avec elle.




 * MinT is now supported in Content Translation for Fon, a Wikipedia that graduated recently from incubator.
 * Announced sentencex library: sentencex: Empowering NLP with Multilingual Sentence Extraction - A python and js library to meet the needs of sentence segmentation for all the languages we support.
 * Proposed model card for language identification as part of the creation of a LiftWing service to provide those capabilities for MinT and others.


 * The new sentence segmentation approach has been exposed in Content and Section Translation to validate it with real contents. Resolved community-reported issues such as the problems translating court cases.
 * MinT test instance provides consistent language names with Wikipedia by using Wikipedia APIs instead of the limited browser localization capabilities.


 * Launched the Language Identification service to automatically detect in which language is written a given text. The service supports the detection of 201 languages, and anyone can access the API to use the service or read the model card for more details. Machine Learning team completed the last checks after deploying to LiftWing and evaluating that the service can "easily withstand a high amount of traffic".
 * Basic support for rich text translation by supporting transferring of markup to apply styling such as words in bold from the source text into the equivalent ones in the machine translation (which lacks format since translation models operate with plain-text).
 * Completed the process to enable MinT for languages with no Wikipedia yet . Translation models in MinT support 25 languages for which there is no Wikipedia. These can be tested in MinT's test instance for speakers of those languages to assess quality, and ensures that translation tools are well-equipped once wikis are created for those languages (as it has been the case with the recent graduation of Fon Wikipedia out of incubator).
 * Completed the process to enable MinT for closely-related languages based on Community input . For some languages where machine translation is not available, Wikipedia editors have asked to have access to machine translation in Content Translation using a related language instead of having no support at all. With this enablement translators of Gan (gan) Wikipedia will have machine translation based on the traditional script variant of Chinese as a starting point.


 * Analysis of translation activity on 55 languages for which MinT provides machine translation for the first time shows how (a) translations have increased 2X since MinT is available, and (b) deletion rates have not increased. Activity levels for these 55 wikis changed from ~500 translations/month, to 1K+ translations/month after MinT was enabled. For example, a recent peak of 2.15K translations were published in August 2023 when MinT was available for those languages, which is a significant increase from 225 translations in August 2022 when MinT was not available for them.
 * Better visibility of translation quality by including a tag in translations where unedited machine translation is close to the limits. This will facilitate analysis about translation quality and limits.


 * Created prototypes for upcoming research illustrating 5 concepts on how MinT can be used by Wikipedia readers and supporting the 4 languages we will conduct research in: Hindi, Chattisgarhi, Awadhi, and Korean.
 * Improvements for MinT to process more predictably contents with new lines in them.


 * Exploration initiale de conception terminée pour illustrer 5 concepts sur la façon de surmonter les contenus traduits par machine d'autres langues pour les articles de Wikipedia
 * Complément terminé des capacités de MinT pour la traduction de contenu lingurien, où la communauté a demandé d'autres éclaircissements sur MinT, et le dernier ensemble de 14 langues pouvant être pris en charge avec le modèle NLLB-200.
 * Activation de Mint pour les pages traductibles sur le wiki de test
 * diffusion croissante de MinT avec l'activation de la traduction de contenu sur mobile et les expériences pour bureau par défaut sur 7 Wikipedia supportéées par MinT (cherokee, tongien, hongrois, kazakh, kirghize, minoen et sarde).
 * validation terminée pour toutes les langues prises en charge par les modèles de traduction utilisés par MinT comme partie de la QA finale pour activer le nouveau service de traduction.
 * Santhosh présenté au 10e atelier de la traduction asiatique a mis en avant le besoin pour la traduction automatique d'être universelle, libre et disponible dans plusieurs langues. Un message bien reçu des participants.
 * l'agenda de la recherche a commencé par une ébauche initiale courte de la recherche sur Mint pour Wikipedia
 * Suite des explorations techniques pour appliquer la traduction automatique au delà du texte brut (ce que fournissent les modèles sous-jascents) pour prendre en charge le contexte de Wikipedia : une nouvelle approche améliorée pour la segmentation des phrases (avec une page de démonstration pour essayer) qui fournit une manière plus précise d'identifier la fin de phrase dans les différentes langues, et avec une préférence pour éviter la découpe en cas de doute (préférée dans le contexte de la traduction automatique pour éviter de fragmenter le contexte d'une traduction, par exemple, interprétation à tord du point dans une abréviation en tant que fin de phrase).


 * Expérience réussie pour l' utilisation de MinT pour traduire des formats structurés tels que le HTML, SVG et markdown.
 * service de traduction externe Youdao déclaré obsolète, en échec depuis longtemps.
 * poursuite de la recherche continue dans la conception de MinT sur Wikipedia avec des commentaires basés sur des flux de travail nouveaux et mis à jour.
 * Identification des langues qui peuvent tirer le meilleur parti des nouveaux modèles OpusMT
 * Déclaration de MinT comme service de traduction par défaut pour le zoulou pour la traduction de contenu


 * activation de la traduction automatique avec MinT (et communication avec les communautés) pour 75 nouvelles langues : 62 langues pour la traduction par là où l'expérience est disponible, et 13 langues où la qualité de la traduction des autres services ne serait pas idéale basées sur les données du rapport d'utilisation de MT et/ou les commentaires de la communauté.
 * validation des activations précédentes : problèmes identifiés avec Bhojpuri et avec Latvian où MinT n'était pas disponible à cause de différences avec les codes de langue utilisés par les Wikipedia, MinT et les modèles de traduction sous jascents.
 * Conception initiale et prototypes sur les manières d'implémenter MinT dans Wikipedia
 * Amélioration du post traitement de traduction Mint pour prendre en charge les langues utilisant l'alphabet arabe en en évitant les espaces supplémentaires après les arrêts.
 * L'intégration du modèle IndicTrans2 est terminée en vérifiant que toutes ses 23 langues sont prises en charge.
 * L'analyse initiale de l'activité pour les communautés Wikipedia qui sont soutenues par MinT pour la première fois afin d'identifier les wikis pilotes potentiels pour la recherche future et en tant qu'adopteurs précoces.
 * Activavtion de MinT sur translatewiki.net pour la localisation de Wikimedia et des autres projets ouverts.