MinT
MinT (Machine in Translation) est un service de traduction automatique basé sur des modèles de traduction neuronaux automatiques open source.
Le service est hébergé dans l'infrastructure de la Fondation Wikimedia et il exécute des modèles de traduction publiés par d'autres organisations avec une licence open source.
Un service de traduction automatique ouvert peut être une partie clé de l'infrastructure essentielle de l'écosystème de la connaissance libre.
Cette page présente les initiatives visant à étendre le service et à rendre cette infrastructure disponible le plus largement.
Vous pouvez essayer MinT dans le cadre de projets tels que la traduction de contenu et translatewiki.net ou directement dans une instance de test.
Aperçu des initiatives MinT
La traduction automatique peut être utile dans différents contextes. Alors que de plus en plus de produits utilisent MinT pour différents objectifs, il est utile de différencier ces différents contextes. De cette façon, lorsque les utilisateurs signalent un bogue, il est plus clair où il doit être corrigé.
- MinT Service. Service du serveur qui utilise les modèles de traduction neuronnale automatique open source.
- MinT test instance. Une interface de base pour essayer les différents modèles de traduction.
- MinT for Translators. Initiative visant à intégrer le service MinT aux outils qui prennent en charge d'autres services de traduction automatique tels que la traduction de contenu et l'extension Translate.
- MinT Client for Content Translation. Client exposant le service MinT comme l'un des services de traduction automatique disponible dans la traduction de contenu.
- MinT Client for Translate extension. Client exposant le service MinT comme l'un des services de traduction automatique disponible dans l'extension Translate.
- MinT for Wiki Readers. Produit permettant aux lecteurs d'utiliser la traduction automatique pour lire le contenu d'autres langues sur un wiki.
Vous pouvez en apprendre davantage sur chacune des initiatives MINT ci-dessous.
Participer
Vous pouvez partager vos commentaires sur la page de discussion. Les améliorations prévues sont rassemblées dans Phabricator (informations supplémentaires), vous pouvez signaler un problème ou proposer des améliorations, suivre l'avancement de chacune des tâches et partager votre point de vue sur elle. Vous pouvez également vérifier pour les travaux terminés, les mises à jour de l'état ci-dessous.
Service MinT
Le service MinT est conçu pour fournir des traductions à partir de plusieurs modèles de traduction automatique. Actuellement, les modèles suivants sont utilisés :
- NLLB-200. Le dernier modèle du projet No Language Left Behind (Aucune langue mise de côté) par une équipe de recherche de Meta. Ce modèle supporte la traduction de 200 langues, y compris celles qui ne sont pas prises en charges par les autres vendeurs.
- OpusMT. Le projet OPUS (Open Parallel Corpus) de l'Université d'Helsinki compile des contenus multilingues avec une licence gratuite pour entraîner les modèles de traduction OpusMT. Chacun peut facilement contribuer à améliorer la qualité de la traduction en participant aux différents projets qui contribuent aux données d'OPUS. Par exemple, lorsque vous utilisez la Traduction de contenu pour créer des traductions d'articles Wikipedia, les données des traductions publiées seront incorporées comme une nouvelle ressource pour améliorer la qualité de la traduction pour la prochaine version du modèle. Une autre façon rapide de contribuer est de fournir les traductions des phrases avec Tatoeba.
- IndicTrans2. Le Projet IndicTrans2 fournit des modèles de traduction pour prendre en charge plus de 20 langues indiennes. Ces modèles ont été développés par AI4Bharat@IIT Madras, un groupe de recherche de l'Institut indien de technologie de Madras.
- Softcatalà. Softcatalà est une organisation à but non lucratif qui vise à améliorer l'utilisation du catalan dans les produits numériques. Dans le cadre du projet de traduction Softcatalà, des modèles de traduction utilisés dans leur service de traduction pour traduire 10 langues vers et depuis le catalan ont été publiés.
- MADLAD-400. MADLAD-400 is a multilingual machine translation model by Google Research that supports 419 languages.
MinT prend en charge plus de 200 langues, avec plus de 70 langues non prises en charge par les autres services (y compris 27 langues pour lesquelles il n'existe pas encore de Wikipedia). Vous pouvez lire davantage sur la sortie initiale de MinT et consulter certaines questions fréquemment posées dans la page de synthèse du service.
Détails techniques
Les modèles de traduction ont été optimisés pour les performances en utilisant la bibliothèque OpenNMT Ctranslate2 afin d'éviter l'accélération de la GPU. Cela facilite la création et la gestion de leurs propres instances aux organisations et aux individus. Pour plus de détails, vous pouvez consulter :
MinT fournit une plateforme pour exécuter plusieurs modèles de traduction. Afin de soutenir différentes initiatives, des aspects tels que la segmentation des phrases, la détection de la langue, le pré/post-traitement du contenu et le support du format riche ont été développés au-dessus des modèles basés sur le texte simple.
Instance de test
L'instance de test https://translate.wmcloud.org/ MinT est une interface de base pour tester les différents modèles de traduction. Il permet de traduire les contenus dans les paires de langues sélectionnées et de choisir le modèle de traduction préféré lorsque plusieurs modèles sont disponibles. Cela permet à différentes communautés de vérifier la compatibilité des modèles avec leur langue. Cette instance est destinée aux essais, de sorte que les performances et la disponibilité peuvent être réduites par rapport à d'autres produits à base de MinT. Vous pouvez vérifier la disponibilité de l'instance de test MinT.
MinT pour les traducteurs
La traduction est une façon commune de contribuer à l'écosystème Wikimedia pour les utilisateurs multilingues. La traduction automatique peut fournir une traduction initiale utile à l'utilisateur pour qu'il la révise et l'améliore. L'équipe linguistique a développé des outils pour soutenir les traductions dans leurs flux de travail qui peuvent intégrer différents services de traduction automatique pour accélérer leurs processus. Une fois que MinT était disponible, son intégration avec ces outils était une étape logique pour amplifier leur impact. MinT est disponible dans les projets suivants :
- La Traduction du contenu. La traduction de contenu fournit des conseils pour créer la traduction d'un article Wikipedia dans une autre langue. La Traduction de contenu intègre plusieurs services de traduction pour fournir une traduction initiale. You can check which languages supported by MinT are available in Content Translation
- Infrastructure de localisation. L' extension Translate fournit l'infrastructure utilisée pour traduire nos logiciels et nos pages multilingues. Les communautés de traducteurs l'utilisent sur translatewiki.net, Wikimedia Meta-wiki, MediaWiki.org et plus encore.
MinT pour les lecteurs de wiki
Le nombre de sujets et la quantité d'informations qu'un lecteur peut apprendre de Wikipédia et d'autres wikis dépendent des langues qu'il parle. La traduction automatique peut aider les gens à en apprendre davantage sur les sujets qui les intéressent lorsqu'ils ne sont pas disponibles dans leur langue.
Cette initiative explore comment mettre en évidence le support de traduction automatique de MinT dans les articles de Wikipedia de manière à :
- Permet aux lecteurs d'en apprendre plus sur les sujets d'intérêt dans les autres langues.
- Différencie clairement le contenu généré automatiquement de celui créé par la communauté.
- Encourage à accéder et à contribuer au contenu créé par la communauté lorsque cela est possible.
Actuellement l'équipe des langues travaille sur les implémentations initiales de cette initiative en se basant sur la recherche et sur phab:T359072 l'architecture. Les apprentissages basés sur les données et les contributions de la communauté détermineront les prochaines étapes de l'initiative.
MinT disponible plus largement
Le travail sur les initiatives précédentes contribuera à affiner et à solidifier le système. Pour l'instant, l'API MinT est uniquement disponible pour les produits Wikimedia. Alors que le système se prépare, nous envisagerons une exposition plus large. Fournir un service qui peut être utilisé par les communautés de manière innovante peut être un outil très puissant. De nouvelles initiatives visant à rendre la MINT plus largement disponible seront prises en compte ici à l'avenir. Pendant ce temps, n'hésitez pas à configurer votre propre instance MinT pour expérimenter avec elle.
Clauses de non-responsabilité
- Précision des traductions MinT - La précision des traductions générées par MinT peut varier. Les traductions peuvent ne pas être entièrement exactes et ne pas toujours transmettre le sens ou le contexte prévu du contenu original. Wikimedia ne fait aucune déclaration ou garantie concernant l'exactitude ou l'adéquation du contenu traduit automatiquement.
- Limites de la responsabilité - Wikimedia, ses sociétés affiliées et ses employés ne sont pas responsables des dommages directs, indirects, incidentaux, punitifs ou conséquents, y compris, mais sans s'y limiter, des dommages pour la bonne volonté, l'utilisation, les données ou toute autre perte immatérielle résultant de l'utilisation de MinT ou des traductions générées avec MinT ou en relation avec celle-ci.
- Conformité avec Creative Commons - Les traductions générées avec MinT sont considérées comme des œuvres dérivées en vertu de la licence Creative Commons applicable régissant le contenu original. Les utilisateurs doivent respecter les termes de la licence Creative Commons applicable lorsqu'ils utilisent des contenus traduits.
- Conditions d'utilisation et politique de confidentialité - L'utilisation de MinT est soumise aux conditions d'utilisation de Wikimedia et à la politique de confidentialité.
Liste des mises à jour
février 2024
- Adjustement des limites de la traduction pour le punjabi suite à la demande de la communauté afin qu'elles soient moins strictes étant donné la meilleure qualité de la traduction automatique.
- La recherche sur MinT pour les lecteurs de Wikipédia est terminée. Deux rapports ont été publiés sur la page de recherche
- support du multi-modèle pour l'instance de test de MinT. Permettre aux communautés prises en charge par plusieurs modèles de traduction, d'essayer, de comparer et d'évaluer la qualité pour déterminer quel modèle fonctionne le mieux.
janvier 2024
décembre 2023
- Une nouvelle instance plus grande a été créée pour MinT. La taille de la mémoire a été augmentée pour répondre aux besoins de MinT suite à l'augmentation de l'utilisation et du nombre de modèles disponibles.
- De nouveaux concepts d'architecture pour présenter MinT aux lecteurs Wikipedia ont été créés en se basant sur les entrées de la recherche initiale. Les prototypes multilingues ont été mis à jour pour tirer les leçons des nouveaux concepts de la prochaine série de recherches.
- Ajustement de la visibilité de MinT dans l'extension Translate pour éviter d'afficher des suggestions de traduction de contenu incluant des balises wikicode
novembre 2023
- Meilleur support du wikicode en améliorant la gestion des erreurs lorsque MinT traite le wikicode.
- Le plan de recherche est finalisé et les sessions de recherche ont commencé.
- Analyse de la nouvelle API avancée pour la fragmentation des phrases afin de prendre en charge les besoins du cas d'utilisation EditCheck et d'autres.
- Réactivité améliorée de l'instance de test MinT en évitant que certaines demandes de traduction restent bloquées.
- MinT a été défini comme service de traduction par défaut pour la traduction de contenu en langue kurde (ku) et en sesotho (st) où il est facultatif mais fréquemment utilisé.
- Une nouvelle instance plus grande a été créée pour MinT. La taille de la mémoire a été augmentée pour répondre aux besoins de MinT suite à l'augmentation de l'utilisation et du nombre de modèles disponibles.
- De nouveaux concepts d'architecture pour présenter MinT aux lecteurs Wikipedia ont été créés en se basant sur les entrées de la série initiale de recherches.
- Rapport publié analysant l'utilisation des services de traduction automatique
octobre 2023
- MinT est pris en charge maintenant dans la Traduction de contenu pour Fon, une Wikipedia validée récemment de Incubator.
- La bibliothèque sentencex est annoncée : Empowering Natural Language Processing (NLP) with Multilingual Sentence Extraction - bibliothèque Python et JavaScript qui répond aux besoins de la segmentation des phrases pour toutes les langues que nous supportons.
- La cartographie du modèle est proposée pour identifier la langue en tant que partie de la création d'un service LiftWing pour fournir ces possibilités à MinT et aux autres.
- La nouvelle approche de segmentation des phrases a été présentée dans la Traduction de contenu et des sections pour la valider avec des contenus réels. Résolution des cas rapportés par la communauté tels que les problèmes de traduction des décisions de justice.
- L'instance de test de MinT fournit des noms de langues cohérents avec ceux de Wikipedia en utilise les API de Wikipedia à la place des capacités de traduction limitées du navigateur.
- Le service d'identification de la langue a été activé pour détecter automatiquement la langue d'un texte donné. Le service peut détecter 201 langues, et chacun peut accéder à l'API pour utiliser le service ou lire la cartographie du modèle pour plus de détails. L'équipe de l'apprentissage automatique a terminé les dernières vérifications après avoir déployé avec LiftWing et a jugé que le service pouvait facilement supporter un niveau de important trafic.
- Support de base pour la traduction du texte enrichi en prenant en charge le transfert du balisage pour appliquer les styles tels que les mots en gras à partir du texte source vers leur équivalent dans la traduction automatique (qui n'utilise pas de format car les modèles de traduction travaillent sur un texte brut).
- Finalisation du processus pour activer MinT sur les langues qui n'ont pas encore de Wikipedia. Les modèles de traduction dans MinT prennent en charge 25 langues pour lesquelles il n'y a pas de Wikipédia. Elles peuvent être testées dans l'instance de test de MinT pour que les locuteurs de ces langues en évaluent la qualité et confirment que les outils de traductions sont bien prêts pour ces langues une fois les wiki créés (comme cela a été le cas avec la récente promotion de Fon Wikipedia venue de l'Incubateur).
- Processus finalisé permettant d'avoir MinT pour des langues très voisines basé sur les entrées de la communauté. Pour certaines langues dans lesquelles la traduction automatique n'est pas disponible, les éditeurs de Wikipédia ont demandé à avoir accès à la traduction automatisée dans la traduction du contenu en utilisant une langue liée plutôt que de n'avoir aucun support. Avec cette possibilité, les traducteurs de la Wikipedia Gan (gan) auront comme point de départ la traduction automatique basée sur la variante traditionnelle de l'écriture chinoise.
- Analyse de l'activité de traduction sur 55 langues pour lesquelles MinT fournit la traduction automatique montre pour la première fois comment (a) les traductions ont doublé depuis que MinT est disponible, et (b) les taux de suppression n'ont pas augmenté. Les niveaux d'activité pour ces 55 wikis ont changé d'environ 500 traductions par mois, à plus de 1000 traductions par mois après l'activation de MinT. Par exemple, un pic récent de 2150 traductions a été publié en août 2023 lorsque MinT était disponible pour ces langues, ce qui représente une augmentation significative par rapport à 225 traductions en août 2022 lorsque MinT n'était pas disponible pour elles.
- Meilleure visibilité sur la qualité de la traduction en incluant une marque dans les traductions où la tradu tion automatique non modifiée est proche des limites. Ceci va faciliter l'analyse de la qualité de la traduction et les limites.
- Prototypes créés pour la recherche à venir illustrant 5 concepts sur la manière d'utiliser MinT par les lecteurs de Wikipedia et prenant en charge les 4 langues sur lesquelles nous conduirons les recherches : l'hindi, chattisgarhi, awadhi et coréen.
- Améliorations de MinT pour traiter les contenus davantage prédictibles contenant des passages à la ligne.
septembre 2023
- Exploration initiale de conception terminée pour illustrer 5 concepts sur la façon de surmonter les contenus traduits par machine d'autres langues pour les articles de Wikipedia
- Complément terminé des capacités de MinT pour la traduction de contenu lingurien, où la communauté a demandé d'autres éclaircissements sur MinT, et le dernier ensemble de 14 langues pouvant être pris en charge avec le modèle NLLB-200.
- Activation de Mint pour les pages traductibles sur le wiki de test
- diffusion croissante de MinT avec l'activation de la traduction de contenu sur mobile et les expériences pour bureau par défaut sur 7 Wikipedia supportéées par MinT (cherokee, tongien, hongrois, kazakh, kirghize, minoen et sarde).
- validation terminée pour toutes les langues prises en charge par les modèles de traduction utilisés par MinT comme partie de la QA finale pour activer le nouveau service de traduction.
- Santhosh présenté au 10e atelier de la traduction asiatique a mis en avant le besoin pour la traduction automatique d'être universelle, libre et disponible dans plusieurs langues. Un message bien reçu des participants.
- l'agenda de la recherche a commencé par une ébauche initiale courte de la recherche sur Mint pour Wikipedia
- Suite des explorations techniques pour appliquer la traduction automatique au delà du texte brut (ce que fournissent les modèles sous-jascents) pour prendre en charge le contexte de Wikipedia : une nouvelle approche améliorée pour la segmentation des phrases (avec une page de démonstration pour essayer) qui fournit une manière plus précise d'identifier la fin de phrase dans les différentes langues, et avec une préférence pour éviter la découpe en cas de doute (préférée dans le contexte de la traduction automatique pour éviter de fragmenter le contexte d'une traduction, par exemple, interprétation à tord du point dans une abréviation en tant que fin de phrase).
août 2023
- Expérience réussie pour l' utilisation de MinT pour traduire des formats structurés tels que le HTML, SVG et markdown.
- service de traduction externe Youdao déclaré obsolète, en échec depuis longtemps.
- poursuite de la recherche continue dans la conception de MinT sur Wikipedia avec des commentaires basés sur des flux de travail nouveaux et mis à jour.
- Identification des langues qui peuvent tirer le meilleur parti des nouveaux modèles OpusMT
- Déclaration de MinT comme service de traduction par défaut pour le zoulou pour la traduction de contenu
juillet 2023
- activation de la traduction automatique avec MinT (et communication avec les communautés) pour 75 nouvelles langues : 62 langues pour la traduction par là où l'expérience est disponible, et 13 langues où la qualité de la traduction des autres services ne serait pas idéale basées sur les données du rapport d'utilisation de MT et/ou les commentaires de la communauté.
- validation des activations précédentes : problèmes identifiés avec Bhojpuri et avec Latvian où MinT n'était pas disponible à cause de différences avec les codes de langue utilisés par les Wikipedia, MinT et les modèles de traduction sous jascents.
- Conception initiale et prototypes sur les manières d'implémenter MinT dans Wikipedia
- Amélioration du post traitement de traduction Mint pour prendre en charge les langues utilisant l'alphabet arabe en en évitant les espaces supplémentaires après les arrêts.
- L'intégration du modèle IndicTrans2 est terminée en vérifiant que toutes ses 23 langues sont prises en charge.
- L'analyse initiale de l'activité pour les communautés Wikipedia qui sont soutenues par MinT pour la première fois afin d'identifier les wikis pilotes potentiels pour la recherche future et en tant qu'adopteurs précoces.
- Activation de MinT sur translatewiki.net pour la traduction de Wikimedia et autres projets ouverts.