Département Wikimedia de génie linguistique/Infolettre/2024/Janvier

This page is a translated version of the page Wikimedia Language engineering/Newsletter/2024/January and the translation is 100% complete.

Merci de lire le numéro de janvier 2024 de l’infolettre Langues et Internationalisation de l’équipe linguistique de Wikimedia Foundation !

Ce bulletin vous informe chaque trimestre des actualités concernant le développement de nouvelles fonctionnalités, les améliorations dans divers projets techniques concernant les langues et travail d’assistance assimilé, les réunions communautaires et les possibilités de s’impliquer dans les projets.

S’abonner à l’infolettre

Principales actus

Wikipédia en fon, officiellement lancée après cinq ans d’incubation dans Wikimedia

La Wikipédia en fon, née lors du Hackathon Wikimedia 2018 à Barcelone, a officiellement été lancée après avoir été validée dans l’Incubateur ! Le fon est parlé par des millions de béninois et de togolais, pour beaucoup, il s’agit de leur langue maternelle. Au Bénin, elle est aussi une langue nationale. Il a fallu cinq ans pour créer cette nouvelle Wikipédia en fon. Puisque de nombreuses personnes ne pouvaient pas écrire en fon, et que les langues originaires d’Afrique attirent moins l’attention que les autres, construire une communauté autour de ce projet a été un vrai défi pour celles et ceux qui l’ont démarré^[1]. Découvrez par ailleurs les quatre nouvelles éditions linguistiques de projets Wikimedia approuvées récemment (Wikipédia en dagaare, Wikipédia en amazigh marocain, Wikipédia en batak toba, et Wikiquote en banjar).

Introduction de Sentencex, un outil de traitement automatique des langues (TAL) amélioré et d’extraction multilingue de phrases

L’équipe linguistique vient de lancer un nouvel outil appelé Sentencex, disponible en Python et en Javascript. La segmentation des phrases, une partie essentielle de traitement automatique des langues, est la séparation d’un texte en phrases distinctes. Ce processus a diverses utilités et améliore les fonctionnalité linguistiques et la vitesse de traitement, notamment dans le nouveau système de traduction automatique de Wikimedia (MinT) et pour le projet de traduction de section^[2].

L’outil est sur GitHub, vous pouvez le tester.

Le service de traduction MinT, dispible sur 55 nouvelles Wikipédia double le contenu et devient le second plus utilisé

Le nouveau service de traduction automatique, MinT, qui propose désormais la traduction sur 55 Wikipédia pour la première fois, a un impact positif sur les communautés linguistiques de Wikimedia. Sa prise en charge de nombreuses langues a permis de doubler le nombre de traductions publiées, et les articles créés avec MinT ont un taux de suppression faible (1,72 %). MinT est désormais utilisé dans 8 % des traductions publiées avec l’outil de traduction de contenu, devenant ainsi le second service de traduction utilisé dans Wikipédia après Google Traduction, en quelques mois à peine^[3].

Le service d’identification de la langue devient disponible dans 200 langues

L’équipe linguistique a créé un service ouvert d’identification de la langue pour détecter automatiquement la langue dans laquelle un texte donné est écrit, pour simplifier les interactions utilisateur dans les plateformes de Wikimedia. Le service prend en charge la détection de 201 langues et tout le monde peut utiliser l’API pour utiliser le service. Le service subit actuellement les dernières vérifications, notamment pour être sûr qu’il puisse résister à un trafic important^[4].

Wikisource reconnait désormais les textes manuscrits grâce à Transkribus

La reconnaissance du texte écrit à la main est désormais possible sur Wikisource grâce au moteur de ROC Transkribus. Celui-ci, basée sur une IA, simplifie le traitement des manuscrits en offrant différents modèles adaptés aux différents alphabets, périodes historiques et autres facteurs. Le moteur Transkribus est désormais disponible comme option à côté de Google et de Tesseract. Il est opérationnel sur les Wikisource listées sur cette page^[5].

Un tableau de bord unifié pour la traduction de section sur ordinateur et sur mobile

L’équipe linguistique travaille activement à l’adoption d’un tableau de bord unifié sur ordinateur et mobile, pour traduire des sections. Conçu à l’origine pour mobile dans l’Outil de traduction de contenu, il est désormais redéfini pour fonctionner uniformément sur les plateformes, en proposant un environnement amélioré de traduction. Actuellement en bêta, vous pouvez le tester sur la Wikipédia de test ou sur tout wiki où la traduction de section est activée, en utilisant le paramètre « unified-dashboard=true » (exemple : ig.wikipedia.org/wiki/Special:ContentTranslation?unified-dashboard=true).

Ce tableau de bord unifié propose une expérience de traduction similaire sur les différentes plateformes. Les utilisateurs peuvent commencer sur ordinateur et continuer sur un mobile, ou inversement. Il prend aussi en charge la traduction de section sur ordinateur, donnant une flexibilité entre les appareils.

Réunions et évènements communautaires

La prochaine réunion communautaire linguistique est prévue pour le mercredi 21 février, de 12 h à 13 h UTC. Si vous voulez y participer, vous pouvez vous inscrire en cliquant sur le lien fourni. Vous voulez partager une actualité technique concernant votre projet ? N’hésitez pas à l’ajouter à la section « Technical updates » de l’ordre du jour.
Au cas où vous auriez manqué la première réunion communautaire linguistique de novembre 2023, vous pouvez la rattraper en regardant l’enregistrement vidéo et en lisant les notes.

Participer

Si vous recherchez des tâches techniques, jetez un œil aux tâches faciles qui n’ont pas encore été attribuées dans les divers dépôts de projets linguistiques sur le Phabricator de Wikimedia.
Si vous recherchez des outils pour modifier et traduire des articles et des messages d’interface, vous pouvez utiliser l’outil de traduction de contenu et Spécial:Translate sur Translatewiki.net. Ces outils facilitent le travail avec des contenus dans différentes langues.
Faites vos retours sur les pages de discussion des outils linguistiques.

À bientôt pour le prochain numéro ! Vous pouvez vous inscrire à cette infolettre.

Références

[1] ttps://diff.wikimedia.org/2023/10/04/welcome-to-the-fon-wikipedia/

[2] ttps://diff.wikimedia.org/2023/10/23/sentencex-empowering-nlp-with-multilingual-sentence-extraction/

[3] ttps://diff.wikimedia.org/2023/11/20/unlocking-the-worlds-languages-in-wikipedia-a-look-into-mints-impact-so-far/

[4] ttps://diff.wikimedia.org/2023/10/24/open-language-identification-api-for-200-languages/

[5] ttps://diff.wikimedia.org/2023/07/13/enabling-handwritten-text-recognition-on-wikisource-using-transkribus-ocr-engine/

[1]

[2]

[3]

[4]

[5]