MinT/nl

MinT (Machine in Translation) is een machine vertaaldienst gebaseerd op open source neurale machine vertaalmodellen. De dienst wordt gehost in de infrastructuur van de Wikimedia Foundation en draait vertaalmodellen die zijn vrijgegeven door andere organisaties onder een open source-licentie. Een open machine vertalingsdienst kan een belangrijke onderdeel zijn van de essentiële infrastructuur van het ecosysteem van vrije kennis. Deze pagina bevat de initiatieven om de schaalbaarheid van de dienst te vergroten en deze infrastructuur breder beschikbaar te maken.

U kunt MinT proberen via projecten zoals Inhoud Vertaling en translatewiki.net, of direct in een testomgeving.



Over MinT
MinT is ontworpen om vertalingen van meerdere machinevertalingsmodellen aan te bieden. In de eerste instantie wordt gebruik gemaakt van de volgende modellen:


 * NLLB-200. Het laatste model van de No Language Left Behind project van een onderzoeksteam bij Meta. Dit model ondersteunt vertaling in 200 talen, waaronder veel die niet door andere leveranciers worden ondersteund.
 * OpusMT.. Het OPUS (Open Parallel Corpus) project van de Universiteit van Helsinki maakt meertalige inhoud beschikbaar, samen met een gratis licentie om de OpusMT-vertalingsmodellen te trainen. Iedereen kan gemakkelijk bijdragen aan de verbetering van de vertaalkwaliteit door deel te nemen aan de verschillende projecten die gegevens bijwerken voor OPUS. Bijvoorbeeld, wanneer u Content translation gebruikt om vertalingen van Wikipedia-artikelen te maken, wordt de data over gepubliceerde vertalingen opgenomen als een nieuwe bron om de vertalingskwaliteit voor de volgende versie van het model te verbeteren. Een andere snelle manier om bij te dragen is door met Tatoeba zinnenvertalingen te verstrekken.
 * IndicTrans2. Het IndicTrans2 project biedt vertaalmodellen aan voor meer dan 20 Indo-Arische talen. Deze modellen zijn ontwikkeld door AI4Bharat@IIT Madras, een onderzoeksgroep van het Indian Institute of Technology Madras.
 * Softcatalà. Softcatalà is een non-profit organisatie die zich richt op het verbeteren van het gebruik van het Catalaans in digitale producten. Als onderdeel van het Softcatalà Translation project zijn vertaalmodellen beschikbaar die in hun vertaaldienst worden gebruikt om 10 talen naar en van het Catalaans te vertalen.

MinT ondersteunt meer dan 200 talen, met meer dan 50 talen die niet worden ondersteund door andere diensten (waaronder 27 talen waarvoor nog geen Wikipedia is). U kunt meer lezen over de eerste release van MinT en de lijst met veelgestelde vragen bekijken op de samenvattingspagina.



Technische details
De vertalingsmodellen zijn geoptimaliseerd voor prestaties met behulp van de OpenNMT Ctranslate2 bibliotheek om de behoefte aan GPU-versnelling te vermijden. Dit maakt het voor organisaties en individuen gemakkelijker om hun eigen instanties op te bouwen en te draaien. Voor meer details kunt u de broncode, de API-specificatie of de testinstallatie bekijken.

MinT biedt een platform om meerdere vertaalmodellen uit te voeren. Om verschillende initiatieven te ondersteunen, zijn aspecten zoals zinsegmentatie, taalherkenning, voor- en na-verwerking van inhoud en ondersteuning voor opgemaakte inhoud bovenop de modellen gebaseerd op platte tekst, ontwikkeld.



Doe mee
U kunt terugkoppeling delen op de overlegpagina. Geplande verbeteringen worden vastgelegd in Phabricator (meer informatie), waar u problemen kunt melden, voorstellen voor uitbreidingen kunt doen, de vorderingen van elke taak kunt volgen en uw perspectief erover kunt delen. Voor het afgeronde werk kunt u hier onder de voortgang volgen.



MinT voor vertalers
Vertaling is een veel voorkomende manier om bij te dragen aan het Wikimedia-ecosysteem voor meertalige gebruikers. Machinevertaling kan een nuttige eerste vertaling bieden voor vertalers om te bekijken en te verbeteren. Het taalteam heeft hulpmiddelen ontwikkeld om vertalingen in hun werkstromen te ondersteunen die verschillende machinevertalingsdiensten kunnen integreren om hun processen te versnellen. Zodra MinT beschikbaar was, was de integratie ervan met deze hulpmiddelen een logische volgende stap om hun impact te versterken. MinT is beschikbaar in de volgende projecten:


 * Content Translation. Content Translation biedt begeleiding om een vertaling van een Wikipedia-artikel in een andere taal te maken. Content Translation integreert verschillende vertaaldiensten om een eerste vertaling te leveren.
 * Localisatie-infrastructuur. De extensie Translate biedt de infrastructuur die wordt gebruikt om onze software en meertalige pagina's te vertalen. De meeste vertalers gebruiken het op Translatewiki.net, Wikimedia Meta-wiki, Mediawiki.org en op andere plaatsen.



MinT voor lezers van Wikipedia
Het aantal onderwerpen en de hoeveelheid informatie die een lezer kan leren van Wikipedia, hangt af van de talen die de lezer beheerst. Machinevertaling kan mensen helpen meer te lezen over voor hun van belang zijnde onderwerpen wanneer dat artikel niet in hun taal beschikbaar is.

Dit initiatief onderzoekt hoe de machinevertalingsondersteuning van MinT in Wikipedia-artikelen op een manier te worden opgevoerd die:


 * Lezers in staat stelt meer te lezen over over hun onderwerpen in andere talen
 * Er is duidelijk een verschil tussen automatisch gegenereerde inhoud en door de gemeenschap gemaakte inhoud.
 * Moedigt aan om bij te dragen aan door de gemeenschap gecreëerde inhoud waar mogelijk.

Het taalteam werkt nu aan de ontwerp- en onderzoeksaspecten van het project om de beste manieren te identificeren om MinT op Wikipedia te laten zien en de technische onderzoeken te maken om de service in dit verband te laten werken.



MinT breder beschikbaar
De werkzaamheden op de voorgaande initiatieven zullen bijdragen tot het verfijnen en versterken van het systeem. Voorlopig is de MinT API alleen beschikbaar voor Wikimedia-producten. Als het systeem klaar is, overwegen we een bredere beschikbaarheid. Het leveren van een service die op innovatieve manieren door een gemeenschap kan worden gebruikt, kan een zeer krachtig hulpmiddel zijn. In de toekomst zullen nieuwe initiatieven worden opgenomen om MinT breder beschikbaar te maken. In de tussentijd kunt u uw eigen MinT-instantie configureren om er mee te experimenteren.


 * MinT is now supported in Content Translation for Fon, a Wikipedia that graduated recently from incubator.
 * Announced sentencex library: sentencex: Empowering NLP with Multilingual Sentence Extraction - A python and js library to meet the needs of sentence segmentation for all the languages we support.
 * Proposed model card for language identification as part of the creation of a LiftWing service to provide those capabilities for MinT and others.


 * The new sentence segmentation approach has been exposed in Content and Section Translation to validate it with real contents. Resolved community-reported issues such as the problems translating court cases.
 * MinT test instance provides consistent language names with Wikipedia by using Wikipedia APIs instead of the limited browser localization capabilities.


 * Launched the Language Identification service to automatically detect in which language is written a given text. The service supports the detection of 201 languages, and anyone can access the API to use the service or read the model card for more details. Machine Learning team completed the last checks after deploying to LiftWing and evaluating that the service can "easily withstand a high amount of traffic".
 * Basic support for rich text translation by supporting transferring of markup to apply styling such as words in bold from the source text into the equivalent ones in the machine translation (which lacks format since translation models operate with plain-text).
 * Completed the process to enable MinT for languages with no Wikipedia yet . Translation models in MinT support 25 languages for which there is no Wikipedia. These can be tested in MinT's test instance for speakers of those languages to assess quality, and ensures that translation tools are well-equipped once wikis are created for those languages (as it has been the case with the recent graduation of Fon Wikipedia out of incubator).
 * Completed the process to enable MinT for closely-related languages based on Community input . For some languages where machine translation is not available, Wikipedia editors have asked to have access to machine translation in Content Translation using a related language instead of having no support at all. With this enablement translators of Gan (gan) Wikipedia will have machine translation based on the traditional script variant of Chinese as a starting point.


 * Analysis of translation activity on 55 languages for which MinT provides machine translation for the first time shows how (a) translations have increased 2X since MinT is available, and (b) deletion rates have not increased. Activity levels for these 55 wikis changed from ~500 translations/month, to 1K+ translations/month after MinT was enabled. For example, a recent peak of 2.15K translations were published in August 2023 when MinT was available for those languages, which is a significant increase from 225 translations in August 2022 when MinT was not available for them.
 * Better visibility of translation quality by including a tag in translations where unedited machine translation is close to the limits. This will facilitate analysis about translation quality and limits.


 * Created prototypes for upcoming research illustrating 5 concepts on how MinT can be used by Wikipedia readers and supporting the 4 languages we will conduct research in: Hindi, Chattisgarhi, Awadhi, and Korean.
 * Improvements for MinT to process more predictably contents with new lines in them.


 * Een voltooide initiële ontwerp exploratie om 5 concepten te illustreren hoe machine-vertaalde inhoud uit andere talen voor Wikipedia-artikelen eruit kan zien.
 * Voltooid mogelijkheden van MinT in Content Translation voor Lingurian, waar de gemeenschap verdere verduidelijkingen over MinT verlangde, en de laatste set van 14 talen die met het NLLB-200-model ondersteund konden worden.
 * De MinT voor vertaalbare pagina's is ingeschakeld op de test wiki
 * Uitgebreid gebruik van MinT voor Content Translation mobiele en desktop ervaringen als standaard in 7 ondersteunde talen (Cherokee, Tongaans, Hongaars, Kazachs, Kirgizisch, Minangkabau en Sardijns).
 * De validatie voltooid voor alle talen die worden ondersteund door de vertaalmodellen die door MinT worden gebruikt als onderdeel van de uiteindelijke QA voor het inschakelen van de nieuwe vertaalservice.
 * Santhosh gepresenteerd op de 10e workshop over Aziatische vertaling benadrukte de noodzaak van machinevertaling om universeel, gratis en beschikbaar te zijn in meer talen. Een bericht goed ontvangen door de deelnemers.
 * De onderzoeksplanning begon met een eerste versie van de onderzoeksopdracht voor MinT op Wikipedia
 * Voortdurende technische verkenningen voor het toepassen van machinevertaling buiten platte tekst (wat onderliggende modellen bieden) om de Wikipedia-context te ondersteunen: een nieuwe verbeterde aanpak voor zinssegmentatie (met een demopagina om te proberen) die een nauwkeurigere manier biedt om te identificeren wanneer een zin eindigt in verschillende talen, en met een voorkeur om splitsing in geval van twijfel te voorkomen (bij voorkeur in de context van machinevertaling om fragmentatie van de context van een vertaling te voorkomen, bijvoorbeeld het verkeerd interpreteren van de punt van een afkorting als een fullstop).


 * Succesvolle niet-exploratie voor het gebruik van MinT om gestructureerde formaten te vertalen zoals HTML, SVG en markdown.
 * Voltooid, het verwijderen van Youdao, een externe vertaaldienst die al lang niet werkte.
 * Op basis van nieuwe en bijgewerkte werkstromen het geven van feedback.
 * Talen geïdentificeerd die het meeste kunnen profiteren van nieuwe OpusMT-modellen.
 * Voor Zulu is MinT de standaard vertaalservice gemaakt voor Content Translation

̈* Validering van eerdere mogelijkheden: er zijn problemen geïdentificeerd met Bhojpuri  en met Lets waar MinT niet beschikbaar was vanwege ongelijke taalcodes die worden gebruikt in  Wikipedia, MinT en de onderliggende vertaalmodellen.
 * Machine vertaling met MinT (en communiceren met gemeenschappen) is ingeschakeld voor 75 nieuwe talen: 62 talen waar de mobiele vertalingservaring beschikbaar is, en 13 talen waar de vertalingskwaliteit van andere diensten misschien niet ideaal is op basis van het MT-gebruikersrapport gegevens en / of feedback van de gemeenschap.
 * Initiële ontwerpprocessen en prototypes over manieren om MinT in Wikipedia te integreren
 * Verbeterde naverwerking van de Mint-vertaling om talen met behulp van het Arabische script beter te ondersteunen door extra stappen na fullstops te vermijden.
 * Voltooide integratie van het IndicTrans2-model door het inschakelen van alle 23 ondersteunde talen te verifiëren.
 * Initiële analyse van activiteit voor Wikipedia-gemeenschappen die voor het eerst worden ondersteund met MinT om potentiële pilot-wiki's te identificeren voor toekomstig onderzoek en als vroege adopters.
 * Enabilisatie van MinT op translatewiki.net voor gebruik in de lokalisatie van Wikimedia en andere open projecten.