MinT

From mediawiki.org
This page is a translated version of the page MinT and the translation is 100% complete.

MinT (Machine in Translation) is een machine vertaaldienst gebaseerd op open source neurale machine vertaalmodellen. De dienst wordt gehost in de infrastructuur van de Wikimedia Foundation en draait vertaalmodellen die zijn vrijgegeven door andere organisaties onder een open source-licentie. Een open machine vertalingsdienst kan een belangrijke onderdeel zijn van de essentiële infrastructuur van het ecosysteem van vrije kennis. Deze pagina bevat de initiatieven om de schaalbaarheid van de dienst te vergroten en deze infrastructuur breder beschikbaar te maken.

U kunt MinT proberen via projecten zoals Inhoud Vertaling en translatewiki.net, of direct in een testomgeving.

Over MinT

MinT is ontworpen om vertalingen van meerdere machinevertalingsmodellen aan te bieden. Er wordt gebruik gemaakt van de volgende modellen:

  • NLLB-200. Het laatste model van het No Language Left Behind project van een onderzoeksteam bij Meta. Dit model ondersteunt vertaling in 200 talen, waaronder veel die niet door andere leveranciers worden ondersteund.
  • OpusMT.. Het OPUS (Open Parallel Corpus) project van de Universiteit van Helsinki maakt meertalige inhoud beschikbaar, samen met een gratis licentie om de OpusMT-vertalingsmodellen te trainen. Iedereen kan gemakkelijk bijdragen aan de verbetering van de vertaalkwaliteit door deel te nemen aan de verschillende projecten die gegevens bijwerken voor OPUS. Bijvoorbeeld, wanneer u Content translation gebruikt om vertalingen van Wikipedia-artikelen te maken, wordt de data over gepubliceerde vertalingen opgenomen als een nieuwe bron om de vertalingskwaliteit voor de volgende versie van het model te verbeteren. Een andere snelle manier om bij te dragen is door met Tatoeba zinnenvertalingen te verstrekken.
  • IndicTrans2. Het IndicTrans2 project biedt vertaalmodellen aan voor meer dan 20 Indo-Arische talen. Deze modellen zijn ontwikkeld door AI4Bharat@IIT Madras, een onderzoeksgroep van het Indian Institute of Technology Madras.
  • Softcatalà. Softcatalà is een non-profit organisatie die zich richt op het verbeteren van het gebruik van het Catalaans in digitale producten. Als onderdeel van het Softcatalà Translation project zijn vertaalmodellen beschikbaar die in hun vertaaldienst worden gebruikt om 10 talen naar en van het Catalaans te vertalen.
  • MADLAD-400. MADLAD-400 is a multilingual machine translation model by Google Research that supports 419 languages.

MinT ondersteunt meer dan 200 talen, met meer dan 70 talen die niet worden ondersteund door andere diensten (waaronder 27 talen waarvoor nog geen Wikipedia is). U kunt meer lezen over de eerste release van MinT en de lijst met veelgestelde vragen bekijken op de samenvattingspagina.

Technische details

De vertalingsmodellen zijn geoptimaliseerd voor prestaties met behulp van de OpenNMT Ctranslate2 bibliotheek om de behoefte aan GPU-versnelling te vermijden. Dit maakt het voor organisaties en individuen gemakkelijker om hun eigen instanties op te bouwen en te draaien. Voor meer details kunt u de broncode, de API-specificatie of de testinstallatie bekijken.

MinT biedt een platform om meerdere vertaalmodellen uit te voeren. Om verschillende initiatieven te ondersteunen, zijn aspecten zoals zinsegmentatie, taalherkenning, voor- en na-verwerking van inhoud en ondersteuning voor opgemaakte inhoud bovenop de modellen gebaseerd op platte tekst, ontwikkeld.

Doe mee

U kunt terugkoppeling delen op de overlegpagina. Geplande verbeteringen worden vastgelegd in Phabricator (meer informatie), waar u problemen kunt melden, voorstellen voor uitbreidingen kunt doen, de vorderingen van elke taak kunt volgen en uw perspectief erover kunt delen. Voor het afgeronde werk kunt u hier onder de voortgang volgen.

MinT voor vertalers

Mobiele vertaling met gebruik van MinT

Vertaling is een veel voorkomende manier om bij te dragen aan het Wikimedia-ecosysteem voor meertalige gebruikers. Machinevertaling kan een nuttige eerste vertaling bieden voor vertalers om te bekijken en te verbeteren. Het taalteam heeft hulpmiddelen ontwikkeld om vertalingen in hun werkstromen te ondersteunen die verschillende machinevertalingsdiensten kunnen integreren om hun processen te versnellen. Zodra MinT beschikbaar was, was de integratie ervan met deze hulpmiddelen een logische volgende stap om hun impact te versterken. MinT is beschikbaar in de volgende projecten:

MinT voor lezers van Wikipedia

Het aantal onderwerpen en de hoeveelheid informatie die een lezer kan leren van Wikipedia, hangt af van de talen die de lezer beheerst. Machinevertaling kan mensen helpen meer te lezen over voor hun van belang zijnde onderwerpen wanneer dat artikel niet in hun taal beschikbaar is.

Dit initiatief onderzoekt hoe de machinevertalingsondersteuning van MinT in Wikipedia-artikelen op een manier te worden opgevoerd die:

  • Lezers in staat stelt meer te lezen over over hun onderwerpen in andere talen
  • Er is duidelijk een verschil tussen automatisch gegenereerde inhoud en door de gemeenschap gemaakte inhoud.
  • Moedigt aan om bij te dragen aan door de gemeenschap gecreëerde inhoud waar mogelijk.

Het taalteam werkt nu aan de ontwerp- en onderzoeksaspecten van het project om de beste manieren te identificeren om MinT op Wikipedia te laten zien en de technische onderzoeken te maken om de service in dit verband te laten werken.

MinT breder beschikbaar

De werkzaamheden op de voorgaande initiatieven zullen bijdragen tot het verfijnen en versterken van het systeem. Voorlopig is de MinT API alleen beschikbaar voor Wikimedia-producten. Als het systeem klaar is, overwegen we een bredere beschikbaarheid. Het leveren van een service die op innovatieve manieren door een gemeenschap kan worden gebruikt, kan een zeer krachtig hulpmiddel zijn. In de toekomst zullen nieuwe initiatieven worden opgenomen om MinT breder beschikbaar te maken. In de tussentijd kunt u uw eigen MinT-instantie configureren om er mee te experimenteren.

Status updates

februari 2024

januari 2024

december 2023

november 2023

oktober 2023

  • Launched the Language Identification service to automatically detect in which language is written a given text. The service supports the detection of 201 languages, and anyone can access the API to use the service or read the model card for more details. Machine Learning team completed the last checks after deploying to LiftWing and evaluating that the service can "easily withstand a high amount of traffic".
  • Basic support for rich text translation by supporting transferring of markup to apply styling such as words in bold from the source text into the equivalent ones in the machine translation (which lacks format since translation models operate with plain-text).
  • Completed the process to enable MinT for languages with no Wikipedia yet . Translation models in MinT support 25 languages for which there is no Wikipedia. These can be tested in MinT's test instance for speakers of those languages to assess quality, and ensures that translation tools are well-equipped once wikis are created for those languages (as it has been the case with the recent graduation of Fon Wikipedia out of incubator).
  • Completed the process to enable MinT for closely-related languages based on Community input . For some languages where machine translation is not available, Wikipedia editors have asked to have access to machine translation in Content Translation using a related language instead of having no support at all. With this enablement translators of Gan (gan) Wikipedia will have machine translation based on the traditional script variant of Chinese as a starting point.
  • Analysis of translation activity on 55 languages for which MinT provides machine translation for the first time shows how (a) translations have increased 2X since MinT is available, and (b) deletion rates have not increased. Activity levels for these 55 wikis changed from ~500 translations/month, to 1K+ translations/month after MinT was enabled. For example, a recent peak of 2.15K translations were published in August 2023 when MinT was available for those languages, which is a significant increase from 225 translations in August 2022 when MinT was not available for them.
  • Better visibility of translation quality by including a tag in translations where unedited machine translation is close to the limits. This will facilitate analysis about translation quality and limits.

september 2023

augustus 2023

juli 2023

̈* Validering van eerdere mogelijkheden: er zijn problemen geïdentificeerd met Bhojpuri en met Lets waar MinT niet beschikbaar was vanwege ongelijke taalcodes die worden gebruikt in Wikipedia, MinT en de onderliggende vertaalmodellen.