MinT/zh

MinT (機器輔助翻譯) 是基於開元神經機器翻譯模型開發的機器翻譯服務. 該服務屬於維基媒體基金會的基礎建設，執行其他組織發布的開源協議翻譯模型. 開放的機器翻譯服務可以是打造自由知識生態系的重要基礎建設中的關鍵環節. 此頁面會收集擴大服務適用範圍方面的倡議.

您可以在個別專案如 Translatewiki.net 和安裝內容翻譯功能的專案中試用 MinT 功能，也可以直接使用測試樣品.



關於 MinT
MinT 採用多個機器翻譯模型提供語言翻譯. 初始版本使用的模型如下：

MinT 支援 200 多種語言，包括 50 多種其他同類服務不支援的語言 (其中有 27 種維基百科尚未支援的語言). 您可以進一步了解 MinT 的最初發布版本，並在服務的簡介頁面查看一些常見問題.
 * NLLB-200. 這是 Meta 研究團隊的 No Language Left Behind project 提供的最新模型. 此模型支援 200 種語言翻譯，包括多種其他同類模型支援範圍以外的語言.
 * OpusMT. 赫爾辛基大學的 OPUS (Open Parallel Corpus) project 編譯多門語言的自由協議內容，用以訓練 OpusMT 翻譯模型. 人人都可以透過參與給 OPUS 提供資料的專案，提升翻譯品質. 例如，使用內容翻譯功能建立維基百科條目的翻譯時，已發布的譯文的資料會成為下一版模型提升翻譯品質的新資源. 向 Tatoeba 提供翻譯例句也有助於改善翻譯品質.
 * IndicTrans2. IndicTrans2 專案提供的翻譯模型支援 20 多種印度語言. 這些模型開發於印度理工學院馬德拉斯校區的 AI4Bharat 實驗室.
 * Softcatalà. Softcatalà 是非營利組織，力圖改進加泰蘭文在數位產品中的應用. 該組織提供的翻譯器服務使用的翻譯模型支援 10 種語言與加泰蘭文間的互譯，是 Softcatalà 翻譯專案的一部分，現已公開發布.



技術詳情
翻譯模型使用 OpenNMT Ctranslate2 腳本櫃進行了效能最佳化，以減少 GPU 加速需求. 這讓組織與個人更容易建立並執行自己的樣品. 如需更多詳情，請查看原始程式碼、API 明細以及測試樣品.

MinT 提供執行多個翻譯模型的平台. 為了支援各種情況，語句分節、語言偵測、內容的預先/後期處理以及富文字支援等方面優先於純文字模型開發.



參與其中
歡迎隨時在討論頁面分享意見反應. Phabricator 收集了各種改進計畫，您可以提供改進方案或回報問題、跟蹤工作進度並分享個人觀點. 您也可以在下方查看成品的狀態情報.



譯者用 MinT
在維基媒體生態系中，掌握多門語言的使用者經常透過翻譯的手段為生態系做貢獻. 機器翻譯可以為使用者提供有參考價值的譯文，經審核與改進後即可實際使用. 編輯流程中提供了語言團隊開發的翻譯工具，可整合各種機器翻譯服務的譯文，提升翻譯效率. MinT 功能推出後，自然要將其與這些工具整合，以進一步增強輔助功效. 支援 MinT 功能的有以下幾個專案：


 * 內容翻譯. 內容翻譯功能協助指引將維基百科條目翻譯為另外一種語言. 內容翻譯功能整合多個翻譯服務以提供初始翻譯建議.
 * 當地語系化基礎建設. 翻譯功能提供用於翻譯我們的軟體和多語言頁面的基礎建設. 翻譯者社群會在Translatewiki.net、維基媒體元維基、Mediawiki.org 等網站使用這些基礎建設.

維基百科讀者用 MinT
讀者可以從維基百科上了解的話題數量與資訊量取決於他們掌握的語言. 機器翻譯可以協助人們在他們不掌握的語言中了解感興趣的話題.

此方案探討了如何在維基百科條目中呈現 MinT 的機器翻譯協助，以便：


 * 讓讀者可以從其他語言中進一步了解感興趣的話題
 * 明確區分社群建立的內容和自動產生的內容.
 * 鼓勵使用者在能力範圍內為社群建立更多內容.

語言團隊此時正在進行專案的設計與研發工作，尋找在維基百科上呈現 MinT 的最好方式，並對服務在此場合的實用進行技術探索.



擴大 MinT 適用範圍
研究先前的方案有助於改善與加強系統. 目前，MinT API 僅支援維基媒體產品. 待系統就緒，我們將考慮擴大支援範圍. 社群可以以創新方式使用的服務可以是非常強大的工具. 未來，這裡會收集擴大 MinT 適用範圍方面的新倡議. 屆時，請隨時設定並試驗自己的 MinT 樣品.




 * 已完成最初的設計探索，闡述如何呈現機器翻譯自其他語言的維基百科條目的 5 個概念
 * 已為利古里亞語的內容翻譯功能啟用 MinT，以應社群請求對 MinT 和搭配 NLLB-200 模型即可支援的最後 14 種語言的進一步說明.
 * 已於測試 Wiki 為可翻譯頁面啟用 Mint 功能
 * 已為 7 個支援 MinT 功能的維基百科於行動端與桌面端預設啟用 MinT 功能，擴大 MinT 功能的適用範圍 (切羅基文、湯加文、匈牙利文、哈薩克文, 吉爾吉斯文、米南佳保文與薩丁尼亞文).
 * 已驗證 MinT 功能使用的翻譯模型支援的所有語言，進一步完成啟用新的翻譯服務前的最終質保.
 * 桑托什出席第十次亞洲翻譯研討會，強調機器翻譯需要通用、免費，需要支援更多語言. 發言得到了出席者的認可.


 * Research planning started with an initial draft of the research brief for MinT on Wikipedia
 * Continuing technical explorations for applying machine translation beyond plain text (what underlying models provide) to support the Wikipedia context: A new improved approach for sentence segmentation (with a demo page to try) that provides a more accurate way to identify when a sentence ends in different languages, and with a preference to avoid splitting in case of doubt (preferred in the context of machine translation to avoid fragmenting the context of a translation, for example, misinterpreting the dot of an abbreviation as a fullstop).


 * Successful exploration for the use of MinT to translate structured formats such as HTML, SVG and markdown.
 * Completed the deprecation of Youdao, an external translation service that was failing for a long time.
 * Continued design exploration for MinT on Wikipedia with new and updated workflows based feedback.
 * Identified languages which can benefit the most from new OpusMT models


 * Made MinT the default translation service for Zulu in Content Translation


 * Enabled machine translation with MinT (and communicating with communities) for 75 new languages: 62 languages where the mobile translation experience is available, and 13 languages where translation quality from other services may not be ideal based on the MT usage report data and/or community feedback.
 * Validation of previous enablements: identified issues with Bhojpuri and with Latvian where MinT was not available due to mismatches with the language codes used by Wikipedias, MinT and the underlying translation models.


 * Initial design explorations and prototypes on ways we could integrate MinT in Wikipedia
 * Improved Mint translation post-processing to better support languages using the Arabic script by avoiding extra paces after fullstops.
 * Completed the integration of the IndicTrans2 model by verifying the enablement of all their 23 supported languages.
 * Initial analysis of activity for Wikipedia communities that are supported with MinT for the first time to identify potential pilot wikis for future research and as early adopters.
 * Enablement of MinT on translatewiki.net for the use in localization of Wikimedia and other open projects.