コンテンツ翻訳/機械翻訳/MinT

From mediawiki.org
This page is a translated version of the page Content translation/Machine Translation/MinT and the translation is 86% complete.

MinT(ミント=Machine in Translation)という機械翻訳サービスは、オープンソースの中立的な機械翻訳モデルに基づいています。 サービスはウィキメディア財団のインフラ上にホストして利用可能な機械翻訳(MT= machine translation)システムの一覧に載せてあり、コンテンツ翻訳拡張機能の利用者やウィキメディアのその他のプロジェクト群から参照できます。 提供された翻訳は、NLLB-200OPUSIndicTrans2Softcatalà の翻訳モデルに基づいており、これらのモデルは OpenNMT Ctranslate2 ライブラリ を使用してパフォーマンスを最適化することで、GPU アクセラレーションの必要性を回避しています。 詳細情報はソースコードAPI スペック試験の例をご参照ください。

鍵となる機能

  • 非公開の個人情報は一切、MinT に送信しません。 この MT システムへのアクセスには、固有の API を経由します。 記事のコンテンツ(フリーのライセンス付き)を MinT サーバに送信するときに、利用者と外部サービスの間に直接のやり取りは発生しないため、利用者の非公開の個人情報(IPアドレスや利用者名)は全然 MinT サービスに送信しません。 MinT に問い合わせを送るクライアントはオープンソースであり、詳細はこちらでご覧ください。 ウィキメディアのインフラ上にホストしてあると言っても、MinT サービスの統合は、他の外部サービス同様のパターンに従います(技術セットアップはこの節の最後に図がありますのでご参照ください。)
  • MinT から返される著作権の対象となる情報は、自由なライセンスの下で提供されます。 MinT を使用すると、ウィキペディアのコンテンツの翻訳版が取得されます。 このような機械生成のコンテンツの著作権対象性は、法的な疑問が残されている問題です。 MinT の翻訳が著作権の対象である範囲では、これらの翻訳は翻訳元のウィキペディアのコンテンツと同じ自由なライセンスの下で利用できます。 利用者は既存の方針との衝突なく、それを修正しウィキペディアの一部として公開できます。 MinT の翻訳と利用者の変更の成果物は、ウィキペディアの他の記事と同じライセンスの下で利用可能になります。
  • より広範なオープンソースの翻訳コミュニティの役にたつ点。MinT が出力して利用者が修正した訳文は、公開されています。後編集(ポストエディット)を加えた訳文は翻訳の研究コミュニティから寄せられる関心が高く、これをリソースとしてまだオープンソースの機械翻訳が提供されていない言語を対象に新規の翻訳サービス創出に使うことができます。こうすると開発者を支援し、機械翻訳システムの創出と改善が進展すると期待されます。
  • 利用者の判断で無効にできます。自動翻訳はコンテンツ翻訳においてオプションのツールという位置付けです。利用者の皆さんは、何かの理由で使えないと判断した場合は、無効にしてください。コンテンツ翻訳機能の利用者には翻訳サービスのリクエストをする人が多いものの、結局、使うかどうかは個々人の判断に任されています。

MTクライアントのコミュニケーション図

サービスに関する質問

この節ではMinTに関する当面の問題を取り上げます。コンテンツ翻訳のよくある質問ページ(FAQ=英語)に他の情報を載せてあります。

MinTで使用できる言語と追加の予定

MinT は複数の翻訳モデルを公開で提供するように設計してあります。そこで対応言語数もそれぞれ異なります。利用できる機械翻訳(MT)システムの一覧には、最新の一覧を載せてあります。

MinTは他の機械翻訳システムと利用にどんな違いがありますか?

コンテンツ翻訳機能の利用者として、皆さんは翻訳インタフェースに大した違いを感じないかもしれませんが、MinT は対応言語ペアごとに Apertium その他のサービスと同じ形態で翻訳済みのコンテンツを表示します。翻訳サービスには使用言語およびコンテンツの特性に応じて、それぞれの訳文の品質が異なります。そこで利用者の皆さんには試しに利用できるサービスを切り替えてみて、特定の段落に対してサービスが出力する訳文が最も優れたものを探してみてください。

MinTを使用すると機械翻訳の作業はどう進みますか?

ある利用者が記事の翻訳を開始すると、翻訳原文のそれぞれの節単位で HTML 形式のコンテンツが MinT に渡されます。MinT サービスは受け取ったリクエストを処理し、対応言語と設定に照らして翻訳モデルをどれか一つを採用します。訳文のバージョンを取得するとコンテンツ翻訳機能の訳文用の縦枠に表示します。リンクや脚注は通常どうりに転用され、利用者は必要に応じてコンテンツを修正します。

この工程が翻訳対象の記事の節すべてに対して続きます。あらかじめ一続きの節をまとめて取り込み処理能力を向上させています。利用者は通常どおり記事を公開するほか、(作業を後で再開するため)未公開の翻訳を保存できます。記事は通常の記事同様、該当する権利の帰属とライセンスのもとにウィキペディアに公開されます。

手順を示す図はこちらをご参照ください。

MinTはオープンソースに基づいていますか?

MinTサービスはオープンソースであり、同様にオープンソースで入手できる以下のモデルを統合します。

これらのモデルはパフォーマンスの最適化にOpenNMT Ctranslate2 ライブラリを採用、これもオープンソースのライブラリです。

Content Translation evolved from a long-standing need to bridge the gap in the amount of content between Wikipedias in different languages. Like all other software used on Wikimedia sites, Content Translation is also open source. In this particular case as well, we are using an open source client to interact with the external service and import freely licensed content in order to help users expand our free knowledge. To use MinT we are not adding any proprietary software in the Content Translation code, or on the Wikimedia websites and servers.

MinTを使うときに自分の個人情報に危惧はありますか?

Irrespective of the service being used, you can be sure that only Wikipedia content from existing articles is sent and only freely licensed content will be added back to the translation. Communication with those services happens at the server side, so they are isolated from the user device and they have no access to nonpublic personal information of users. Please refer to this diagram for more details.

もしも機械翻訳ツールがMinTしか使えない状況なのに、これを使いたくない場合は?

Machine Translation is an optional feature in Content Translation that you can easily disable at will. If more machine translation systems are added for your languages, you can choose to enable MT again and select the MT service of your choice.

ウィキペディアでMinTの機械翻訳を使うのは無料ですか?

Yes. The content received from MinT is otherwise freely available on the web translation platform. For ease of use Content Translation receives it via an API to make it seamlessly available on the translation interface. This content can be modified by the users (if necessary) and used in Wikipedia articles under free licenses.

この内容は全般的な機械翻訳の改良に利用できますか?

Yes. Translations made in Content Translation are saved in our database. This information will be made publicly available for anyone to use as translation examples to improve their translation services (from University research groups, open source projects to commercial companies, anyone!). The content can be accessed via the Content Translation API. Please note, only information related to translated text is publicly available. This includes – source and translated text, source and target language information and an identifier for the segment of text.