MinT
MinT(ミンティー:Machine in Translation)は、オープンソースのニューラル機械翻訳モデルに基づく機械翻訳サービスです。
当サービスはウィキメディア財団のインフラ上にホストされており、他の組織がリリースしたオープンソース・ライセンスの翻訳モデルを実行します。
無料の知識エコシステムのインフラにとって公開の機械翻訳サービスは鍵となります。
このページでは、サービスを拡大し、この翻訳装置をより広く使えるようにするための始め方を記録します。
MinT は、コンテンツ翻訳や translatewiki.net のようなプロジェクトの一環として試用したり、テストインスタンスで直接試用したりできます。
MinT イニシアティブの概要
機械翻訳は様々な文脈で有用になりえます。 より多くの製品が異なる目的のためにMinTを使用すると、これらの異なる文脈を区別することが便利になります。 こうすることで、利用者がバグを報告するときに修正が必要な場所がより明確になります。
- MinT Service. オープンソースのニューラル機械翻訳モデルを実行するバックエンドサービス。
- MinT test instance. 異なる翻訳モデルを試す基礎的なインターフェース。
- MinT for Translators. MinTサービスをコンテンツ翻訳やTranslate拡張機能のような他の機械翻訳サービスをサポートするツールと、それを統合する翻訳装置。
- MinT Client for Content Translation. コンテンツ翻訳で利用可能な機械翻訳サービスの内のひとつとしてMinTサービスを提示するクライアント。
- MinT Client for Translate extension. Translate 拡張機能で利用可能な機械翻訳サービスのひとつとして MinTサービスを提示するクライアント。
- MinT for Wiki Readers. 読者がウィキ上で他の言語によるコンテンツを機械翻訳を使用して読めるようにする製品。
それぞれのMinT翻訳装置についてより詳しくは以下をご覧ください。
参加する
フィードバックを提供するには協議ページに投稿してください。 改善計画はPhabricator で補足され(詳細情報)、間違った挙動を報告したり機能強化を提案したり、タスクの進捗を追跡したり、それに関する自分なりの視点を共有したりできます。 完了した作業については、以下の更新情報もご参照ください。
MinTサービス
MinT サービスの設計では訳文を複数の機械翻訳モデルから提供します。 現在のところ、以下のモデルを使用しています:
- NLLB-200 - メタの研究チームが手がけた最新モデル No Language Left Behind project です。 このモデルは200 言語にわたる翻訳に対応し、その中には他の翻訳サービスがサポートしていない言語も含まれます。
- OpusMT - ヘルシンキ大学が開発したOPUS (Open Parallel Corpus) projectはフリーライセンスの多言語コンテンツをまとめて翻訳モデルOpusMT 翻訳モデル(オーパスMT)を訓練しています。 誰でもさまざまなプロジェクトに参加してデータをOPUSプロジェクトに提供すると、翻訳の質向上に手軽に貢献できます。 例えば、利用者がウィキペディアの記事の翻訳を作成するときにコンテンツ翻訳拡張機能を使うと、公開した翻訳のデータはモデルの次バージョンの翻訳品質を改善するための新しいリソースとして取り入れられます。 利用者が手軽に貢献するもう一つの方法は、Tatoebaを使って訳文を提供することです。
- IndicTrans2 - IndicTrans2 プロジェクトは20言語以上のインド語群をサポートする翻訳モデルを提供します。 これらのモデルはインド工科大学マドラス校の研究グループ、 AI4Bharat@IIT Madrasによって開発されました。
- Softcatalà - Softcatalà はデジタル製品でカタルーニャ語の使用を改善することを目的とする非営利団体です。 Softcatalà 翻訳プロジェクトの一環として、10言語とカタルーニャ語の間の翻訳をする翻訳サービスで使用されている翻訳モデルをリリースしました。
- MADLAD-400. MADLAD-400 is a multilingual machine translation model by Google Research that supports 419 languages.
MinT は200言語以上をサポートし、そのうち 70 言語以上が他のサービスではサポートされていません(ウィキペディアがまだない27言語を含む)。 詳細はMinTの初期リリースについてご覧いただき、いくつかのよくある質問はサービスの概要ページをご確認ください。
技術的な詳細
GPUアクセラレーションが必要にならないように、翻訳モデルは OpenNMT Ctranslate2 library を使ってパフォーマンスについて最適化されています。 これによって組織や個人が独自のインスタンスをより簡単に構築し実行できるようになります。 詳細は以下をご確認ください:
MinT は複数の翻訳モデルを実行するためのプラットフォームを提供します。 さまざまな取り組みをサポートするためには、文のセグメント化、言語検出、コンテンツの前/後処理などの側面があり、それゆえリッチ形式サポートが平文テキスト・ベースのモデルに加えて開発されました。
テストインスタンス
MinT テストインスタンスは様々な翻訳モデルを試すための基礎的なインターフェースです。 選択した言語のペアで、翻訳モデルが複数利用可能なときには好きなモデルを選択してコンテンツを翻訳できます。 これにより様々なコミュニティが自分たちの言語がどのくらいモデルでサポートされているのか確認できます。 このインスタンスはテスト目的のため、パフォーマンスと可用性は他のMinTベースの製品に比べて減少している可能性があります。 MinT テストインスタンスの利用可能状態を確認できます。
翻訳者向けのMinT
翻訳は多言語利用者にとってウィキメディアエコシステムで貢献する一般的な方法です。 機械翻訳は利用者がレビューして改善するための有用な一次翻訳を提供できます。 言語チームは翻訳をワークフローの面で支援するツールを開発しました。このツールはプロセスを加速するために様々な機械翻訳サービスを統合できます。 MinTが利用可能になったら、 これらのツールを統合するのが影響力を増大させるための論理的な次のステップでした。 MinTは以下のプロジェクトで利用可能です:
- コンテンツ翻訳 - コンテンツ翻訳はウィキペディアの記事を他の言語に翻訳して作成するガイダンスを提供します。 コンテンツ翻訳は一次翻訳を提供するためにいくつかの翻訳サービスを統合しています。 You can check which languages supported by MinT are available in Content Translation
- 地域化インフラストラクチャー - Translate 拡張機能は私たちのソフトウェアおよび多言語ページの翻訳に利用されているインフラストラクチャーを提供します。 翻訳者のコミュニティが translatewiki.net 、ウィキメディアのメタウィキ、MediaWiki.orgなどで利用しています。
ウィキ読者向けのMinT
読者がウィキペディアやその他のウィキから学ぶことができる話題と情報の量は、読者が話す言語に依存します。 機械翻訳は興味のある話題について自分の言語でコンテンツが手に入らないときに人々を助けることができます。
この取り組みは以下のような方法でどうウィキペディア記事にMinTからの機械翻訳支援を表面化するか模索しています:
- 読者が興味のある話題について他言語からもっと学べるようにします。
- 自動的に生成されたコンテンツをコミュニティが作成したものと明確に区別します。
- 可能であればコミュニティが作成したコンテンツにアクセスして投稿することを推奨します。
現時点では言語チームは、この取り組みについてはリサーチおよびデザインに基づく初期実装に取り組んでいます。 データとコミュニティの意見に基づいた学習によって、この取り組みの次のステップが決まります。
さらに広く利用可能なMinT
前のイニシアティブにおける取り組みはシステムを洗練し固める助けになります。 今のところ、 MinT API はウィキメディア製品でのみ利用可能です。 システムの準備ができた時点で、より広く公開することを検討します。 革新的な方法でコミュニティが利用できるサービスを提供することで非常に強力なツールとなりえます。 MinT をより広く利用可能にするための新しいイニシアティブは将来ここに取り込まれる予定です。 それまでの間、独自の MinT インスタンスを自由に構成して実験してください。
免責事項
- Accuracy of MinT’s Translations - MinTによって生成される翻訳の正確性はばらつきがあります。 翻訳は完全に正確ではなかったり、元のコンテンツの文脈で意図されていた意味が常に伝わっているわけではなかったりします。 ウィキメディアは自動的に翻訳されたコンテンツの正確性や妥当性について声明や保証をしていません。
- Limitation of Liability - ウィキメディア、その関連団体、および従業員は、直接的、間接的、偶発的、懲罰的、または結果的損害(のれん、使用、データ、または、そこから生じるその他の無形の損失、またはMinTの使用に関連して、またはMinTで生成された翻訳に対する損害賠償を含みますが、これに限定されません)については責任を負いません。
- Creative Commons Compliance - MinTによって生成された翻訳は元のコンテンツに準拠する適切なクリエイティブ・コモンズ・ライセンスの下で二次的著作物とみなされます。 利用者は翻訳されたコンテンツを利用するときには、適用されるクリエイティブ・コモンズ・ライセンスの規約に従わなければなりません。
- Terms of Use and Privacy Policy - MinTの使用はウィキメディアの利用規約およびプライバシーポリシーに準拠します。
更新情報
2024年2月
- 機械翻訳の品質が向上したため、コミュニティの要求に応じてパンジャブ語の翻訳制限を調整し制限を緩和しました。
- ウィキペディア読者についてのMinTに関する研究は完了しました。 2つのレポートは研究ページで公開されました
- MinTテスト・インスタンスのマルチモデル・サポート。 複数の翻訳モデルでサポートされているコミュニティに試してもらい、どれが最もうまく機能するか判断するために、品質評価を比較してもらう。
2024年1月
- インフラストラクチャの更新(新しいPythonバージョンの恩恵を受けるため)。
2023年12月
- 新しいより大きなインスタンスがMinT用に作成されました。 使用量と利用可能なモデルが増加するにつれて、MinTのニーズに対応するためメモリ・クォータが増量されました。
- 初期研究からの入力に基づくウィキペディア読者にMinTを露出させるための新しいデザインコンセプトが作られてます。 多言語プロトタイプは次の研究ラウンドで新しい概念から学ぶために更新されました。
- ウィキテキスト・マークアップでコンテンツについての翻訳サジェスト表示を避けるために翻訳拡張でのMinTの露出は調整された
2023年11月
- MinTがウィキテキストを処理する時のエラー・ハンドリングの改善によってウィキテキストのサポートはより良くなる。
- 完了した研究計画は完璧であり、そして研究会が開始された。
- EditCheck利用ケースおよびその他のニーズをサポートするため文のセグメンテーションについての新しい高度なAPIが探索された。
- 行き詰まる翻訳リクエストを回避することによるMinTテストインスタンスの対応力の向上。
- MinTはオプションではあるが頻繁に使用される言語である、クルド語(ku)とセソト語(st)のコンテンツ翻訳のデフォルトの翻訳サービスとして設定されました。
- 新しいより大きなインスタンスがMinT用に作成されました。 使用量と利用可能なモデルが増加するにつれて、MinTのニーズに対応するためメモリ・クォータが増量されました。
- 研究の初期ラウンドからのインプットに基づくウィキペディアの読者にMinTを曝露するための新しいデザインコンセプトが作られました。
- 公開されたリポート 機械翻訳サービスの利用分析
2023年10月
- MinTはインキュベーターから最近卒業したウィキペディアである、Fonのコンテンツ翻訳でサポートされるようになりました。
- sentencexライブラリが発表された: sentencex: 多言語センテンス抽出でNLPに活力を与える - サポートするすべての言語のセンテンス・セグメンテーションのニーズを満たすためのPythonおよびJSライブラリ。
- MinTおよびその他にこれらの能力を供給するためのLiftWingサービスの創設の一環として提案された言語識別向けモデルカード。
- 新しい文のセグメンテーションのアプローチは実際の内容で検証するためにContent and Section Translationで曝露されている。裁判例の翻訳の問題など、コミュニティが報告した問題が解決された。
- MinTテストインスタンスは限られたブラウザのローカリゼーション機能の代わりに、ウィキペディアAPIを使用することでウィキペディアとの言語名の一貫性を提供する。
- 所与のテキストがどの言語で書かれているかを自動的に検出するため言語識別サービスが開始された。 このサービスは201言語の検出に対応し、そして誰でもサービスを使うためにAPIにアクセスでき、もしくは詳細について モデルカードを読めます。 機械学習チームはLiftWingへのデプロイ後最終チェックを完了したそして、サービスが"大量のトラフィックに簡単に耐えられる"と評価しています。
- 機械翻訳で原文から同等のものへの太字の単語などスタイリングを適用するためにマークアップの転送をサポートすることでリッチテキスト翻訳についての基礎サポートをします(翻訳モデルは平文で動作するため、形式は欠けます)。
- ウィキペディアがまだない言語についてのMinT有効化プロセスを完了しました。 MinTの翻訳モデルではウィキペディアが存在しない25言語がサポートされています。 これらはそれらの言語用のウィキが作成されるとそれらの言語の話者が品質を評価し、翻訳ツールが十分に装備されていることを確認するためにMinTのテストインスタンスでテストされます(Fon Wikipediaが最近インキュベーターから卒業したときも同様です)。
- コミュニティ入力に基づく密接に関連する言語のMinT有効化プロセスを完了しました。 機械翻訳が利用できない一部の言語については、ウィキペディア編集者は、サポートがまったくない代わりに関連する言語を使用して、コンテンツ翻訳で機械翻訳にアクセスできるように依頼しました。 この有効化により贛語 (gan) 版ウィキペディアの翻訳者は、中国語の伝統的な文字バリエーションに基づいた機械翻訳を出発点として利用する。
- MinTが初めて機械翻訳を提供する55言語の翻訳活動の分析について、(a)MinTが利用可能になってから翻訳が2倍増加し、(b)削除率が増加していないことを示しています。 これら55語のウィキのアクティビティ・レベルはMinTが有効化されて以降、翻訳件数が毎月500件以下から、毎月1000件以上に変わった。 例えば、最近の2.15キロ件の翻訳ピークはMinTがそれらの言語で利用可能になった2023年8月に公開され、それはMinTが利用できなかった2022年8月の225件の翻訳件数から大幅に増加しました。
- 未編集の機械翻訳が限界に近い場合翻訳にタグを含めることによって翻訳品質の可視性が向上します。 これにより翻訳品質と限界に関する分析が容易になります。
- 今後の研究のためにプロトタイプを作成した ウィキペディア読者がMinTをどのように使用できるかについて5つの概念を説明し、そして、研究を行いたい4つの言語をサポートします: ヒンディー語、チャッティースガリー語、アワディー語そして韓国語。
- それらにおける新しい行で、より予測可能な内容を処理するためのMinTの改善。
2023年9月
- ウィキペディアの記事用に他の言語から機械翻訳されたコンテンツを表示する方法に関する5つの概念を説明するための初期設計探索が完了しました
- リングリア語のコンテンツ翻訳におけるMinTの有効化が完了し、コミュニティはMinTとNLLB-200モデルでサポートできる14言語の最後のセットについてのさらなる説明を要求しました。
- テストウィキで翻訳可能なページのMinTを有効にしました
- MinTがサポートする7つのウィキペディア(チェロキー語、トンガ語、ハンガリー語、カザフ語、キルギス語、ミナンカバウ語、サルデーニャ語)において既定でコンテンツ翻訳のモバイルおよびデスクトップ体験を有効にして、MinTの露出を拡大した。
- 新しい翻訳サービスを有効にするための最終QAの一部としてMinTが使用する翻訳モデルでサポートされているすべての言語の検証を完了した。
- サントシュ(Santhosh)氏は、第10回アジア翻訳ワークショップで「機械翻訳が普遍的で、無料で、そしてより多くの言語で利用できるようにする必要性」を強調するプレゼンをした。 メッセージは参加者達に好評でした。
- 研究計画はウィキペディア上にあるMinTについての研究概要の初期草案から始まりました
- ウィキペディアの文脈をサポートするために平文テキストを越えた(基礎となるモデルが提供する)機械翻訳の適用についての技術的探求の継続: 異なる言語で文が終わりまた、疑わしい場合には分割を避けることを優先する(翻訳の文脈の断片化を回避するため機械翻訳の文脈が優先される、例えば、略語の点をフルストップと誤解するなど)時に、より正確な識別方法を提供するセンテンス・セグメンテーションについての新しく改善されたアプローチ(お試し用デモページでどうぞ)。
2023年8月
- HTML、SVGおよびマークダウンのような構造化フォーマットを翻訳するためのMinTの使用に関する探求に成功。
- 有道の非推奨が完了した、長期間失敗していた外部翻訳サービス。
- 新規およびフィードバックに基づく更新されたワークフローでウィキペディア上のMinTについての設計探求が継続された。
- 識別された言語は、新しいOpusMTモデルから最大の恩恵を受けることができます
- コンテンツ翻訳機能のズールー語版で MinT を既定の翻訳サービスに指定
2023年7月
- (コミュニティから意見を収集しながら)MinT を新たに75言語で機械翻訳に採用:62 言語ではモバイル版翻訳の経験を提供、また 機械翻訳(MT)使用報告書のデータおよび/またはコミュニティからの聞き取りにより、他の翻訳サービスの質が最適ではなかった13言語に展開。
- 前回の展開を検証: Bhojpuri 語、ラトビア語で MinT を展開できなかった問題点を識別、どちらもウィキペディアが採用する言語コードとMinT ならびに付帯の翻訳モデルのそれとの照合失敗による。
- MinT をウィキペディアに統合させる方法について初期設計の探求と試作品
- Mint 翻訳後処理の改善により、 フルストップ(終止符)の後の余分なスペースを回避して、アラビア文字を用いる諸言語のサポートを改善。
- サポートされている全23言語の有効化を確認し、IndicTrans2 モデルの統合を完了。
- ウィキペディアのコミュニティ群を対象にした活動の初期評価 は MinT を採用した事例の第1号で、将来の調査対象、早期導入先として仮のパイロット運用ウィキの割り出しを目指します。
- ウィキメディアおよびその他のオープンプロジェクトの地域化(ローカライゼーション)で使うためにtranslatewiki.net において MinT が有効化。