Content translation/Machine Translation/Youdao/ja

2016年10月31日より機械翻訳システムYoudaoを導入、ウィキペディアのコンテンツ翻訳に利用できるようになりました.

Youdao は中国のインターネット サービス会社である網易 (NetEase) が提供しています. 同社とウィキメディア財団法務部門は協議の結果、ウィキペディアにおける権利帰属の方針や利用者のプライバシー、ブランドイメージを傷つけることなく Youdao の利用を認める契約に至りました. 契約条件のまとめを以下に示し、このサービスに関する皆さんのご質問をお待ちしています. この件は中国語版ウィキペディアのコミュニティでも支持されました.

主な機能
The MT system will be accessed via a publicly accessible API key (contents of the linked page are written in Chinese). Article content (freely licensed) is sent to Youdao servers from Wikimedia Foundation servers. No direct communication is happening between the user and external services and no personal information (IP, username) is sent to Youdao’s servers along with the Wikipedia content. The client contacting Youdao servers is open source and you can check it here. No part of Youdao's service or code will be part of Wikimedia infrastructure or Content Translation codebase
 * Youdaoは一切の個人情報を収集しません. 機械翻訳システムへは誰でもアクセス可能なAPIキーを介してアクセスします（リンク先の内容は中国語表記）. 記事の内容（ライセンスフリー）はウィキメディアサーバからYoudao サーバに送ります. 利用者と外部サービス間に直接のやりとりは発生せず、ウィキペディアの内容に伴って一切の個人情報（IPアドレスや利用者名）はYoudaoのサーバに送りません. Youdaoサーバに接続するクライアントサーバはオープンソースであり、こちらから確認できます. 一切のYoudaoのサービスもしくはコード派ウィキメディアの構成あるいはコンテンツ翻訳コードベースの一部となりません.
 * Youdaoから返ってくる情報もライセンスフリーの範疇です. Youdaoのサービス利用により提供されるウィキペディアの翻訳版はライセンスフリーの状態を保ちます. 利用者は既存の方針と齟齬を起こすことなく、それを改変しウィキペディア内に公表できます. Youdao翻訳と利用者の改変の成果である内容は、ウィキペディア上の他の記事に適用するものと同一のライセンスのもとで入手できます.
 * より広範なオープンソース翻訳コミュニティの役に立ちます. Youdaoから取得し利用者が改変した翻訳は公開されます. 訳出後に編集した翻訳は、これを資源として新しい翻訳サービスを開発し、オープンソースの機械翻訳が未提供の言語をサポートできることから、翻訳研究コミュニティに特に注目されています. これは開発者の機械翻訳システム創出と改善に役立ちます.
 * コンテンツ翻訳において自動翻訳はあくまでもツールの選択肢です. 理由の如何に関わらず、利用者が便利だと認めない場合には無効にする選択肢があります. 利用者は個人設定によりこのサービスおよび使用言語に提供された他のサービスの利用または一切の機械翻訳サービスの不使用を決定します.



既知の問題点
Youdao 機械翻訳サービスでは HTML など書式付きテキストは翻訳の対象外です. 平文の内容を翻訳して平文で出力します. 通常、コンテンツ翻訳では平文出力にマークアップを戻すところ、中国語訳には文から単語 (sentence to words) の重要なトークン化 (tokenization) が適用されないためマークアップ復元は行いません. したがって編集者は翻訳を平文で受け取り、一切のリンクや参考文献などは翻訳作業の一環として手作業で加える必要があります.

Youdaoの義務

 * 無料でAPIキーをウィキメディア財団にライセンスし、ウィキメディアのサイト群でボランティアが記事を翻訳できるようにします
 * ボランティアに対し1リクエスト単位4千文字、単日1千万文字の翻訳を許可します（公的に認められた範囲を大幅に超過）
 * 受信したリクエストの文字数の統計データをウィキメディアに提供します

ウィキメディア財団の義務

 * Youdao がそのツールの改善を行えるように、翻訳ツールの訳文をボランティアが編集した版を提供
 * 翻訳者の一切の個人情報を共有しません.
 * 現状では翻訳対象の内容の原文、その言語及び翻訳文の言語を要求により Youdao に送信します.
 * 機械翻訳サービスの支援の如何に関わらず、翻訳者が公開した翻訳はコンテンツ翻訳 API の処理により parallel corpora (対照コーポラ) 形式で提供されます. これら API 群が徐々に開発されると結果は Youdao のみに限らず広く一般に自由に利用できるようになります.

重要事項

 * 内容はすべてCC BY-SA 3.0の元にライセンスされます
 * Youdaoは翻訳インターフェイスのドロップダウンメニューにツールの選択肢として表示するほかは、ウィキメディアのサイト群で「ブランド紹介」を行う義務はありません
 * 一切の利用者の個人情報は交換しません
 * 契約期間は1年限とし、その時点で需要を再評価することができます
 * 理由の如何に関わらず時期の制限なく、両者は自由に契約を中止できます（30日前の告知を条件とする）
 * 協議はアメリカ合衆国法に基づきます

サービスに関する質問
この節ではYoudaoに関する当面の問題を取り上げます. Content Translation FAQ（英語）のページに他の情報を提供しています.

Youdaoで使用できる言語と追加の予定
現在はコンテンツ翻訳でページを作成する利用者は中国語に対して英語、フランス語、日本語、朝鮮語、ポルトガル語、ロシア語、スペイン語を利用できます. Youdaoの対象言語の拡張に合わせ、今後、コンテンツ翻訳に取り入れるかどうか検討します. 注記：Youdao機械翻訳を使って中国語版から英語版の新規記事作成はできません.

Youdao は他の機械翻訳システムと利用にどんな違いがありますか？
Youdaoの翻訳結果表示はApertiumあるいはYandexによく似ているため、コンテンツ翻訳の利用者は翻訳インターフェイス自体には違和感を感じないでしょう. しかしながら書式付きテキスト（リッチテキスト）をサポートしないというYoudaoの現状の制限により、リンクや出典などは手動で適用する必要があります.

Youdaoを使用すると機械翻訳の作業はどう進みますか?
Youdaoが無料で提供するAPIキーを使うと、ウェブサイトやその他のサービスから翻訳システムを利用できます. コンテンツ翻訳にもYoudaoサーバ上でサービスにアクセスする独自のAPIキーがあります. 利用者が記事の翻訳を始めると翻訳原文の各節ごとにHTMLの内容がYoudaoサーバに送信され、翻訳結果の出力は当該のコンテンツ翻訳機能が受け取って訳文の欄に表示します. リンクや出典は通常どおり適用され、利用者は必要に応じて内容を改変します.

この工程が翻訳対象の記事の節すべてに対して続きます. あらかじめ一続きの節をまとめて取り込み処理能力を向上させています. 利用者は通常どおり記事を公開するほか、（作業を後で再開するため）未公開の翻訳を保存できます. 記事は通常の記事同様、該当する権利の帰属とライセンスのもとにウィキペディアに公開されます.

処理の流れ図はこちら.

オープンソースのソフトウェアに基づかないのに、Youdaoを利用する理由は？
コンテンツ翻訳はウィキペディアにおける使用言語間の内容量の差を埋めるという長年のニーズに対応するために生まれました. ウィキメディアのサイト群で使用される他のソフトウェアすべてがそうであるように、コンテンツ翻訳もオープンソースです. このページで取り上げる事例でも外部サービスとのやりとりとライセンスフリーの内容を読み込むためにオープンソースのクライアントを使い、フリーな知識を拡大する利用者を補助しています.

Yandexと同様に、Youdaoの機械翻訳システムとの取り組みで一切の知的所有権の独占的な（プロプライエタリな）ソフトウェアをコンテンツ翻訳コードにも、あるいはウィキメディアのウェブサイトやサーバにも追加しません. サービスの利用は無料で誰でも使うことができます.

Youdaoサービスに送信する対象は、ウィキペディアの記事から無料で使用できる内容（を断片化したもの）に限定し、入手する翻訳結果も同様にウィキペディアのページで無料で使用できます. 利用者は訳出した内容の改変を認められ、そのデータもやはりライセンスフリーでコンテンツ翻訳APIを介して公開されます. この価値のある資源を利用すると、コミュニティはオープンソースの翻訳サービスを開発し、未提供の言語に提供することができます.

その意味を慎重に検討した結果、事実としてコンテンツが以前に非公開のソースサービスに保存された経緯があっても、知識やソフトウェアの現在または将来の自由を制限するものではないと判明しました. 翻訳後のコンテンツがフリーのライセンスを維持し、ウィキペディアの方針に準拠するよう、特に注意を払っています. これには長いプロセスが関わり、法的および技術的な評価とコンプライアンス維持に対処します. 利用規約の概要も参照できます.

利用者のフィードバックから、機械翻訳による支援は大変に利用者の役に立っていることがわかり、どの言語も最善の方法でサポートしたいと考えています. principles of Wikimedia Foundation's resolution（ウィキメディア財団の決議の原則）に沿ってオープンソースの無料ソフトウェア支援を進め、特定の言語に対し利用可能になったオープンソースのサービスはいつでも優先的に統合します. コンテンツ翻訳の導入以来、機械翻訳プラットフォームApertiumは常に核心にあり、現状でウィキペディアが支援する言語対（翻訳原文と翻訳文の言語の組み合わせ）は70近く提供しています.

2015年11月のYandex導入により70言語を追加して以来、それまでコンテンツ翻訳でこのような利便性を使用できなかった利用者のさらに大きなグループを補助できるようになりました. Guided by the principles of Wikimedia Foundation's resolution to support free and open source software, we will prioritise the integration of open source services whenever they are available for a language. Apertium has been a critical part of Content Translation since its inception, and currently provides machine translations for nearly 70 of the numerous possible language combination that Wikipedia can support. Adding Yandex in November 2015 has helped a large group of users of nearly 70 more languages, who were unable to use this facility before with Content Translation.

Youdaoを使うときに自分の個人情報に危惧はありますか？
利用するサービスに関わらず、送信対象はウィキペディアの既存の記事の内容のみであり、訳文にはライセンスフリーの内容のみ戻されます. 一切の個人情報は収集されず、外部サービスとのやり取りはサーバ側で行われ、利用者の使用機器とは隔離されます. 詳細はこちらの図をご参照ください.

もしも機械翻訳ツールがYoudaoしか使えない状況なのに、これを使いたくない場合は？
コンテンツ翻訳における機械翻訳（MT）はツールの選択肢であって、自分の意思で簡単に無効にできます. ご使用の言語で使えるMTがさらに追加された時点で、再度この機能を有効にして利用するサービスを指定できます.

ウィキペディアでYoudaoの機械翻訳を使うのは無料ですか？
無料です. Youdaoを介してウィキペディアの内容を翻訳するとYoudaoの翻訳プラットフォームで無料で利用できます. そこからAPIキーを用いて訳文を受けると、コンテンツ翻訳機能はシームレスに翻訳インターフェイスで使えるようにします. 利用者はこうして得た内容を（必要に応じて）改変し、ライセンスフリーの条件でウィキペディアの他の記事に使用できます.

この内容を機械翻訳全般の改良に利用できますか？
可能です. コンテンツ翻訳で作成した翻訳はウィキメディアのデータベースに保存します. この情報は全ての人に公開されることから、翻訳例を皆さんの翻訳サービス改善に利用できます（大学研究グループから商用目的のオープンソースプロジェクトまですべて含みます）. 内容はコンテンツ翻訳APIを介して入手します. ただし公開の対象は翻訳文に関する情報に限定されます. その情報の範囲には – 翻訳の原文と訳文、翻訳原文の言語と訳出した言語、さらに文の断片識別子を含みます.