Content translation/Machine Translation/Youdao/ja

2016年10月31日より機械翻訳システムYoudaoを導入、ウィキペディアのコンテンツ翻訳に利用できるようになりました.

Youdaoは中国のインターネットサービス会社である網易（NetEase）が提供しています. 同社とウィキメディア財団法務部門は協議の結果、ウィキペディアにおける権利帰属の方針や利用者のプライバシー、ブランドイメージを傷つけることなくYoudaoの利用を認める契約に至りました. 契約条件のまとめを以下に示し、このサービスに関する皆さんのご質問をお待ちしています. なお同文は中国語版ウィキペディアのコミュニティからsupportedに掲出されました.

主な機能

 * Youdaoは一切の個人情報を収集しません. 機械翻訳システムへは誰でもアクセス可能なAPIキーを介してアクセスします（リンク先の内容は中国語表記）. 記事の内容（ライセンスフリー）はウィキメディアサーバからYoudao サーバに送ります. 利用者と外部サービス間に直接のやりとりは発生せず、ウィキペディアの内容に伴って一切の個人情報（IPアドレスやユーザー名）はYoudaoのサーバに送りません. Youdaoサーバに接続するクライアントサーバはオープンソースであり、こちらから確認できます. 一切のYoudaoのサービスもしくはコード派ウィキメディアの構成あるいはコンテンツ翻訳コードベースの一部となりません.
 * Youdaoから返ってくる情報もライセンスフリーの範疇です. Youdaoのサービス利用により提供されるウィキペディアの翻訳版はライセンスフリーの状態を保ちます. 利用者は既存の方針と齟齬を起こすことなく、それを改変しウィキペディア内に公表できます. Youdao翻訳と利用者の改変の成果である内容は、ウィキペディア上の他の記事に適用するものと同一のライセンスの元で入手できます.
 * より広範なオープンソース翻訳コミュニティの役に立ちます. Youdaoから取得し利用者が改変した翻訳は公開されます. 訳出後に編集した翻訳は、これを資源として新しい翻訳サービスを開発し、オープンソースの機械翻訳が未提供の言語をサポートできることから、翻訳研究コミュニティに特に注目されています. これは開発者の機械翻訳システム創出と改善に役立ちます.
 * コンテンツ翻訳において自動翻訳はあくまでもツールの選択肢です. 理由の如何に関わらず、利用者が便利だと認めない場合には無効にする選択肢があります. 利用者は個人設定によりこのサービス及び使用言語に提供された他のサービスの利用あるいは一切の機械翻訳サービスの不使用を決定します.



既知の問題点
Youdao機械翻訳サービスではHTMLなど書式付きテキストは翻訳の対象外です. 平文の内容を翻訳して平文で出力します. 通常、コンテンツ翻訳では平文出力にマークアップを戻すところ、中国語訳には文から単語（sentence to words）の重要なトークン化（tokenization）が適用されないためマークアップ復元は行いません. したがって編集者は翻訳を平文で受け取り、一切のリンクや参考文献などは翻訳作業の一環として手作業で加える必要があります.

Youdao's obligations

 * To license their API key for free to the Wikimedia Foundation to allow volunteers on Wikimedia sites to translate articles
 * To allow volunteers to translate up to four thousand characters per request and ten million characters per day (much more than their publicly available option)
 * To give Wikimedia statistical data on the quantity of characters in the requests sent

ウィキメディア財団の義務

 * Youdaoがそのツールの改善を行えるように、翻訳ツールの訳文をボランティアが編集した版を提供
 * 翻訳者の一切の個人情報を共有しません.
 * 現状では翻訳対象の内容の原文、その言語及び翻訳文の言語を要求によりYoudaoに送信します.
 * 機械翻訳サービスの支援の如何に関わらず、翻訳者が公開した翻訳はコンテンツ翻訳APIの処理によりparallel corpora（対照コーポラ）形式で提供されます. これらAPI群が徐々に開発されると結果はYoudaoのみに限らず広く一般に自由に利用できるようになります.

重要事項

 * 内容はすべてCC BY-SA 3.0の元にライセンスされます
 * Youdaoは翻訳インターフェイスのドロップダウンメニューにツールの選択肢として表示するほかは、ウィキメディアのサイト群で「ブランド紹介」を行う義務はありません
 * 一切の利用者の個人情報は交換しません
 * 契約期間は1年限とし、その時点で需要を再評価することができます
 * 理由の如何に関わらず時期の制限なく、両者は自由に契約を中止できます（30日前の告知を条件とする）
 * 協議はアメリカ合衆国法に基づきます

サービスに関する質問
この節ではYoudaoに関する当面の問題を取り上げます. Content Translation FAQ（英語）のページに他の情報を提供しています.

Youdaoで使用できる言語と追加の予定
現在はコンテンツ翻訳でページを作成する利用者は中国語に対して英語、フランス語、日本語、朝鮮語、ポルトガル語、ロシア語、スペイン語を利用できます. Youdaoの対象言語の拡張に合わせ、今後、コンテンツ翻訳に取り入れるかどうか検討します. 注記：Youdao機械翻訳を使って中国語版から英語版の新規記事作成はできません.

How is using Youdao different than using other machine translation systems?
As a user of Content Translation you will not feel any difference on the translation interface as the machine translation system of Youdao will display the translated content similar to Apertium or Yandex. However, due to Youdao's current limitation of not supporting rich text, links, references etc. will have to be adapted manually.

How is the machine translation being done if I choose Youdao?
Youdao provides a free for use API key that allows websites and other other services to use their translation system. Content Translation also uses a unique API key to access this service on Youdao's server. When a user starts translating an article, the HTML content of each section of the source article is sent to the Youdao server and a translated version is obtained and displayed on the respective translation column of Content Translation. Links and references are adapted as usual and users can modify the content as required.

This process continues for all the sections of the article being translated. For better performance, the translations for consecutive sections are pre-fetched. The user can save the unpublished translation (to work on it again at a later time) or publish the article in the usual manner. The article is published on Wikipedia like any other normal article with appropriate attribution and licenses.

処理の流れ図はこちら.

Youdao is not based on open source software. Why are we using it?
Content Translation evolved from a long-standing need to bridge the gap in the amount of content between Wikipedias in different languages. Like all other software used on Wikimedia sites, Content Translation is also open source. In this particular case as well, we are using an open source client to interact with the external service and import freely licensed content in order to help users expand our free knowledge.

Similar to Yandex, with Youdao's machine translation system we are not adding any proprietary software in the Content Translation code, or on the Wikimedia websites and servers. The service is free of charge and available for everyone.

Only the freely available Wikipedia article content (in segments) is sent to the Youdao service and the obtained translated content is also freely usable on Wikipedia pages. The translated content can be modified by users and this data also maintains its free license and is available publicly through the Content Translation API. This is a valuable resource made available for the community to develop open source translation services for those languages where they don't exist yet.

After studying the implications carefully, we found the fact that the content was stored previously in a closed source service does not limit the freedom of our knowledge or our software in the present or the future. We have taken special care to make sure that the content translated maintained its free license to make sure it complies with Wikipedia policies. This includes a long process for legal and technical evaluation and compliance. The summary of the terms of use is also available.

利用者のフィードバックから、機械翻訳による支援は大変に利用者の役に立っていることがわかり、どの言語も最善の方法でサポートしたいと考えています. principles of Wikimedia Foundation's resolution（ウィキメディア財団の決議の原則）に沿ってオープンソースの無料ソフトウェア支援を進め、特定の言語に対し利用可能になったオープンソースのサービスはいつでも優先的に統合します. コンテンツ翻訳の導入以来、機械翻訳プラットフォームApertiumは常に核心にあり、現状でウィキペディアが支援する言語対（翻訳原文と翻訳文の言語の組み合わせ）は70近く提供しています.

2015年11月のYandex導入により70言語が追加されると、それまでコンテンツ翻訳でこのような利便性を使用できなかった利用者のさらに大きなグループを助けることになります.

Youdaoを使うときに自分の個人情報に危惧はありますか？
利用するサービスに関わらず、送信対象はウィキペディアの既存の記事の内容のみであり、訳文にはライセンスフリーの内容のみ戻されます. 一切の個人情報は収集されず、外部サービスとのやり取りはサーバ側で行われ、利用者の使用機器とは隔離されます. 詳細はこちらの図をご参照ください.

もしも機械翻訳ツールがYoudaoしか使えない状況なのに、これを使いたくない場合は？
コンテンツ翻訳における機械翻訳（MT）はツールの選択肢であって、自分の意思で簡単に無効にできます. ご使用の言語で使えるMTがさらに追加された時点で、再度この機能を有効にして利用するサービスを指定できます.

ウィキペディアでYoudaoの機械翻訳を使うのは無料ですか？
無料です. Youdaoを介してウィキペディアの内容を翻訳するとYoudaoの翻訳プラットフォームで無料で利用できます. そこからAPIキーを用いて訳文を受けると、コンテンツ翻訳機能はシームレスに翻訳インターフェイスで使えるようにします. 利用者はこうして得た内容を（必要に応じて）改変し、ライセンスフリーの条件でウィキペディアの他の記事に使用できます.

Can this content be used for improving machine translation systems in general?
Yes. Translations made in Content Translation are saved in our database. This information will be made publicly available for anyone to use as translation examples to improve their translation services (from University research groups, open source projects to commercial companies, anyone!). The content can be accessed via the Content Translation API. Please note, only information related to translated text is publicly available. This includes – source and translated text, source and target language information and an identifier for the segment of text.