Jump to content

製品の安全性と整合性/不正利用防止信号/hCaptcha

ショートカット: hcaptcha
From mediawiki.org
This page is a translated version of the page Product Safety and Integrity/Anti-abuse signals/hCaptcha and the translation is 76% complete.

製品の安全性と整合性チームはボット検出サービス (hCaptcha) が現在のCAPTCHAシステムを代替可能かテストしています。このサービスがウィキメディアプロジェクトを悪意のあるボットからより一層保護する一方でユーザビリティとアクセシビリティを改善する可能性もあるか確認したいと考えています。このプロジェクトを告知するブログ投稿を参照してください。

背景

現在のCAPTCHAシステム、FancyCaptcha

現在のCAPTCHAシステムであるFancyCaptchaは、2000年代頃に初めてウィキに導入され、ウェブの初期の時代に構築されました。FancyCaptchaのページは長年警告を表示しています: 「このタイプはWMF外のウィキではあったとしても非常にわずかしか利用されていません。おそらくは有効性が乏しいためです。」

視覚的な課題は人々 – 特に視覚障害のある人や非ラテンキーボードを使っている人の妨げになります。良い非視覚的オプションも提供しません。そしてさらに根本的に、ボットにとって回避するのが簡単すぎます。このため、ウィキメディアプロジェクトは大規模な荒らしやその他の操作に対してあまりにも無防備で、ボランティアと財団の不正利用対策チームの両方にとって重い負担となっています。

これを解決するため、ウィキメディア財団は現在のシステムの代替候補として hCaptcha Enterprise をテストする試用を実施しています。 この新しいボット検出システムが、さまざまな状況で自動化されたアクターを特定するのに役立つかどうかを評価することが目的です。

試用

Screenshot of hCaptcha on the account creation page, with privacy policy and terms links showing.
試用期間中、hCaptcha に言及する行およびサービスの利用規約プライバシー ポリシーへのリンクが、「アカウントを作成」ボタンの上に表示されます。 編集インターフェイスにも表示されます。

いくつかのウィキペディアで試用を開始し、Special:CreateAccount で hCaptcha が有効化されました。 次の段階として、skipcaptcha 権限を持たない利用者の編集フローにも有効化されます。 これには、一般的にログアウト利用者、仮アカウント利用者、新規登録アカウント利用者 (自動承認されていないアカウント) が含まれます。 We may expand the trial to cover more wikis to evaluate hCaptcha's effectiveness in different situations.

試用期間中、ボット検出にどのくらい有効か確認し、全体のユーザビリティとアクセシビリティを評価し、コミュニティのフィードバックを評価するためにデータを収集しています。 アカウント作成における hCaptcha を評価するために、少なくとも三か月の試用を実施する必要があります。 試用期間中、以下を監視しています:

  • Correlation between accounts flagged as bots by hCaptcha and blocks issued on Wikimedia sites
  • hCaptcha がボットだとフラグを立てたアカウントの定性評価
  • アクセスの作成率
  • スパマーもしくはスパムボットだと示したロックの率
  • hCaptcha に問題発生時の失敗率
  • Analytics information for the Special:CreateAccount funnel
  • Impacts on the edit funnel
  • 編集の作業フローに及ぼすパフォーマンス影響
  • 編集とアカウントブロックそれぞれに割り当てたリスク値同士の関係性
  • コミュニティからのフィードバック

After at least three months, we will be able to report back to the communities with our conclusions and recommendations for next steps.

We recognize that sending data to a third-party service has privacy risks, and this is not something that we take lightly. See below for more technical detail about how we are reducing the risks to user privacy in this trial. Our view is that we need to balance the risks of the current state, where automated actors can still likely create accounts and make edits, with the privacy risks of using a third-party system like hCaptcha.

Our Legal department has approved such implementation of hCaptcha and confirmed that it is in line with our Privacy policy and Terms of Use.

hCaptchaの動作の仕組み

  • 新規アカウントを作成または変更内容を公開する少数 (約0.1%) の利用者が課題に遭遇します。 課題を受け取った訪問者は、アカウントを作成するか変更内容を公開するために課題を完遂する必要があります。 これは hCaptcha が99.9% パッシブ モードと呼ぶものです。[$2 こちらのスクリーンショットを参照]してください。 画面キャプチャはこちらで確認してください。
  • 視覚の問題やその他のアクセシビリティのニーズがある利用者はキーボードのみを利用して完遂できるテキストベースの課題を選択できます。
  • サービスはアカウントが正統でない利用者によって作成された信頼水準である「リスクスコア」を送り返します。このリスクスコアは公開されませんが、財団はボット駆動かもしれない活動への分析と応答を支援するために非公開で保存します。

プライバシーセーフガードとリスク

We are taking some specific technical measures to reduce the sensitivity of the information that is sent/available to hCaptcha:

  • User traffic is routed through a Wikimedia-controlled proxy (hcaptcha.wikimedia.org) to ensure that users' IP addresses are not transmitted to hCaptcha. The proxy sends a hashed IP address to hCaptcha to allow their service to aggregate repeat requests from the same IP without needing to see the raw IP.
  • The proxy also ensures that sensitive headers and cookies are removed. This includes cookies set by Wikimedia Foundation's own traffic infrastructure (GeoIP and WMF-Uniq). These cookies will be visible in user browsers as having been sent to Wikimedia's proxies, but are dropped before being sent to hCaptcha.
  • The hCaptcha script is sandboxed when loaded into the Wikipedia session, using what hCaptcha calls "Secure Enclave" mode. This prevents their code from seeing or interfering with the page context of the user session, and prevents hCaptcha from seeing the specific URL of the page, or reading or modifying application state variables.
  • Additionally, hCaptcha discards what data they do collect about clients visiting Wikimedia properties within 10 days.

These are significant mitigations, but some risks remain present. For example, a bad actor with access to internal hCaptcha data, who knew that the trial was currently limited to account creation, could correlate hCaptcha's data with a Wikimedia account creation event. This is potentially possible because the Wikimedia projects, unlike most websites, publicly log precise timestamps of many user actions, including account creation.

We expect this risk to decrease naturally with more expansive use of the service, especially when additional actions like editing are included. From the perspective of hCaptcha, which does not see URLs, all Wikipedia actions look the same and can't directly be correlated to specific actions.

More generally, the web is a complex platform, and despite our best effort to drop cookies and sandbox iframes, there is always some risk of gaps in how we constrain the security and privacy implications of third-party code being embedded in the wikis. We will be continuing to look at how we can strengthen our sandboxing approach, and welcome community analysis and recommendations in this area.

展開の日程

  • : test2wikiに展開
  • : 選択された試用ウィキペディアにロールアウト
  • 2025年10月以降: アカウント作成の試用評価と報告
  • : Rollout of hCaptcha bot detection on edits for wikitext editor
  • : Work on VisualEditor, MobileFrontend, DiscussionTools and other editing interfaces

連絡先

Subscribe to the newsletter

よくある質問

hCaptchaは私のIPアドレスへのアクセス権を持っていますか?

いいえ。hCaptchaのサーバーとのすべてのクライアントサイドインタラクションはウィキメディアプロキシを経由し、hCaptchaに到達する前にIPアドレスはハッシュされます。さらに、hCaptchaとのサーバーサイドインタラクションはクライアントIPを共有しません。

hCaptchaはブラウザーフィンガープリンティングを実施しますか?

hCaptchaはボット検出リスクスコアを生成するために、ブラウザからの何千もの信号を評価し、ブラウザがhCaptchaを作成するようリクエストします。

Exactly what is being analyzed is deliberately opaque and can change over time. Our privacy model for this trial is designed around the assumption that what hCaptcha does analyze is useful in identifying a device over time. Our privacy protections are intended to reduce the sensitivity of any collected data by disconnecting it from other information (including the user's IP, specific URL, and other cookies), and for that collected data to be discarded after a short time.

hCaptchaに送信されたウィキメディアデータのデータ保持期間は?

hCaptchaはウィキメディアの所有物を訪問したクライアントに関するデータを10日以内に破棄します。

Why does it look like the GeoIP and WMF-Uniq cookies are being sent to hCaptcha?

These cookies are generated by WMF's traffic layer. We unset these cookies at the proxy level (code), so even though you see them being sent to the proxy, they are not forwarded onwards to hCaptcha.

ウィキメディアプロジェクトにおいてhCaptchaはどこで現れますか?

試用の開始時は、試用の一環であるウィキの Special:CreateAccount のみです。おそらく後々いくつかのリスクの高い編集をカバーするために試用を拡大します。現在のところ、hCaptchaによってカバーされないあらゆるワークフローは引き続き既存のCAPTCHAシステムでカバーされます。

99.9%パッシブモードとはどういう意味?

hCaptchaはほとんどすべての人に対してバックグラウンドで静かに実行されるという意味です。約0.1%の利用者だけが課題を見ます。hCaptchaがリスクスコアを生成するために、より多くのインタラクションデータが必要なときに課題が出ます。

攻撃者がhCaptchaの課題を迂回するのはどれくらい困難ですか?

hCaptchaは悪意の実行者に対する障壁を有意に引き上げ、一方で善意の人間の利用者がボットとしてフラグ付けされる可能性はより低くなると期待しています。

アクセシビリティはどうですか?

hCaptcha offers text-based challenges that work with screen readers. These are available in around 110 languages, with other languages available via machine translation. Visitors with sight issues or other accessibility needs can complete the text-based challenges using only their keyboard.

hCaptchaのアクセシビリティcookie機能を使えますか?

残念ながら、ウィキメディアの属性は対象外です。利用者の皆さんは hCaptcha のアクセス性ページの説明のとおり、 hCaptcha-採用ウェブサイトならどこでもアクセス性クッキーを設定できます。しかしながら、ウィキメディアにおける hCaptcha 統合で有効ではない理由は、この機能がウィキメディアから IP アドレス類その他のメタデータを hCaptcha に送らないというプライバシー・プロキシの取り組みと整合性がないからです。

hCaptchaは非JavaScript利用者に対してどのように動作しますか?

試用期間中、アカウント作成から始まる、hCaptchaで保護されたあらゆる操作を実行するためにJavaScriptが必要とされます。試用期間中、特にJavaScriptがない利用者への影響のレベルを測定します。

サードパーティサービスに頼るのではなく独自の技術を構築してはどうですか?

ウィキメディアは既にCAPTCHAシステムを持っていますが、時間をかけた改善で大規模なスパムは止まりませんでした。ボットと不正利用は – 特にAIで – より複雑になっており、より現代的な解決策を試すのは理にかなっています。ボット検出サービスを稼働させることに専念している組織には、この問題に私たちが投入できるよりもはるかに多くの専門技術とリソース – 特に毎年変化するボット検出と回避のいたちごっこに遅れないようについていく進行中の作業があります。

非対応の言語の場合、 hCaptcha はどうするのか?

hCaptcha の対応言語は 100件超です。しかしながらウィキペディアはそれ以上の言語に対応するため、この格差を埋めるためにどうすれば言語フォールバック・システムを統合できるか調査中 (T399491) です。

hCaptcha が落ちる、 またはその他の機能停止の場合はどうなるのか?

別の解決策が特定されるまで、フォールバックとして既存の CAPTCHA に頼ります。

関連項目