Moderator Tools/Automoderator/ja

チームは、ウィキメディアのプロジェクト群向けに「自動モデレーター」(automoderator) というツールを構築するプロジェクトを検討しています. これはモデレータに、機械学習のモデルに基づいた不適切な編集の自動的な予防・差し戻しを設定可能にします. 簡単に言えば、ClueBot NG、SeroBOT、Dexbotなどの荒らし対策ボットと同じような機能を持つソフトウェアを構築し、これを全言語のコミュニティで利用可能にしようと考えています.

着想：''明らかな荒らしを自動で防止したり取り消すことができれば、モデレータはより有意義なことに時間を使えるのではないか. ''

私たちは2023年中にこのアイデアを調査し、2024年中に開発作業を始める構想です.

Latest update (August 2023): 最近ウィキマニアでは、このプロジェクトや、モデレータに焦点を当てたその他のプロジェクトを紹介しました. ここにセッションの録画があります.

動機
ウィキメディアのプロジェクト群には、明確に元に戻す必要がある編集が多数あります. これらの編集は、ページを以前の状態に戻すことで明確に取り消されるべきです. 巡回者や管理者は、これらの編集を手動でレビューし、差し戻すために多くの時間を費やさなければなりません. これにより、多くの大規模なウィキで、アクティブなモデレーターの数に比べて対応が必要な作業量が圧倒的であるという感覚が生じています. 私たちはこれらの負担を軽減し、モデレーターの時間を他のタスクに割り当てることを目指しています.

Reddit、Twitch、Discord などの多くのオンライン コミュニティ ウェブサイトは、「自動モデレーション」機能を提供しており、コミュニティのモデレーターが特定のアルゴリズムに基づいた自動モデレーション操作を設定できます. ウィキペディアでは、AbuseFilter が特定の規則ベースの機能を提供していますが、例えば、モデレーターが罵り言葉のすべての綴りバリエーションに対して正規表現を入力する必要がある場合などは、手間のかかる作業となり、イライラする場合もあります. それはまた、複雑で壊れやすいものであるため、多くのコミュニティが使用を避けています. At least a dozen communities have anti-vandalism bots, but these are community maintained, requiring local technical expertise and usually having opaque configurations. These bots are also largely based on the ORES damaging model, which has not been trained in a long time and has limited language support.

目標

 * 悪質な編集を巡回者のキューに入れないことでモデレートするべきものの量を減らします.
 * モデレーターに自動モデレートが信頼できる誤反応なしのツールであるという信用を与えます.
 * 誤反応にあった編集者が、エラーを解消して編集を戻す方法を確立します.


 * 他に勘案すべき目標はありますか？

モデル
このプロジェクトは、ウィキメディア財団リサーチチームによって開発された、新しい差し戻し危険性モデルを活用します. このモデルには2つバージョンがあります：


 * 1) 47言語をサポートした多言語モデル
 * 2) 言語に依存しないモデル

これらのモデルは、全ての版について編集の差し戻しが必要な確率を示すスコアを計算します. 私たちは、コミュニティがこのスコアの閾値を設定できるようにし、それを超えた編集は自動で阻止・差し戻しされるという仕組みを思い描いています.

現在のところではモデルはウィキペディアとウィキデータのみをサポートしていますが、他のウィキメディア・プロジェクトでトレーニングすることもできます. さらに、現在はメイン（記事）名前空間のみでトレーニングしています. 導入後は、コミュニティから誤検知が報告されるため、継続的にモデルを再トレーニングできます.

このプロジェクトを進める前に、最近の編集に対してモデルをテストする機会を提供する予定です. そこで、荒らしと戦う人にモデルがどれだけ正確か、そして私たちの提案する方法での利用に信頼が置けるかどうか、理解してもらおうと考えています.


 * これらのモデルに何か懸念がありますか？
 * あなたやあなたのコミュニティが許容できる誤動作の割合は最大で何パーセントでしょうか？



考えられる解決策
私たちは、コミュニティのモデレータが自動の阻止・差し戻しを設定できるようなツールを構想しています. 編集の差し戻しが可能性の高いシナリオです. 編集の阻止には編集の保存時間に影響を及ぼさないよう高いパフォーマンスが求められます. Additionally, it provides less oversight of what edits are being prevented, which may not be desirable, especially with respect to false positives. Moderators should be able to configure whether the tool is active or not, and have options for how strict the model should be.

Lower thresholds would mean more edits get reverted, but the false positive rate is higher, while a high threshold would revert a smaller number of edits, but with higher confidence.

While the exact form of this project is still being explored, the following are some feature ideas we are considering, beyond the basics of preventing or reverting edits which meeting a revert risk threshold.

テスト
コミュニティが自動モデレータの厳格さを選択できる場合、事前に閾値をテストする方法を提供する必要があります. This could look like AbuseFilter’s testing functionality, whereby recent edits can be checked against the tool to understand which edits would have been reverted at a particular threshold.


 *  How important is this kind of testing functionality for you? Are there any testing features you would find particularly useful? 



コミュニティ単位の設定
A core aspect of this project will be to give moderators clear configuration options for setting up the automoderator and customising it to their community’s needs. Rather than simply reverting all edits meeting a threshold, we could, for example, provide filters for not operating on editors with certain user groups, or avoiding certain pages.


 *  What configuration options do you think you would need before using this software? 
 *  Who should be able to configure the automoderator? 
 *  Should Stewards be able to configure the tool for small wikis? 



誤検知報告
機械学習モデルは完璧ではないため、誤検知の数はゼロではないと予想されます. There are at least two things we need to consider here: the process for a user flagging that their edit was falsely reverted so it can be reinstated, and providing a mechanism for communities to provide feedback to the model over time so that it can be re-trained.

The model is more sensitive to edits from new and unregistered users, as this is where most vandalism comes from. We don't want this tool to negatively impact the experience of good faith new users, so we need to create clear pathways for new users to understand that their edit has been reverted, and be able to reinstate it. This needs to be balanced with not providing easy routes for vandals to undo the tool's work, however.

Although these models have been trained on a large amount of data, false positive reporting by editors can provide a valuable dataset for ongoing re-training of the model. We need to figure out how to enable experienced editors to send false positive data back to the model so that it can improve over time.


 *  How could we provide clear information and actions for editors on the receiving end of a false positive, in a way which isn’t abused by vandals? 
 * 誤検知についてどのような懸念がありますか？



他の未解決の質問

 * あなたのコミュニティが荒らし対策のボットを使っているならば、そこからどのような経験が得られましたか？ それが機能しなくなった場合、どのように感じますか？
 * あなたのコミュニティはこれを採用すると思いますか？ 他のワークフロー・ツールとどのように組み合わせますか？
 * 私たちがツールの成功度を確かめるために何のデータを見ればいいでしょうか？
 * 上に書かれていない考慮すべき点はありますか？