ORES/BWDS review/ja

ここではBWDSが自動生成した言葉の一覧の検索方法を概説します.

BWDSの動作の仕組み
BWDSは巻き戻しされた編集では使用頻度が高く、容認された編集ではあまり使われない用語を抽出します. つまり記事にふさわしくない悪態語や日常会話の用語"hello"、"woohoo"や"yolo"（「こんにちは」「やった!」「人生一度きり」等）を拾う傾向があるということです. このシステムはまた、すべての編集に共通する単語も出力し、文の処理ではストップワードstopwords（検索の対象外とする機能語など）として使用します.

精度を上げるには
BWDS により自動生成された単語一覧は独自のウィキページに集まります. ハンガリー語/マジャル語を調査したときの一覧を参照してください. これらリストの精度を上げるには、誤って取り込んだ単語を削除するため、目標言語を母語とする人の手を借りる必要があります. (訳注：以下はリンク先を例にして説明します. )


 * 自動で取り込んだ単語（Generated list）
 * 巻き戻しされた編集から抽出した単語. これをもとに下記のように「悪態語」「俗語・くだけた言い回し」（badwordsとinformals）に分類します.


 * 多出語（Generated common words）
 * すべての編集で最も頻出する単語の一覧です. 人間による査読は不要で、作業対象から除外できます.


 * 悪態語（Bad words）
 * 自動で抽出した単語一覧から、どのページでも使うべきではない言葉をすべてまとめる必要があります. 入力されたページに関係なく、差し戻された悪態語やスパムその他のコンテンツが含まれます. BWDSが自動検出しなかった悪態語があれば、自由に補足してください.


 * 俗語・くだけた言い回し（Informal words）
 * 記事の名前空間では歓迎されないが、トークページでは容認される単語をすべて集めます. "hello"や "hahaha"のような言葉が含まれます. BWDSによって検出されなかった俗語（くだけた言い回し）の追加にご協力ください.

利用するウィキごとのBWDSリスト
規模の大きなウィキでは、実作業の前にリストをあらかじめ用意しています. ご利用のウィキに対応しているかどうか、言葉の一覧を確認してください. もし未生成の場合は以下のボタンを押すとリクエストできます. またサポートの要請の方法も参照してください.

([//phabricator.wikimedia.org/T131450 例])