ORES/BWDS review/ja

ここではBWDSが自動生成した用語の一覧の検索方法を概説します.

BWDSの動作の仕組み
BWDSは巻き戻しされた編集では使用頻度が高く、容認された編集ではあまり使われない用語を抽出します. つまり記事にふさわしくない悪態語や日常会話の用語"hello"、"woohoo"や"yolo"（「こんにちは」「やった!」「yolo」等）を拾う傾向があるということです. このシステムはまた、すべての編集に共通する単語も出力し、文の処理ではストップワードstopwords（検索の対象外とする機能語など）として使用します.

精度を上げるには
BWDS により自動生成された単語一覧は独自のウィキページに集まります. ハンガリー語/マジャル語を調査したときの一覧を参照してください. これらリストの精度を上げるには、誤って取り込んだ単語を削除するため、目標言語を母語とする人の手を借りる必要があります. 訳注：以下はリンク先を例にして説明します.


 * 自動で取り込んだ単語（Generated list）
 * 巻き戻しされた編集から抽出した単語. これをもとに下記のように「悪態語」「俗語」（badwordsとinformals）に分類します.


 * 多出語（Generated common words）
 * すべての編集で最も頻出する単語の一覧です. 人間による査読は不要で、作業対象から除外できます.


 * 悪態語（Bad words）
 * 自動で抽出した単語一覧から、どのページでも使うべきではない言葉をすべてまとめる必要があります. 入力されたページに関係なく、差し戻された悪態語やスパムその他のコンテンツが含まれます. BWDSが自動検出しなかった悪態語があれば、自由に補足してください.


 * 俗語（Informal words）
 * 記事の名前空間では歓迎されないが、トークページでは容認される単語をすべて集めます. "hello"や "hahaha"のような言葉が含まれます. BWDSによって検出されなかった俗語（くだけた言葉）の追加にご協力ください.

利用するウィキごとのBWDSリスト
We have pre-generated lists for many of the larger wikis. Review our word lists to see if a list is already generated for your wiki. If it isn't, use the button below to request that lists be generated. See also how to get support.

([//phabricator.wikimedia.org/T131450 example])