ORES/BWDS review/ja

ここではBWDSが自動生成した用語の一覧の検索方法を概説します.

BWDSの動作の仕組み
BWDSは巻き戻しされた編集では使用頻度が高く、容認された編集ではあまり使われない用語を抽出します. つまり記事にふさわしくない悪態語や日常会話の用語"hello"、"woohoo"や"yolo"（「こんにちは」「やった!」「yolo」等）を拾う傾向があるということです. このシステムはまた、すべての編集に共通する単語も出力し、文の処理ではストップワードstopwords（検索の対象外とする機能語など）として使用します.

精度を上げるには
BWDS により自動生成された単語一覧は独自のウィキページに集まります. ハンガリー語/マジャル語を調査したときの一覧を参照してください. これらリストの精度を上げるには、誤って取り込んだ単語を削除するため、目標言語を母語とする人の手を借りる必要があります. 訳注：以下はリンク先を例にして説明します.


 * 生成した単語一覧（Generated list）
 * 巻き戻しされた編集から抽出した単語. これをもとに下記のように「悪態語」「俗語」（badwordsとinformals）に分類します.


 * 多出語（Generated common words）
 * すべての編集で最も頻出する単語の一覧です. 人間による査読は不要で、作業対象から除外できます.


 * 悪態語（Bad words）
 * どのページでも使うべきではない単語を生成した単語一覧からすべて抽出する必要があります. 入力されたページに関係なく、差し戻された悪態語やスパムその他のコンテンツが含まれます. BWDSが自動検出しなかった悪態語があれば、自由に補足してください.


 * 俗語（Informal words）
 * 記事の名前空間では歓迎されないが、トークページでは容認される単語をすべて集めます. "hello"や "hahaha"のような言葉が含まれます. BWDSによって検出されなかった俗語（くだけた言葉）の追加にご協力ください.

利用するウィキごとのBWDSリスト
We have pre-generated lists for many of the larger wikis. Review our word lists to see if a list is already generated for your wiki. If it isn't, use the button below to request that lists be generated. See also how to get support.

([//phabricator.wikimedia.org/T131450 example])