ORES/BWDS review

From mediawiki.org
This page is a translated version of the page ORES/BWDS review and the translation is 100% complete.

ここではBWDSが自動生成した言葉の一覧の検索方法を概説します。

BWDSの動作の仕組み

BWDS巻き戻しされた編集では使用頻度が高く、容認された編集ではあまり使われない用語を抽出します。つまり記事にふさわしくない悪態語や日常会話の用語"hello"、"woohoo"や"yolo"(「こんにちは」「やった!」「人生一度きり」等)を拾う傾向があるということです。このシステムはまた、すべての編集に共通する単語も出力し、文の処理ではストップワードstopwords(検索の対象外とする機能語など)として使用します。

精度を上げるには

BWDS により自動生成された単語一覧は独自のウィキページに集まります。ハンガリー語/マジャル語を調査したときの一覧を参照してください。これらリストの精度を上げるには、誤って取り込んだ単語を削除するため、目標言語を母語とする人の手を借りる必要があります。(訳注:以下はリンク先を例にして説明します。)

自動で取り込んだ単語(Generated list)
巻き戻しされた編集から抽出した単語。これをもとに下記のように「悪態語」「俗語・くだけた言い回し」(badwordsinformals)に分類します。
多出語(Generated common words)
すべての編集で最も頻出する単語の一覧です。人間による査読は不要で、作業対象から除外できます。
悪態語(Bad words)
自動で抽出した単語一覧から、どのページでも使うべきではない言葉をすべてまとめる必要があります。入力されたページに関係なく、差し戻された悪態語やスパムその他のコンテンツが含まれます。BWDSが自動検出しなかった悪態語があれば、自由に補足してください。
俗語・くだけた言い回し(Informal words)
記事の名前空間では歓迎されないが、トークページでは容認される単語をすべて集めます。"hello"や "hahaha"のような言葉が含まれます。BWDSによって検出されなかった俗語(くだけた言い回し)の追加にご協力ください。

利用するウィキごとのBWDSリスト

規模の大きなウィキでは、実作業の前にリストをあらかじめ用意しています。ご利用のウィキに対応しているかどうか、言葉の一覧を確認してください。もし未生成の場合は以下のボタンを押すとリクエストできます。またサポートの要請の方法も参照してください。