ORES/ja

ORES (/ɔɹz/) は評価プラットフォームチーム (Scoring Platform team) がウィキメディアのプロジェクト群の管理用に機械学習サービスの一環として提供する、ウェブサービスとAPIのことです. このシステムは重要なウィキ作業の自動化の補助を目指して設計され – 対象は不正行為の発見や除去などです. 現状ではORESが生成する評価点は大まかに2種類あり、それぞれ「編集の質」と「記事の質」を示します.

ORESは裏方のサービスであり、評価点を直接利用する方法は提供しません. この評価点を利用するには、ORES評価点を用いるツールの一覧をご確認ください. また、ご利用のウィキがORESに対応していない場合は対応のご要望に関する指示をご覧ください.

ORESについてのご質問への回答をお探しですか？ORES よくある質問（英語）をご確認ください.

編集の質
ウィキメディアがオープンなプロジェクトである以上、もっとも深刻な問題は有害かもしれない投稿（「編集」）の査読です. 善良な投稿者（害を及ぼしたのは偶然）を特定してサポートを提供する必要もあります. これらのモデルには「特別:最近の更新」のフィードの絞り込み作業を楽にする目的があります. 編集の質の予測モデルで提供するサポートには、「基本」と「高度」の2つのレベルが用意されています.

基本的なサポート
前提として、有害度が高い編集は差し戻しの対象であり、害がそれほど深刻でない編集は 対象ではないとすると、ウィキにおける編集履歴（および巻き戻しされた編集）の記録を利用できます. このモデルはセットアップは簡単でありながら、編集の巻き戻しの原因の多くが有害性や荒らし以外の要素である点に振り回されがちです. その点を補うため、有害な言葉に基づく見本を作成しています.


 * – 特定の編集が差し戻されるかどうか予測.

高度なサポート
善悪を推定するよりも、編集者にORESを訓練してもらい、実際の編集内容に即して有害か（ ）それとも善意によって保存されたか（ ）示してもらうことにします. これはコミュニティのボランティアの皆さんに追加作業をお願いすることにより、編集の質に関して、より正確で微妙な予測が可能になります. ツールの多くは、対象となるウィキにおいて高度なサポートが利用できる場合にしか機能しないのです.


 * – 編集が有害かどうか
 * – 善意で保存されたかどうか

記事の質
ウィキペディアの記事の質はウィキペディア執筆者の中核的な関心事です. 新しいページは査読をして管理し、スパムや荒らし、攻撃的な記事がウィキに載らないようにする必要があります. 最初のキュレーションに合格した記事は、その後、定期的に一部のウィキペディアンによる質の評価を受け続けることになるものの、作業そのものに労力がかかるし、その後の編集によって評価はすぐに現状に合わなくなってしまいます. New pages must be reviewed and curated to ensure that spam, vandalism, and attack articles do not remain in the wiki. For articles that survive the initial curation, some of the Wikipedians periodically evaluate the quality of articles, but this is highly labor intensive and the assessments are often out of date.

キュレーションのサポート
問題のある草稿の削除は早いほどよいのです. ページとして公開されると、調整（キュレーション）に多くの作業を伴います. 荒らしに対抗する編集者同様、キュレーターもコンピュータによる予測に助けられ、新しいページのうち最も問題の多いものに集中できます. ページを削除した管理者が残したコメントに基づいて（logging テーブル参照）、どのページを即時削除すべきかを予測するモデルを訓練できます. 英語版ウィキペディアにおける即時削除の方針はen:WP:CSDを参照してください. 英語版のモデルではG3「荒らし」およびG10「攻撃」、G11「スパム」を採用しました. （訳注：日本語版の方針とやや異なります. ） Curating new page creations can be a lot of work. Like the problem of counter-vandalism in edits, machine predictions can help curators focus on the most problematic new pages first. Based on comments left by admins when they delete pages (see the logging table), we can train a model to predict which pages will need quick deletion. See en:WP:CSD for a list of quick deletion reasons for English Wikipedia. For the English model, we used G3 "vandalism", G10 "attack", and G11 "spam".


 * – 即時削除の対象かどうか（スパム、荒らしや攻撃か、問題がないか）

評価指標のサポート
最初のキュレーションを通過した記事について、規模の大きなウィキペディアでは定期的な内容の評価に大まかに英語版ウィキペディア 1.0評価指標（「articlequality」）と対応する指標を用いています. 評価の実施は進捗状況の目安となるほか、逃した機会（人気はあるが質の低い記事）を判別する役に立つことから重視されます. ところが評価を常に現状に即した状態に保つのは難しく、どうしてもムラが出てしまいます. の機械学習モデルは、ここでこそ有効です. モデルを訓練して人間の手作業による記事の品質評価を複製させることにより、コンピュータによるすべての記事やその改訂版の自動評価が実現します. このモデルには、すでにウィキプロジェクト群の再評価作業を支援した実績があり、記事の品質改善を導く編集のダイナミズムの特定に使用されています. Having these assessments is very useful because it helps us gauge our progress and identify missed opportunities (e.g., popular articles that are low quality). However, keeping these assessments up to date is challenging, so coverage is inconsistent. This is where the  machine learning model comes in handy. By training a model to replicate the article quality assessments that humans perform, we can automatically assess every article and every revision with a computer. This model has been used to help WikiProjects triage re-assessment work and to explore the editing dynamics that lead to article quality improvements.

このarticlequalityモデルでは、記事の構造的な特徴に基づいて予測しています. たとえば検討するポイントは、節の数、情報ボックス（infobox）の有無、出典の件数や出典テンプレートciteの利用などです. articlequalityモデルでは、文章としての質や語調の問題は判別できません（強引な展開等）. しかしながら記事の構造的な特徴に注目すると、良質な文章や語調と強い相関関係がみられるものが多く、このモデルは実地にたいへん有効です. E.g. How many sections are there? Is there an infobox? How many references? And do the references use a cite template? The articlequality model doesn't evaluate the quality of the writing or whether or not there's a tone problem (e.g. a point of view being pushed). However, many of the structural characteristics of articles seem to correlate strongly with good writing and tone, so the models work very well in practice.


 * – 記事もしくは草稿の評価クラスを予測（ウィキペディア1.0に類似）

Topic routing


ORES' article topic model applies an intuitive top-down taxonomy to any article in Wikipedia -- even new article drafts. This topic routing is useful for curating new articles, building work lists, forming new WikiProjects, and analyzing coverage gaps.

ORES topic models are trained using word embeddings of the actual content. For each language, a language-specific embedding is learned and applied natively. Since this modeling strategy depends on the topic of the article, topic predictions may differ between languages depending on the topics present in the text of the article.

Curation support


The biggest difficulty with reviewing new articles is finding someone familiar with the subject matter to judge notability, relevance, and accuracy. Our  model is designed to route newly created articles based on their apparent topical nature to interested reviewers. The model is trained and tested against the first revision of articles and is thus suitable to use on new article drafts.


 * – predicts the topic of an a new article draft

Topic interest mapping


The topical relatedness of articles is an important concept for the organization of work in Wikipedia. Topical working groups have become a common strategy for managing content production and patrolling in Wikipedia. Yet a high-level hierarchy is not available or query-able for many reasons. The result is that anyone looking to organize around a topic or make a work-list has to do substantial manual work to identify the relevant articles. With our  model, these queries can be done automatically.


 * – predicts the topic of an article

サポートの一覧表
下記の一覧表にウィキごとにモデルの有無ならびにORES サポートの進捗状況をまとめてあります. もしご利用のウィキが未掲載の場合、あるいはモデルのサポートが見当たらない場合はサポートを申請してください. If you don't see your wiki listed, or support for the model you'd like to use, you can request support.

API の使用
ORESにはページの更新に対して動的に評価情報を収集するAPIサービスRESTがあります. '''APIの使用法の詳細はhttps://ores.wikimedia.orgで説明します. '''

多数の更新がある記事に対してこのサービスでクエリを実行しようとする場合には、更新50件ごとに区切って処理することを推奨します. その方法は以下に解説してあり、また、並行処理は4件以下であれば受け付けます. さらに大量のクエリを実行するには、ORESをローカルで走らせてください.

クエリの例: |wp10&revids=34854345|485104318 http://ores.wmflabs.org/v3/scores/enwiki/?modelsdraftquality|wp10&revids34854345|485104318

クエリの例: https://ores.wikimedia.org/v3/scores/wikidatawiki/421063984/damaging

EventStream usage
The ORES scores are also provided as an EventStream at https://stream.wikimedia.org/v2/stream/revision-score

ローカルの使い方
ORES をローカルで使用するにはまずインストールします.

その後、次の手順で走るはずです.

以下に対する出力結果を表示