ORES/uk

ORES (/ɔɹz/) — це вебсервіс та API, що надають машинне навчання як послугу для проєктів Вікімедіа, і підтримуються Командою платформи оцінювання (Scoring Platform team). Система розроблена для автоматизації критичноважливої вікіроботи: наприклад, виявлення та усунення вандалізму. Наразі ORES генерує два загальні типи оцінок, які лежать у контекстах «якість редагування» і «якісь статті».

ORES є сервісом бекенду, і не дає прямого способу використовувати оцінки. Якщо ви б хотіли використовувати оцінки ORES, ознайомтеся з нашим списком інструментів, які використовують оцінки ORES. Якщо ORES іще не підтримує вашу вікі, див. нашу послідовність кроків для запиту підтримки.

Шукаєте відповіді на свої запитання про ORES? Перегляньте ЧаПи ORES.

Якість редагування
Один з найбільш критичних моментів, коли йдеться про відкриті проєкти Вікімедіа, це розгляд потенційно шкідливого внеску («редагувань»). Також є потреба визначати дописувачів з добрими намірами (які можуть ненавмисне спричиняти шкоду) і пропонувати їм допомогу. Ці моделі мають на меті полегшити роботу з фільтрування стрічки Спеціальна:Нові_редагування. Ми пропонуємо два рівні підтримки для моделей передбачення якості редагувань: базовий та розширений.

Базова підтримка
Припускаючи, що більшість шкідливих редагувань будуть відкинуті, а редагування, що не шкодять, такими не будуть, ми можемо використати як основу історію редагувань (і відкинутих редагувань) з вікі. Ця модель налаштовується легко, але вона потерпає від того, що багато редагувань відкидають з інших причин, що не стосуються шкоди і вандалізму. Щоб зарадити цьому, ми створюємо модель, що базується на поганих словах.


 * — передбачає, чи редагування буде в результаті відкинуте

Розширена підтримка
Замість робити припущення, ми можемо попросити редакторів натренувати ORES розрізняти, які редагування справді є шкідливими, а які схожі на добрі наміри. Це вимагає додаткової роботи з боку волонтерів у спільноті, але це дозволяє набагато точніші й тонші передбачення з огляду на якість редагування. Багато інструментів працюватимуть лише тоді, коли для вікі є розширена підтримка.


 * — передбачає, чи редагування спричиняє шкоду чи ні
 * — передбачає, чи редагування було збережене з добрими намірами

Якість статті
Якість статей Вікіпедії є ключовою турботою вікіпедистів. Нові сторінки мають бути розглянуті й перевірені, щоб у вікі точно не залишилися спам, вандалізм та нападки. Якість статей, які виживають первинний розгляд, деякі вікіпедисти періодично оцінюють, але це дуже працезатратна діяльність, й оцінки часто застарілі.

Підтримка нагляду
Чим швидше вилучать дуже проблемні види статей-чернеток, тим краще. Нагляд за новоствореними сторінками може означати величезний обсяг роботи. Подібно до проблеми протидії вандалізму в редагуваннях, машинні передбачення можуть допомогти кураторам зосередитися перш за все на найбільш проблемних нових сторінках. На основі коментарів, які адміни залишають при вилученні сторінок (див. таблицю журналів), ми можемо натренувати модель, яка передбачатиме, які сторінки треба швидко вилучити. Див. список причин для швидкого вилучення в англійській Вікіпедії на en:WP:CSD. Для англійської моделі ми використали G3 «вандалізм», G10 «напад» та G11 «спам».


 * — передбачає, чи стаття має бути швидко вилучена (spam, vandalism, attack або OK)

Підтримка шкали оцінювання
Якість статей, які виживають первинний розгляд, у деяких великих Вікіпедіях періодично оцінюють з використанням шкали, яка значною мірою відповідає шкалі оцінювання англійської Вікіпедії 1.0 («articlequality»). Мати ці оцінки дуже корисно, бо це допомагає нам виміряти прогрес і визначити упущені можливості (наприклад, популярні статті низької якості). Однак доволі складно робити так, щоб ці оцінки завжди були свіжими, тому покриття статей оцінками непослідовне. Тут приходить на допомогу модель машинного навчання. Натренувавши модель відтворювати оцінювання якості статей, яке проводять люди, ми можемо автоматично оцінити кожну статтю й кожну версію з допомогою комп'ютера. Ця модель використовується, щоб допомогти вікіпроєктам сортувати за нагальністю роботу з повторного оцінювання і досліджувати, які саме редагування призводять до покращення якості статей.

Модель articlequality базує свої передбачення на структурних характеристиках статті. Наприклад, скільки у статті розділів? чи є картка? скільки приміток на джерела? Чи використовують примітки шаблон cite? Модель articlequality не оцінює якість тексту або наявність проблем викладу (скажімо, чи не просувається одна точка зору). Але схоже, багато структурних характеристик статей значно корелюють із гарним письмом і тоном, тому моделі дуже добре працюють на практиці.


 * — передбачає (подібну до Wikipedia 1.0) оцінку статті чи чернетки за якістю

Маршрутизація тем


ORES' article topic model applies an intuitive top-down taxonomy to any article in Wikipedia -- even new article drafts. This topic routing is useful for curating new articles, building work lists, forming new WikiProjects, and analyzing coverage gaps.

ORES topic models are trained using en:word embeddings of the actual content. For each language, a language-specific embedding is learned and applied natively. Since this modeling strategy depends on the topic of the article, topic predictions may differ between languages depending on the topics present in the text of the article.

Curation support


The biggest difficulty with reviewing new articles is finding someone familiar with the subject matter to judge notability, relevance, and accuracy. Our  model is designed to route newly created articles based on their apparent topical nature to interested reviewers. The model is trained and tested against the first revision of articles and is thus suitable to use on new article drafts.


 * – predicts the topic of an a new article draft

Topic interest mapping


The topical relatedness of articles is an important concept for the organization of work in Wikipedia. Topical working groups have become a common strategy for managing content production and patrolling in Wikipedia. Yet a high-level hierarchy is not available or query-able for many reasons. The result is that anyone looking to organize around a topic or make a work-list has to do substantial manual work to identify the relevant articles. With our  model, these queries can be done automatically.


 * – predicts the topic of an article

Support table
The ORES support table reports the status of ORES support by wiki and model available. If you don't see your wiki listed, or support for the model you'd like to use, you can request support.

API usage
ORES offers a Restful API service for dynamically retrieving scoring information about revisions. See https://ores.wikimedia.org for more information on how to use the API.

If you're querying the service about a large number of revisions, it's recommended to batch 50 revisions in each request as described below. It's acceptable to use up to 4 parallel requests. For even larger number of queries, you can run ORES locally

Example query: |wp10&revids=34854345|485104318 http://ores.wmflabs.org/v3/scores/enwiki/?modelsdraftquality|wp10&revids34854345|485104318

Example query: https://ores.wikimedia.org/v3/scores/wikidatawiki/421063984/damaging

EventStream usage
The ORES scores are also provided as an EventStream at https://stream.wikimedia.org/v2/stream/revision-score

Local usage
To run ORES locally you can install ORES by:

Then you should be able to run it through :

You should see output of