ORES

From mediawiki.org
This page is a translated version of the page ORES and the translation is 94% complete.
Outdated translations are marked like this.
Peringatan Peringatan The ORES infrastructure is being deprecated by the Machine Learning team, please check wikitech:ORES for more info.

ORES (/ɔɹz/)[1] adalah layanan web dan API yang menyediakan pembelajaran mesin sebagai layanan untuk proyek-proyek Wikimedia yang dikelola oleh tim Scoring Platform. Sistem ini dirancang untuk membantu mengotomatisasi kerja pada wiki – contohnya, deteksi dan penghapusan vandalisme. Saat ini, dua tipe umum skor yang dikeluarkan oleh ORES adalah dalam "kualitas penyuntingan" dan "kualitas artikel."

ORES merupakan sebuah layanan sisi belakang dan tidak secara langsung menyediakan cara untuk menggunakan skor. Jika Anda ingin menggunakan skor ORES, periksa daftar perkakas yang menggunakan skor ORES. Jika ORES belum mendukung wiki Anda, lihatlah instruksi untuk meminta dukungan.

Sedang mencari jawaban untuk pertanyaan Anda mengenai ORES? Lihatlah FAQ ORES.

Kualitas suntingan

Aliran kualitas suntingan ORES. Sebuah diagram deskriptif suntingan yang mengalir dari "Internet" ke Wikipedia menggambarkan suntingan dengan kualitas "tidak diketahui" sebelum ORES dan pelabelan "bagus", "perlu tinjauan", "merusak" yang dimungkinkan oleh ORES.

Salah satu masalah kritis tentang proyek terbuka Wikimedia adalah peninjauan kontribusi ("suntingan") yang berpotensi merusak. Juga harus ada cara mengenali kontributor yang berniat baik (yang mungkin tidak sengaja membuat kerusakan) dan memberikan mereka dukungan. Model-model ini dimaksudkan agar pekerjaan menyaring umpan Special:RecentChanges lebih mudah. Kami menawarkan dua tingkat dukungan untuk model prediksi kualitas suntingan: dasar dan lanjutan.

Dukungan dasar

Dengan mengasumsikan bahwa suntingan yang paling merusak akan dibalikkan dan suntingan yang tidak merusak tidak akan di=reverted, kami bisa membangun dengan menggunakan riwayat suntingan (dan suntingan yang dibalikkan) dari suatu wiki. Model ini mudah dibuat, tetapi menghadapi masalah ada banyak suntingan yang dibalikkan untuk alasan selain kerusakan dan vandalisme. Untuk membantu itu, kami membuat model berdasarkan kata-kata buruk.

  • reverted – memprediksi apakah hasil suntingan harus dibalikkan

Dukungan lanjutan

Bukannya berasumsi, kami bisa meminta penyunting untuk melatih ORES mengenali suntingan mana yang memang damaging dan suntingan mana yang kelihatannya disimpan dengan goodfaith. Ini memerlukan usaha lebih dari pihak sukarelawan dalam komunitas, tetapi ini menyediakan prediksi yang lebih akurat dan detail mengenai kualitas suatu suntingan. Ada banyak perkakas yang hanya bekerja ketika dukungan lanjutan tersedia di wiki target.

  • damaging – memprediksi apakah suntingan menyebabkan kerusakan
  • goodfaith – memprediksi apakah suntingan disimpan dengan niat baik

Kualitas artikel

Tabel penilaian Wikipedia bahasa Inggris. Ini adalah sebuah cuplikan dari tabel penilaian Wikipedia bahasa Inggris (per Mei 2023)

Kualitas artikel Wikipedia merupakan kekhawatiran yang besar bagi para Wikipediawan. Halaman baru harus ditinjau dan dikurasi untuk memastikan spam, vandalisme, dan artikel serangan tidak terus berada di wiki. Untuk artikel-artikel yang melewati kurasi awal, beberapa Wikipediawan secara berkala menilai kualitas artikel, tetapi ini sangat bergantung pada sumber daya manusia yang ada dan penilaiannya kerap kali tidak mutakhir.

Penilaian artikel baru

Semakin sepat artikel draf yang sangat bermasalah dihapus, semakin baik. Mengkurasi pembuatan halaman baru bisa jadi melibatkan banyak pekerjaan. Seperti masalah melawan vandalisme dalam suntingan, prediksi mesin bisa membantu kurator berfokus ke halaman baru yang paling bermasalah terlebih dahulu. Berdasarkan komentar yang diberikan oleh pengurus ketika mereka menghapus halaman (lihat tabel logging ), kami bisa melatih sebuah model untuk memprediksi halaman mana yang perlu cepat-cepat dihapus. Lihat en:WP:CSD untuk daftar alasan penghapusan kilat di Wikipedia bahasa Inggris. Untuk model bahasa Inggris, kami menggunakan G3 "vandalism", G10 "attack", dan G11 "spam".

  • draftquality – memprediksi apakah artikel akan perlu dihapus secara cepat (spam, vandalisme, serangan, atau OK)

Penilaian artikel yang sudah ada

Untuk artikel-artikel yang melewati kurasi awal, beberapa Wikipedia besar secara berkala menilai kualitas artikel menggunakan skala yang kurang lebih sesuai dengan skala penilaian Wikipedia 1.0 bahasa Inggris ("articlequality"). Penilaian ini sangat berguna karena membantu kita mengukur proses kita dan mengenali kesempatan yang terlewat (misalnya, artikel populer yang berkualitas rendah). Namun, memutakhirkan penilaian ini bisa jadi sulit untuk dilakukan, jadi cakupannya tidak konsisten. Inilah di mana model pembelajaran mesin articlequality menjadi berguna. Dengan melatih sebuah model untuk menirukan penilaian kualitas artikel yang dilakukan manusia, kita bisa menilai setiap artikel dan setiap revisi secara otomatis menggunakan komputer. Model ini telah digunakan untuk membantu pekerjaan penilaian ulang triase WikiProject dan untuk menjelajahi dinamika penyuntingan yang mengantarkan kepada peningkatan kualitas artikel.

Model articlequality mendasarkan prediksinya terhadap karakteristik struktural artikel. Contohnya, ada berapa banyak bagian di dalamnya? Apa ada kotak info? Berapa banyak referensinya? Apakah referensinya menggunakan salah satu templat {{Cite xxx }}? Model articlequality tidak menilai kualitas penulisan atau apakah terdapat masalah nada bicara (misalnya, mendorong sudut pandang tertentu). Akan tetapi, banyak karakteristik struktural artikel kelihatannya sangat berkorelasi dengan penulisan dan nada bicara yang baik, jadi modelnya pada praktiknya bekerja dengan baik.

  • articlequality* articlequality – memprediksi kelas penilaian (mirip Wikipedia 1.0) dari suatu artikel atau draf

Perutean topik

Persebrangan Topik. Berikut adalah visualisasi dari proses pelabelan lintas wiki. WikiProjects dari Wikipedia bahasa Inggris menandai artikel menurut topik peminatan. WikiProjects diorganisasikan menjadi sebuah taksonomi label topik. Label topik diterapkan ke artikel-artikel di wiki lain melalui pranala antarwiki Wikidata.

Model topik artikel ORES menerapkan sebuah taksonomi atas-bawah yang intuitif kepada semua artikel di Wikipedia -- draf artikel baru sekali pun. Perutean topik ini berguna untuk mengkurasi artikel baru, membangun daftar pekerjaan, membentuk WikiProjects baru, dan menganalisis kesenjangan cakupan.

Model topik ORES dilatih menggunakan pembenaman kata dari konten yang sebenarnya. Untuk setiap bahasa, sebuah pembenaman bahasa tertentu dipelajari dan diterapkan secara lokal. Karena strategi pemodelan ini bergantung pada topik artikel, prediksi topik bisa berbeda dalam bahasa yang berbeda tergantung topik yang ada di teks artikel.

Penilaian artikel baru

Perutean artikel baru. Sebuah diagram memetakan aliran artikel baru di Wikipedia dengan model 'draftquality' dan 'articletopic' ORES digunakan untuk perutean.

Kesulitan terbesar dalam meninjau artikel baru adalah menemukan seseorang yang memahami subjek untuk menilai kelayakan, relevansi, dan akurasinya. Model drafttopic kami dirancang untuk merutekan artikel yang baru dibuat berdasarkan topik mereka ke peninjau yang berminat. Model ini dilatih dan diuji dengan revisi pertama artikel dan oleh karena itu cocok digunakan di draf artikel baru.

  • drafttopic – memprediksi topik dari sebuah draf artikel baru

Pemetaan peminatan topik

Contoh penandaan artikel (Ann Bishop). Ann Bishop ditandai oleh WikiProject Anglia Timur, Ilmuwan wanita, Sejarah wanita, dan Biografi. Ditampilkan terjemahan dan prediksi taksonomi topik. Perhatikan bahwa prediksinya lebih banyak mengandung informasi topik yang relevan daripada tautan taksonomi.

Keterkaitan topik artikel merupakan konsep yang penting bagi organisasi karya di Wikipedia. Kelompok kerja bertopik menjadi strategi yang umum untuk mengelola produksi dan patroli konten di Wikipedia. Namun hierarki tingkat tinggi tidak tersedia atau dapat dikuerikan oleh karena beberapa alasan. Akibatnya semua orang yang ingin mengorganisasi di sekitar suatu topik atau membuat daftar kerja harus melakukan pekerjaan manual yang banyak untuk mengenali artikel yang relevan. Dengan model articletopic kami, kueri-kueri ini bisa dilakukan secara otomatis.

Tabel dukungan

Tabel dukungan ORES melaporkan status dukungan ORES menurut wiki dan model yang tersedia. Jika Anda tidak melihat wiki Anda di daftar, atau dukungan untuk model yang Anda ingin gunakan, Anda bisa meminta dukungan.

Penggunaan API

ORES menawarkan sebuah layanan API Restful untuk mengambil secara dinamis informasi skor tentang revisi. Lihat https://ores.wikimedia.org untuk informasi lebih lanjut mengenai cara menggunakan API.

Jika Anda mengkueri layanan tentang banyak revisi, disarankan untuk tidak menumpukkan lebih dari 50 revisi dalam satu permintaan sebagaimana yang dijelaskan di bawah. Diperbolehkan menggunakan maksimal 4 permintaan secara paralel. Tolong jangan lebihi batas ini atau ORES bisa menjadi tidak stabil. Untuk kueri yang lebih banyak lagi, Anda bisa menjalankan ORES secara lokal.

Contoh kueri: http://ores.wikimedia.org/v3/scores/enwiki/?models=draftquality|wp10&revids=34854345|485104318

{
  "enwiki": {
    "models": {
      "draftquality": {
        "version": "0.0.1"
      },
      "wp10": {
        "version": "0.5.0"
      }
    },
    "scores": {
      "34854345": {
        "draftquality": {
          "score": {
            "prediction": "OK",
            "probability": {
              "OK": 0.7013632376824356,
              "attack": 0.0033607229172158775,
              "spam": 0.2176404529599271,
              "vandalism": 0.07763558644042126
            }
          }
        },
        "wp10": {
          "score": {
            "prediction": "FA",
            "probability": {
              "B": 0.22222314275400137,
              "C": 0.028102719464462304,
              "FA": 0.7214649122864883,
              "GA": 0.008833476344463836,
              "Start": 0.017699431000825352,
              "Stub": 0.0016763181497590444
            }
          }
        }
      },
      "485104318": {
        "draftquality": {
          "score": {
            "prediction": "OK",
            "probability": {
              "OK": 0.9870402772858909,
              "attack": 0.0006854267347843173,
              "spam": 0.010405615745053554,
              "vandalism": 0.0018686802342713132
            }
          }
        },
        "wp10": {
          "score": {
            "prediction": "Stub",
            "probability": {
              "B": 0.02035853144725939,
              "C": 0.021257471714087376,
              "FA": 0.0018133076388221472,
              "GA": 0.003447287158958823,
              "Start": 0.1470443252839051,
              "Stub": 0.8060790767569672
            }
          }
        }
      }
    }
  }
}
 

Hasil


Contoh kueri: https://ores.wikimedia.org/v3/scores/wikidatawiki/421063984/damaging

{
  "wikidatawiki": {
    "models": {
      "damaging": {
        "version": "0.3.0"
      }
    },
    "scores": {
      "421063984": {
        "damaging": {
          "score": {
            "prediction": false,
            "probability": {
              "false": 0.9947809563336424,
              "true": 0.005219043666357669
            }
          }
        }
      }
    }
  }
}
 

Hasil


Penggunaan EventStream

Skor ORES juga disediakan sebagai sebuah EventStream di https://stream.wikimedia.org/v2/stream/revision-score

Penggunaan lokal

Untuk menjalankan ORES secara lokal, Anda dapat menginstal paket ORES Python dengan:

pip install ores # needs to be python3, incompatible with python2

Kemudian Anda dapat menjalankannya dengan:

echo -e '{"rev_id": 456789}\n{"rev_id": 3242342}' | ores score_revisions https://ores.wikimedia.org (string agen-pengguna Anda ditulis di sini) enwiki damaging

Anda seharusnya melihat keluaran

017-11-22 16:23:53,000 INFO:ores.utilities.score_revisions -- Reading input from <stdin>
2017-11-22 16:23:53,000 INFO:ores.utilities.score_revisions -- Writing output to from <stdout>
{"score": {"damaging": {"score": {"prediction": false, "probability": {"false": 0.9889349126544834, "true": 0.011065087345516589}}}}, "rev_id": 456789}
{"score": {"damaging": {"score": {"prediction": false, "probability": {"false": 0.9830812038318183, "true": 0.016918796168181708}}}}, "rev_id": 3242342}
 

Hasil


Catatan kaki

  1. Singkatan dari Objective Revision Evaluation Service, tetapi sudah jarang disebutkan.