Perkakas Moderasi/Moderasi secara otomatis/Uji coba

This page is a translated version of the page Moderator Tools/Automoderator/Testing and the translation is 43% complete.

Outdated translations are marked like this.

Automoderator

Measurement plan

Testing

Deployment

Agar peralatan ini semakin andal, maka kami mengumpulkan beberapa suntingan yang dikumpulkan di spreadsheet untuk Anda tentukan apakah layak untuk dibalikkan atau dibiarkan saja.

Akurasi dari peralatan ini berdasarkan gabungan dari skor model pembelajaran mesin dan pengaturan internal. Terlepas model ini akan semakin baik seiring berjalannya waktu, kami juga berusaha untuk meningkatkan akurasi dengan cara masukan dari kontributor. Misalnya, ketika kontributor mengembalikan suntingannya sendiri maka terkadang akan dianggap sebagai vandalisme oleh peralatan ini. Untuk mencegah hal tersebut kembali terulang, kami mengumpulkan beberapa kejadian serupa dan meminta masukan dari kontributor perihal suntingan tersebut.

Sebagai catatan bahwa ini tidak merefleksikan hasil akhir dari peralatan "moderasi secara otomatis" untuk ke depannya. Peralatan ini akan berkembang sesuai dengan masukan dari komunitas.

Cara untuk berpartisipasi

Jika Anda memiliki akun Google:
1. Use the Google Sheet link below and make a copy of it
  - You can do this by clicking File > Make a Copy ... after opening the link.
2. Setelah Anda mendapatkan salinan berkas tersebut, silakan klik tombol Bagikan yang ada di bagian atas, lalu berikan akses ke swaltonwikimedia.org (pastikan centang pilihan "Beritahu"). Hal ini bertujuan agar kami dapat mengumpulkan masukan dari Anda lebih mudah.
  - Alternatively, you can change 'General access' to 'Anyone with the link' and share a link with us directly or on-wiki.
Alternatively, use the .ods file link to download the file to your computer.
- Setelah Anda memberikan penilaian terhadap suntingan yang ada, silakan kirimkan kembali sheet tersebut ke swaltonwikimedia.org. Hal ini bertujuan agar kami dapat mengumpulkan masukan dari Anda lebih mudah.

Jika Anda menggunakan spreadsheet ...

Ikuti instruksi yang ada di sheet untuk memilih suntingan yang ada, lakukan sebanyak 30 kali, dan temukan apa yang akan peralatan ini lakukan terhadap setiap suntingan tersebut.
- Feel free to explore the full data in the 'Edit data & scores' tab.
- If you want to review another dataset please make a new copy of the sheet to avoid conflicting data.
Bergabung di halaman pembicaraan.

Atau, Anda dapat melihat bagian 'Edit data & scores' dan melihat data tersebut secara langsung.

Google Sheet .ods file (download)

Apabila Anda ingin menerjemahkan sheet ini, silakan kirimkan salinan yang berisi terjemahannya ke swaltonwikimedia.org.

If you want us to add data from another Wikipedia please let us know and we would be happy to do so.

Tentang moderasi secara otomatis

Model dari peralatan ini ditujukan secara khusus untuk ruang nama utama Wikipedia. Untuk lebih detailnya dapat dilihat di bawah:

Konfigurasi internal

Untuk saat ini, versi terkini dari spreadsheet tidak dapat melihat tindakan sebagai berikut:

Suntingan yang dibuat oleh pengurus
Edits made by bots
Edits which are self-reverts
New page creations

Sheet di atas mengandung suntingan yang memenuhi kriteria tersebut, tetapi peralatan ini tidak dapat mengembalikan suntingannya. Hal ini akan kami perbaiki seiring dengan masukan dari kontributor secara berkelanjutan.

Tingkatan kewaspadaan

Dalam uji coba ini, Perkakas Moderasi memiliki lima tingkatan 'kewaspadaan' yang menentukan seberapa besar kemungkinan alat ini akan mengembalikan suatu suntingan.

Pada tingkatan tertinggi, peralatan ini akan mengembalikan suntingan dengan yakin. Hal ini berarti sedikit suntingan yang akan dibalikkan, tetapi dengan akurasi tinggi.

Pada tingkatan rendah, peralatan ini memilih untuk tidak langsung mengembalikan suatu suntingan. Hal ini berarti banyak suntingan yang akan dibalikkan, tetapi dengan akurasi rendah.

Tingkatan tersebut dalam uji coba kali ini sudah ditentukan oleh Tim Perkakas Moderasi berdasarkan model yang sudah kami observasi sebelumnya. Sebagai gambaran berapa banyak suntingan yang dikembalikan berdasarkan tingkatan, Anda dapat melihatnya pada tabel berikut:


	Suntingan harian	Pengembalian suntingan harian	Rerata pengembalian oleh peralatan
	Suntingan harian	Pengembalian suntingan harian	Sangat tinggi >0,99	Tinggi >0,985	Sedang >0,98	Rendah >0,975	Sangat rendah >0,97
Wikipedia bahasa Inggris	140.000	14.600	152	350	680	1.077	1.509
Wikipedia bahasa Prancis	23.200	1.400	24	40	66	98	136
Wikipedia bahasa Jerman	23.000	1.670	14	25	43	65	89
Wikipedia bahasa Spanyol	18.500	3.100	57	118	215	327	445
Wikipedia bahasa Rusia	16.500	2.000	34	57	88	128	175
Wikipedia bahasa Jepang	14.500	1.000	27	37	48	61	79
Wikipedia bahasa Tionghoa	13.600	890	9	16	25	37	53
Wikipedia bahasa Italia	13.400	1.600	40	61	99	151	211
Wikipedia bahasa Polandia	5.900	530	10	16	25	35	45
Wikipedia bahasa Portugis	5.700	440	2	7	14	21	30
Wikipedia bahasa Ibrani	5.400	710	16	22	30	38	48
Wikipedia bahasa Persia	5.200	900	13	26	44	67	92
Wikipedia bahasa Korea	4.300	430	12	17	23	30	39
Wikipedia bahasa Indonesia	3.900	340	7	11	18	29	42
Wikipedia bahasa Turki	3.800	510	4	7	12	17	24
Wikipedia bahasa Arab	3.600	670	8	12	18	24	31
Wikipedia bahasa Ceska	2.800	250	5	8	11	15	20
Wikipedia bahasa Rumania	1.300	110	2	2	4	6	9
Wikipedia bahasa Kroasia	500	50	1	2	2	3	4
...	...	...	...	...	...	...	...
All Wikipedia projects			538	984	1.683	2.533	3.483

Data selengkapnya dapat dilihat di sini.

Score an individual edit

We have created a simple user script to retrieve a Revert Risk score for an individual edit. Simply import User:JSherman (WMF)/revertrisk.js into your commons.js with mw.loader.load( 'https://en.wikipedia.org/wiki/User:JSherman_(WMF)/revertrisk.js?action=raw&ctype=text/javascript' );.

You should then find a 'Get revert risk score' in the Tools menu in your sidebar. Note that this will only display the model score, and does not take into account Automoderator's internal configurations as detailed above. See the table above for the scores above which we are investigating Automoderator's false positive rate.

Initial results

Quantitative

22 testing spreadsheets were shared back with us, totalling more than 600 reviewed edits from 6 Wikimedia projects. We have aggregated the data to analyse how accurate Automoderator would be at different caution levels:

Not cautious (0.97)	Low caution (0.975)	Somewhat cautious (0.98)	Cautious (0.985)	Very cautious (0.99)
75%	82%	93%	95%	100%

In our Moderator Tools/Automoderator/Measurement plan we said that we wanted the most permissive option Automoderator could be set at to have an accuracy of 90%. The ‘Not cautious’ and ‘Low caution’ levels are clearly below this, which isn’t surprising as we didn’t have clear data from which to select these initial thresholds. We will be removing the ‘Not cautious’ threshold, as a 25% error rate is clearly too low for any communities. We will retain ‘Low caution’ for now, and monitor how its accuracy changes as model and Automoderator improvements occur leading up to deployment. We want to err on the side of Automoderator not removing bad edits, so this is a priority for us to continue reviewing.

When we have real world accuracy data from Automoderator's pilot deployment we can investigate this further and consider changing the available thresholds further.

Qualitative

On the testing talk page and elsewhere we also received qualitative thoughts from patrollers.

Overall feedback about Automoderator’s accuracy was positive, with editors feeling comfortable at various thresholds, including some on the lower end of the scale.

Some editors raised concerns about the volume of edits Automoderator would actually revert being relatively low. This is something that we’ll continue to discuss with communities. From our analysis (T341857#9054727) we found that Automoderator would be operating at a somewhat similar capacity to existing anti-vandalism bots developed by volunteers, but we’ll continue to investigate ways to increase Automoderator’s coverage while minimising false positives.

Next steps

Based on the results above, we feel confident in the model’s accuracy and plan to continue our work on Automoderator. We will now start technical work on the software, while exploring designs for the user interface. We expect that the next update we share will contain configuration wireframes for feedback.

In the meantime please feel free to continue testing Automoderator via the process above - more data and insights will continue to have a positive impact on this project.