Moderator Tools/Automoderator/Testing/nl

This page is a translated version of the page Moderator Tools/Automoderator/Testing and the translation is 100% complete.

Het team Moderator Tools maakt Automoderator - een hulpmiddel die automatisch slechte bewerkingen kan terugdraaien op basis van een machine learning model, die een soortgelijke functie uitvoert als community anti-vandalisme bots zoals ClueBot NG, SeroBOT, Dexbot, Salebot. Om gemeenschappen te helpen de nauwkeurigheid van Automoderator te testen en te evalueren, stellen we een testspreadsheet beschikbaar met gegevens over eerdere bewerkingen en of Automoderator deze zou hebben teruggedraaid of niet.

De beslissingen van Automoderator zijn het gevolg van een mix van een machine learning model score en interne instellingen. Hoewel het model met de tijd beter zal worden door ervaring en leren, willen we ook de nauwkeurigheid verbeteren door een aantal extra interne regels te definiëren. We hebben bijvoorbeeld gezien dat Automoderator gebruikers misidentificeert als vandalisme als die gebruikers hun eigen bewerkingen terugdraaien. Om te verbeteren, zoeken we vergelijkbare voorbeelden en we waarderen uw hulp bij het identificeren daarvan.

Let op dat deze test niet noodzakelijkerwijs de definitieve vorm van Automoderator weerspiegelt - we zullen de resultaten van deze test gebruiken om het beter te maken!

Het testen van Automoderator

Als u een Google-account heeft:
1. Use the Google Sheet link below and make a copy of it
  1. You can do this by clicking File > Make a Copy ... after opening the link.
2. Nadat uw kopie is geladen, klikt u op Delen in de bovenste hoek, en geeft u dan toegang tot avardhanawikimedia.org (laat 'Notify' aangevinkt), zodat we uw antwoorden kunnen aggregeren om gegevens te verzamelen over de juistheid van Automoderator.
  1. Alternatively, you can change 'General access' to 'Anyone with the link' and share a link with us directly or on-wiki.
Alternatively, use the .ods file link to download the file to your computer.
- Stuur ons na het invullen het bestand terug op avardhanawikimedia.org, zodat we uw antwoorden kunnen aggregeren om gegevens te verzamelen over de nauwkeurigheid van Automoderator.

Na toegang tot het spreadsheet...

Volg de instructies in het blad om een willekeurige dataset te selecteren, 30 bewerkingen te bekijken en ontdek vervolgens welke beslissingen Automoderator zou nemen voor elke bewerking.
1. Feel free to explore the full data in the 'Edit data & scores' tab.
2. If you want to review another dataset please make a new copy of the sheet to avoid conflicting data.
Discussieer mee op de overlegpagina.

Als alternatief kunt u gewoon in de individuele project tabbladen duiken en de gegevens direct onderzoeken.

Google Sheet .ods bestand (download)

*Wij ontvangen graag vertalingen van dit blad - indien u een vertaling wilt indienen, kunt u een kopie maken, de teksten in het tabblad 'String translations' vertalen en deze terugsturen aan ons op swaltonwikimedia.org.

Als u wilt dat we gegevens van een andere Wikipedia toevoegen, laat het ons dan weten, we doen het graag.

Over Automoderator

Het model van Automoderator wordt uitsluitend opgeleid op de belangrijkste namespace pagina's van Wikipedia, waarbij de dataset wordt beperkt tot bewerkingen van Wikipedia-artikelen. Meer informatie vindt u hieronder:

Interne configuratie

In de huidige versie van het spreadsheet neemt Automoderator naar de modelscore kijkend, geen maatregelen tegen:

Bewerkingen gedaan door beheerders
Edits made by bots
Edits which are self-reverts
New page creations

De gegevenssets bevatten bewerkingen die aan deze criteria voldoen, maar Automoderator mag nooit zeggen dat het deze zal terugdraaien. Dit gedrag en de bovenstaande lijst zullen worden bijgewerkt naarmate de tests vorderen als we nieuwe uitsluitingen of configuratie toevoegen.

Voorzichtigheid

In deze test heeft Automoderator vijf 'voorzichtigheidsniveaus', die de probabiliteitsdrempel definiëren boven welke Automoderator een bewerking zal terugdraaien.

Automoderator moet zeer zelfverzekerd zijn om een bewerking terug te draaien. Dit betekent dat het minder bewerkingen in het algemeen ongedaan zal maken, maar dit met een hogere nauwkeurigheid gebeurt.

Bij lage voorzichtigheid zal Automoderator minder streng zijn met betrekking tot zijn vertrouwensniveau. Het zal meer bewerkingen terugdraaien, maar het zal minder nauwkeurig zijn.

De voorzichtigheidsniveaus in deze test zijn vastgesteld door het team van Moderator Tools op basis van onze waarnemingen van de nauwkeurigheid en dekking van de modellen. Voor een illustratie van het aantal keren terugdraaien dat bij verschillende waarschuwingsniveaus wordt verwacht, zie hieronder:


	Dagelijkse bewerkingen	Dagelijkse aantal terugdraai acties	Gemiddelde aantal keer terugdraaien door Automoderator per dag
	Dagelijkse bewerkingen	Dagelijkse aantal terugdraai acties	Heel voorzichtig . >0.99	Voorzichtig >0.985	Beetje voorzichtig . >0.98	Minder voorzichtig >0.975	Niet voorzichtig >0.97
Engelstalige Wikipedia	140,000	14,600	152	350	680	1077	1509
Franstalige Wikipedia	23,200	1,400	24	40	66	98	136
Duitse Wikipedia	23,000	1,670	14	25	43	65	89
Spaanstalige Wikipedia	18,500	3,100	57	118	215	327	445
Russische Wikipedia	16,500	2,000	34	57	88	128	175
Japanse Wikipedia	14,500	1,000	27	37	48	61	79
Chinese Wikipedia	13,600	890	9	16	25	37	53
Italiaanse Wikipedia	13,400	1,600	40	61	99	151	211
Poolse Wikipedia	5,900	530	10	16	25	35	45
Portugese Wikipedia	5,700	440	2	7	14	21	30
Hebreeuwse Wikipedia	5,400	710	16	22	30	38	48
Perzische Wikipedia	5,200	900	13	26	44	67	92
Koreaanse Wikipedia	4,300	430	12	17	23	30	39
Indonesische Wikipedia	3,900	340	7	11	18	29	42
Turkse Wikipedia	3,800	510	4	7	12	17	24
Arabische Wikipedia	3,600	670	8	12	18	24	31
Tjechische Wikipedia	2,800	250	5	8	11	15	20
Roemeense Wikipedia	1,300	110	2	2	4	6	9
Kroatische Wikipedia	500	50	1	2	2	3	4
...	...	...	...	...	...	...	...
Alle Wikipedia projecten			538	984	1683	2533	3483

Deze gegevens kunnen worden bekeken voor andere Wikimedia-projecten hier.

Score van een bepaalde bewerking

We hebben een eenvoudig gebruikersscript gemaakt om de kans op terugdraaien van een bepaalde bewerking op te vragen. Importeer gewoon User:JSherman (WMF)/revertrisk.js in uw commons.js met mw.loader.load( 'https://en.wikipedia.org/wiki/User:JSherman_(WMF)/revertrisk.js?action=raw&ctype=text/javascript' );

U moet dan een 'Get revert risk score' zien staan in het menu Hulpmiddelen in de zijbalk. Let op dat dit alleen de modelscore weergeeft en niet rekening houdt met de interne configuraties van Automoderator zoals hierboven beschreven. Zie bovenstaande tabel voor de scores boven welke we de vals positieve snelheid van Automoderator onderzoeken.

Eerste resultaten

Kwantitatief

We hebben 22 spreadsheets om te testen terugontvangen, er waren meer dan 600 bewerkingen van 6 Wikimedia-projecten beoordeeld. We hebben de gegevens samengevoegd om te analyseren hoe nauwkeurig Automoderator zou zijn op verschillende waarschuwingsniveaus:

Niet voorzichtig (0.97)	Minder voorzichtig (0.975)	Beetje voorzichtig . (0.98)	Voorzichtig (0.985)	Heel voorzichtig . (0.99)
75%	82%	93%	95%	100%

In our measurement plan we said that we wanted the most permissive option Automoderator could be set at to have an accuracy of 90%. The ‘Not cautious’ and ‘Low caution’ levels are clearly below this, which isn’t surprising as we didn’t have clear data from which to select these initial thresholds. We will be removing the ‘Not cautious’ threshold, as a 25% error rate is clearly too low for any communities. We will retain ‘Low caution’ for now, and monitor how its accuracy changes as model and Automoderator improvements occur leading up to deployment. We want to err on the side of Automoderator not removing bad edits, so this is a priority for us to continue reviewing.

Als we de echte nauwkeurigheid van de gegevens van de pilot van Automoderator hebben, kunnen we dit verder onderzoeken en de beschikbare drempels verder veranderen.

Kwalitatief

Op deze overlegpagina en elders ontvingen we ook kwalitatieve gedachten van patrollers.

De algemene feedback over de nauwkeurigheid van Automoderator was positief, waarbij redacteuren zich op verschillende drempels comfortabel voelden, waaronder sommige aan het onderkant van de schaal.

Some editors raised concerns about the volume of edits Automoderator would actually revert being relatively low. This is something that we’ll continue to discuss with communities. From our analysis (T341857#9054727) we found that Automoderator would be operating at a somewhat similar capacity to existing anti-vandalism bots developed by volunteers, but we’ll continue to investigate ways to increase Automoderator’s coverage while minimising false positives.

Volgende stappen

Based on the results above, we feel confident in the model’s accuracy and plan to continue our work on Automoderator. We will now start technical work on the software, while exploring designs for the user interface. We expect that the next update we share will contain configuration wireframes for feedback.

Voel u zich in de tussentijd vrij om Automoderator via het bovenstaande proces te blijven testen. Meer gegevens en inzichten zullen een positieve impact blijven hebben op dit project.