Moderator Tools/Automoderator/Testing/nl

From mediawiki.org
This page is a translated version of the page Moderator Tools/Automoderator/Testing and the translation is 100% complete.
Diagram met het besluitvormingsproces van Automoderator

Het team Moderator Tools maakt Automoderator - een hulpmiddel die automatisch slechte bewerkingen kan terugdraaien op basis van een machine learning model, die een soortgelijke functie uitvoert als community anti-vandalisme bots zoals ClueBot NG, SeroBOT, Dexbot, Salebot. Om gemeenschappen te helpen de nauwkeurigheid van Automoderator te testen en te evalueren, stellen we een testspreadsheet beschikbaar met gegevens over eerdere bewerkingen en of Automoderator deze zou hebben teruggedraaid of niet.

De beslissingen van Automoderator zijn het gevolg van een mix van een machine learning model score en interne instellingen. Hoewel het model met de tijd beter zal worden door ervaring en leren, willen we ook de nauwkeurigheid verbeteren door een aantal extra interne regels te definiëren. We hebben bijvoorbeeld gezien dat Automoderator gebruikers misidentificeert als vandalisme als die gebruikers hun eigen bewerkingen terugdraaien. Om te verbeteren, zoeken we vergelijkbare voorbeelden en we waarderen uw hulp bij het identificeren daarvan.

Let op dat deze test niet noodzakelijkerwijs de definitieve vorm van Automoderator weerspiegelt - we zullen de resultaten van deze test gebruiken om het beter te maken!

Het testen van Automoderator

Schermafdruk van het spreadsheet, met voorbeelden van antwoorden ingevuld.
  • Als u een Google-account heeft:
    1. Use the Google Sheet link below and make a copy of it
      1. You can do this by clicking File > Make a Copy ... after opening the link.
    2. Nadat uw kopie is geladen, klikt u op Delen in de bovenste hoek, en geeft u dan toegang tot avardhana@wikimedia.org (laat 'Notify' aangevinkt), zodat we uw antwoorden kunnen aggregeren om gegevens te verzamelen over de juistheid van Automoderator.
      1. Alternatively, you can change 'General access' to 'Anyone with the link' and share a link with us directly or on-wiki.
  • Alternatively, use the .ods file link to download the file to your computer.
    • Stuur ons na het invullen het bestand terug op avardhana@wikimedia.org, zodat we uw antwoorden kunnen aggregeren om gegevens te verzamelen over de nauwkeurigheid van Automoderator.

Na toegang tot het spreadsheet...

  1. Volg de instructies in het blad om een willekeurige dataset te selecteren, 30 bewerkingen te bekijken en ontdek vervolgens welke beslissingen Automoderator zou nemen voor elke bewerking.
    1. Feel free to explore the full data in the 'Edit data & scores' tab.
    2. If you want to review another dataset please make a new copy of the sheet to avoid conflicting data.
  2. Discussieer mee op de overlegpagina.

Als alternatief kunt u gewoon in de individuele project tabbladen duiken en de gegevens direct onderzoeken.


*Wij ontvangen graag vertalingen van dit blad - indien u een vertaling wilt indienen, kunt u een kopie maken, de teksten in het tabblad 'String translations' vertalen en deze terugsturen aan ons op swalton@wikimedia.org.

Als u wilt dat we gegevens van een andere Wikipedia toevoegen, laat het ons dan weten, we doen het graag.

Over Automoderator

Het model van Automoderator wordt uitsluitend opgeleid op de belangrijkste namespace pagina's van Wikipedia, waarbij de dataset wordt beperkt tot bewerkingen van Wikipedia-artikelen. Meer informatie vindt u hieronder:

Interne configuratie

In de huidige versie van het spreadsheet neemt Automoderator naar de modelscore kijkend, geen maatregelen tegen:

  • Bewerkingen gedaan door beheerders
  • Edits made by bots
  • Edits which are self-reverts
  • New page creations

De gegevenssets bevatten bewerkingen die aan deze criteria voldoen, maar Automoderator mag nooit zeggen dat het deze zal terugdraaien. Dit gedrag en de bovenstaande lijst zullen worden bijgewerkt naarmate de tests vorderen als we nieuwe uitsluitingen of configuratie toevoegen.

Voorzichtigheid

In deze test heeft Automoderator vijf 'voorzichtigheidsniveaus', die de probabiliteitsdrempel definiëren boven welke Automoderator een bewerking zal terugdraaien.

  • Automoderator moet zeer zelfverzekerd zijn om een bewerking terug te draaien. Dit betekent dat het minder bewerkingen in het algemeen ongedaan zal maken, maar dit met een hogere nauwkeurigheid gebeurt.
  • Bij lage voorzichtigheid zal Automoderator minder streng zijn met betrekking tot zijn vertrouwensniveau. Het zal meer bewerkingen terugdraaien, maar het zal minder nauwkeurig zijn.

De voorzichtigheidsniveaus in deze test zijn vastgesteld door het team van Moderator Tools op basis van onze waarnemingen van de nauwkeurigheid en dekking van de modellen. Voor een illustratie van het aantal keren terugdraaien dat bij verschillende waarschuwingsniveaus wordt verwacht, zie hieronder:

Dagelijkse bewerkingen Dagelijkse aantal terugdraai acties Gemiddelde aantal keer terugdraaien door Automoderator per dag
Heel voorzichtig .

>0.99

Voorzichtig

>0.985

Beetje voorzichtig .

>0.98

Minder voorzichtig

>0.975

Niet voorzichtig

>0.97

Engelstalige Wikipedia 140,000 14,600 152 350 680 1077 1509
Franstalige Wikipedia 23,200 1,400 24 40 66 98 136
Duitse Wikipedia 23,000 1,670 14 25 43 65 89
Spaanstalige Wikipedia 18,500 3,100 57 118 215 327 445
Russische Wikipedia 16,500 2,000 34 57 88 128 175
Japanse Wikipedia 14,500 1,000 27 37 48 61 79
Chinese Wikipedia 13,600 890 9 16 25 37 53
Italiaanse Wikipedia 13,400 1,600 40 61 99 151 211
Poolse Wikipedia 5,900 530 10 16 25 35 45
Portugese Wikipedia 5,700 440 2 7 14 21 30
Hebreeuwse Wikipedia 5,400 710 16 22 30 38 48
Perzische Wikipedia 5,200 900 13 26 44 67 92
Koreaanse Wikipedia 4,300 430 12 17 23 30 39
Indonesische Wikipedia 3,900 340 7 11 18 29 42
Turkse Wikipedia 3,800 510 4 7 12 17 24
Arabische Wikipedia 3,600 670 8 12 18 24 31
Tjechische Wikipedia 2,800 250 5 8 11 15 20
Roemeense Wikipedia 1,300 110 2 2 4 6 9
Kroatische Wikipedia 500 50 1 2 2 3 4
... ... ... ... ... ... ... ...
Alle Wikipedia projecten 538 984 1683 2533 3483

Deze gegevens kunnen worden bekeken voor andere Wikimedia-projecten hier.

Score van een bepaalde bewerking

Als u dit gebruikers script invoert, krijgt u in het menu Hulpmiddelen een knop om de kans op terugdraaien van een bepaalde bewerking op te vragen.

We hebben een eenvoudig gebruikersscript gemaakt om de kans op terugdraaien van een bepaalde bewerking op te vragen. Importeer gewoon User:JSherman (WMF)/revertrisk.js in uw commons.js met mw.loader.load( 'https://en.wikipedia.org/wiki/User:JSherman_(WMF)/revertrisk.js?action=raw&ctype=text/javascript' );

U moet dan een 'Get revert risk score' zien staan in het menu Hulpmiddelen in de zijbalk. Let op dat dit alleen de modelscore weergeeft en niet rekening houdt met de interne configuraties van Automoderator zoals hierboven beschreven. Zie bovenstaande tabel voor de scores boven welke we de vals positieve snelheid van Automoderator onderzoeken.


Eerste resultaten

Kwantitatief

We hebben 22 spreadsheets om te testen terugontvangen, er waren meer dan 600 bewerkingen van 6 Wikimedia-projecten beoordeeld. We hebben de gegevens samengevoegd om te analyseren hoe nauwkeurig Automoderator zou zijn op verschillende waarschuwingsniveaus:

Niet voorzichtig (0.97) Minder voorzichtig (0.975) Beetje voorzichtig . (0.98) Voorzichtig (0.985) Heel voorzichtig . (0.99)
75% 82% 93% 95% 100%

In our measurement plan we said that we wanted the most permissive option Automoderator could be set at to have an accuracy of 90%. The ‘Not cautious’ and ‘Low caution’ levels are clearly below this, which isn’t surprising as we didn’t have clear data from which to select these initial thresholds. We will be removing the ‘Not cautious’ threshold, as a 25% error rate is clearly too low for any communities. We will retain ‘Low caution’ for now, and monitor how its accuracy changes as model and Automoderator improvements occur leading up to deployment. We want to err on the side of Automoderator not removing bad edits, so this is a priority for us to continue reviewing.

Als we de echte nauwkeurigheid van de gegevens van de pilot van Automoderator hebben, kunnen we dit verder onderzoeken en de beschikbare drempels verder veranderen.

Kwalitatief

Op deze overlegpagina en elders ontvingen we ook kwalitatieve gedachten van patrollers.

De algemene feedback over de nauwkeurigheid van Automoderator was positief, waarbij redacteuren zich op verschillende drempels comfortabel voelden, waaronder sommige aan het onderkant van de schaal.

Some editors raised concerns about the volume of edits Automoderator would actually revert being relatively low. This is something that we’ll continue to discuss with communities. From our analysis (T341857#9054727) we found that Automoderator would be operating at a somewhat similar capacity to existing anti-vandalism bots developed by volunteers, but we’ll continue to investigate ways to increase Automoderator’s coverage while minimising false positives.

Volgende stappen

Based on the results above, we feel confident in the model’s accuracy and plan to continue our work on Automoderator. We will now start technical work on the software, while exploring designs for the user interface. We expect that the next update we share will contain configuration wireframes for feedback.

Voel u zich in de tussentijd vrij om Automoderator via het bovenstaande proces te blijven testen. Meer gegevens en inzichten zullen een positieve impact blijven hebben op dit project.