Moderator Tools/Automoderator/es

El equipo está explorando un proyecto para construir una herramienta "automoderadora" para los proyectos Wikimedia. Permitiría a las personas moderadoras configurar la prevención o reversión automática de malas ediciones basándose en la puntuación de un modelo de aprendizaje automático. En términos más sencillos, queremos crear un software que realice una función similar a la de los bots antivandalismo como ClueBot NG, SeroBOT y Dexbot, pero que esté disponible para todas las comunidades lingüísticas.

Nuestra hipótesis es: Si permitimos a las comunidades prevenir o revertir automáticamente el vandalismo obvio, las personas moderadoras tendrán más tiempo para dedicarse a otras actividades'.

Investigaremos y exploraremos esta idea durante el resto de 2023, y esperamos poder iniciar los trabajos de ingeniería a principios del año natural 2024.

Última actualización (Junio 2023): Tenemos una serie de preguntas abiertas a continuación, ¡por favor, añade tus ideas, preguntas y comentarios en la página de discusión!

Motivación
En los proyectos Wikimedia se realizan un número considerable de ediciones que deberían deshacerse sin ambigüedad, devolviendo una página a su estado anterior. Las personas patrulleras y administradoras tienen que dedicar mucho tiempo a revisar y revertir manualmente estas ediciones, lo que contribuye a que en muchas wikis grandes se tenga la sensación de que hay una cantidad abrumadora de trabajo que requiere atención en comparación con el número de personas moderadoras activas. Nos gustaría reducir estas cargas, liberando tiempo de las personas moderadoras para trabajar en otras tareas.

Muchos sitios web de comunidades en línea, como Reddit, Twitch y Discord, ofrecen funciones de "automoderación", mediante las cuales la comunidad puede configurar una combinación de acciones de moderación automatizada específicas y algorítmicas. En Wikipedia, AbuseFilter proporciona una funcionalidad específica basada en reglas, pero puede ser frustrante cuando quienes moderan tienen que, por ejemplo, definir minuciosamente una expresión regular para cada variación ortográfica de una grosería. También es complicado y fácil de romper, lo que hace que muchas comunidades eviten utilizarlo. Al menos una docena de comunidades disponen de bots antivandalismo, pero son mantenidos por la comunidad, requieren conocimientos técnicos locales y suelen tener configuraciones opacas. Estos bots también se basan en gran medida en el dañino modelo ORES, que no se ha entrenado en mucho tiempo y tiene un soporte lingüístico limitado.

Objetivos

 * Reducir los retrasos en la moderación impidiendo que las malas ediciones entren en las colas de quienes las supervisan
 * Dar confianza a quienes moderan de que la automoderación es fiable y no está produciendo falsos positivos significativos.
 * Asegurarse de que las personas moderadoras, atrapadas en un falso positivo, tengan vías claras para señalar el error / que se restablezca su edición.


 * ¿Hay otros objetivos que debamos tener en cuenta?

Modelo
Este proyecto aprovechará los nuevos modelos de riesgo de reversión desarrollados por el equipo Wikimedia Foundation Research. Existen dos versiones de este modelo:


 * 1) Un modelo multilingüe, con soporte para 47 idiomas.
 * 2) Un modelo agnóstico del lenguaje.

Estos modelos pueden calcular una puntuación para cada revisión que denota la probabilidad de que la edición deba revertirse. Prevemos ofrecer a las comunidades la posibilidad de fijar un umbral para esta puntuación, por encima del cual las ediciones se impedirían o revertirían automáticamente.

Actualmente, los modelos sólo son compatibles con Wikipedia y Wikidata, pero podrían entrenarse con otros proyectos de Wikimedia. Además, actualmente solo están capacitados para el espacio de nombres principal (artículos). Una vez desplegado, podríamos volver a entrenar el modelo de forma continua a medida que la comunidad informara de falsos positivos.

Antes de seguir adelante con este proyecto, nos gustaría ofrecer la posibilidad de probar el modelo con las últimas modificaciones, de modo que quienes patrullan puedan saber hasta qué punto es preciso el modelo y si sienten que es seguro utilizarlo del modo que proponemos.


 * ¿Le preocupan estos modelos?
 * ¿Qué porcentaje de falsos positivos sería el máximo que usted o su comunidad aceptarían?



Posible solución
Estamos pensando en una herramienta que puedan configurar las personas moderadoras de una comunidad para impedir o revertir automáticamente las ediciones. Revertir ediciones es el escenario más probable - impedir una edición requiere un alto rendimiento para no afectar a los tiempos de guardado de la edición. Además, proporciona menos supervisión sobre qué ediciones se están impidiendo, lo que puede no ser deseable, especialmente en lo que respecta a los falsos positivos. Quienes moderan deben poder configurar si la herramienta está activa o no, y tener opciones sobre lo estricto que debe ser el modelo.

Con umbrales más bajos se revertirían más ediciones, pero la tasa de falsos positivos es mayor, mientras que con un umbral alto se revertiría un número menor de ediciones, pero con mayor confianza.

While the exact form of this project is still being explored, the following are some feature ideas we are considering, beyond the basics of preventing or reverting edits which meeting a revert risk threshold.

Testing
If communities have options for how strict they want the automoderator to be, we need to provide a way to test those thresholds in advance. This could look like AbuseFilter’s testing functionality, whereby recent edits can be checked against the tool to understand which edits would have been reverted at a particular threshold.


 *  How important is this kind of testing functionality for you? Are there any testing features you would find particularly useful? 

Community configuration
A core aspect of this project will be to give moderators clear configuration options for setting up the automoderator and customising it to their community’s needs. Rather than simply reverting all edits meeting a threshold, we could, for example, provide filters for not operating on editors with certain user groups, or avoiding certain pages.


 *  What configuration options do you think you would need before using this software? 
 *  Who should be able to configure the automoderator? 
 *  Should Stewards be able to configure the tool for small wikis? 

False positive reporting
Machine learning models aren't perfect, and so we should expect that there will be a non-zero number of false positive reverts. There are at least two things we need to consider here: the process for a user flagging that their edit was falsely reverted so it can be reinstated, and providing a mechanism for communities to provide feedback to the model over time so that it can be re-trained.

The model is more sensitive to edits from new and unregistered users, as this is where most vandalism comes from. We don't want this tool to negatively impact the experience of good faith new users, so we need to create clear pathways for new users to understand that their edit has been reverted, and be able to reinstate it. This needs to be balanced with not providing easy routes for vandals to undo the tool's work, however.

Although these models have been trained on a large amount of data, false positive reporting by editors can provide a valuable dataset for ongoing re-training of the model. We need to figure out how to enable experienced editors to send false positive data back to the model so that it can improve over time.


 *  How could we provide clear information and actions for editors on the receiving end of a false positive, in a way which isn’t abused by vandals? 
 *  What concerns do you have about false positives? 

Other open questions

 * If your community uses a volunteer-maintained anti-vandalism bot, what has your experience of that bot been? How would you feel if it stopped working?
 * Do you think your community would use this? How would it fit in with your other workflows and tools?
 * What data for this tool should we track so that we can evaluate how successful it is?
 * What else should we consider that we haven't documented above?