Herramientas para personas moderadoras/Automoderadoras

Grupo:	Moderator Tools
Equipo:	Claudia Lo (design researcher), Jason Sherman (software engineer), Susana Cardenas Molinar (software engineer), Dennis Mburugu (engineering manager), Aishwarya Vardhana (designer), Krishna Chaitanya Velaga (analyst)
Líder:	Sam Walton (product manager)

This page is a translated version of the page Moderator Tools/Automoderator and the translation is 65% complete.

Outdated translations are marked like this.

Automoderator

Measurement plan

Testing

El equipo Moderator Tools está explorando un proyecto para construir una herramienta "automoderadora" para los proyectos Wikimedia. Permitiría a las personas moderadoras configurar la prevención o reversión automática de malas ediciones basándose en la puntuación de un modelo de aprendizaje automático. En términos más sencillos, queremos crear un software que realice una función similar a la de los bots antivandalismo como ClueBot NG, SeroBOT y Dexbot, pero que esté disponible para todas las comunidades lingüísticas. A MediaWiki extension is now under development - Extension:AutoModerator .

Nuestra hipótesis es: Si permitimos a las comunidades prevenir o revertir automáticamente el vandalismo obvio, las personas moderadoras tendrán más tiempo para dedicarse a otras actividades.

Investigaremos y exploraremos esta idea durante el resto de 2023, y esperamos poder iniciar los trabajos de ingeniería a principios del año natural 2024.

Latest update (febrero de 2024): Designs have been posted for the initial version of the landing and configuration pages. Thoughts and suggestions welcome!

Previous updates

febrero de 2024: We have posted initial results from our testing process.
octubre de 2023: We are looking for input and feedback on our measurement plan, to decide what data we should use to evaluate the success of this project, and have made testing data available to collect input on Automoderator's decision-making.
agosto de 2023: We recently presented this project, and other moderator-focused projects, at Wikimania. You can find the session recording here.

Motivación

Wikimania presentation (13:50)

En los proyectos Wikimedia se realizan un número considerable de ediciones que deberían deshacerse sin ambigüedad, devolviendo una página a su estado anterior. Las personas patrulleras y administradoras tienen que dedicar mucho tiempo a revisar y revertir manualmente estas ediciones, lo que contribuye a que en muchas wikis grandes se tenga la sensación de que hay una cantidad abrumadora de trabajo que requiere atención en comparación con el número de personas moderadoras activas. Nos gustaría reducir estas cargas, liberando tiempo de las personas moderadoras para trabajar en otras tareas.

Indonesian Wikipedia community call (11:50)

Muchos sitios web de comunidades en línea, como Reddit, Twitch y Discord, ofrecen funciones de "automoderación", mediante las cuales la comunidad puede configurar una combinación de acciones de moderación automatizada específicas y algorítmicas. En Wikipedia, AbuseFilter proporciona una funcionalidad específica basada en reglas, pero puede ser frustrante cuando quienes moderan tienen que, por ejemplo, definir minuciosamente una expresión regular para cada variación ortográfica de una grosería. También es complicado y fácil de romper, lo que hace que muchas comunidades eviten utilizarlo. Al menos una docena de comunidades disponen de bots antivandalismo, pero son mantenidos por la comunidad, requieren conocimientos técnicos locales y suelen tener configuraciones opacas. Estos bots también se basan en gran medida en el dañino modelo ORES, que no se ha entrenado en mucho tiempo y tiene un soporte lingüístico limitado.

Objetivos

Reducir los retrasos en la moderación impidiendo que las malas ediciones entren en las colas de quienes las supervisan
Dar confianza a quienes moderan de que la automoderación es fiable y no está produciendo falsos positivos significativos.
Asegurarse de que las personas moderadoras, atrapadas en un falso positivo, tengan vías claras para señalar el error / que se restablezca su edición.

¿Hay otros objetivos que debamos tener en cuenta?

Design research

We delved into a comprehensive design research process to establish a strong foundation for the configuration tool for Automoderator. At the core of our approach is the formulation of essential design principles for shaping an intuitive and user-friendly configuration interface.

We looked at existing technologies and best practices and this process is known as desk research. This allowed us to gain valuable insights into current trends, potential pitfalls, and successful models within the realm of automated content moderation. We prioritized understanding the ethical implications of human-machine learning interaction, and focused on responsible design practices to ensure a positive and understandable user experience. We honed in on design principles that prioritize transparency, user empowerment, and ethical considerations.

Modelo

Este proyecto aprovechará los nuevos modelos de riesgo de reversión desarrollados por el equipo Wikimedia Foundation Research. Existen dos versiones de este modelo:

Un modelo multilingüe, con soporte para 47 idiomas.
Un modelo agnóstico del lenguaje.

Estos modelos pueden calcular una puntuación para cada revisión que denota la probabilidad de que la edición deba revertirse. Prevemos ofrecer a las comunidades la posibilidad de fijar un umbral para esta puntuación, por encima del cual las ediciones se impedirían o revertirían automáticamente.

Actualmente, los modelos sólo son compatibles con Wikipedia y Wikidata, pero podrían entrenarse con otros proyectos de Wikimedia. Además, actualmente solo están capacitados para el espacio de nombres principal (artículos). Una vez desplegado, podríamos volver a entrenar el modelo de forma continua a medida que la comunidad informara de falsos positivos.

Antes de seguir adelante con este proyecto, nos gustaría ofrecer la posibilidad de probar el modelo con las últimas modificaciones, de modo que quienes patrullan puedan saber hasta qué punto es preciso el modelo y si sienten que es seguro utilizarlo del modo que proponemos.

¿Le preocupan estos modelos?
¿Qué porcentaje de falsos positivos sería el máximo que usted o su comunidad aceptarían?

Posible solución

Estamos pensando en una herramienta que puedan configurar las personas moderadoras de una comunidad para impedir o revertir automáticamente las ediciones. Revertir ediciones es el escenario más probable - impedir una edición requiere un alto rendimiento para no afectar a los tiempos de guardado de la edición. Además, proporciona menos supervisión sobre qué ediciones se están impidiendo, lo que puede no ser deseable, especialmente en lo que respecta a los falsos positivos. Quienes moderan deben poder configurar si la herramienta está activa o no, y tener opciones sobre lo estricto que debe ser el modelo.

Con umbrales más bajos se revertirían más ediciones, pero la tasa de falsos positivos es mayor, mientras que con un umbral alto se revertiría un número menor de ediciones, pero con mayor confianza.

Aunque la forma exacta de este proyecto aún se está estudiando, a continuación se exponen algunas ideas que estamos considerando, más allá de lo básico de impedir o revertir ediciones que alcancen un umbral de riesgo de reversión.

Pruebas

Si las comunidades tienen lineamientos sobre lo estricto que quieren que sea el automoderador, tenemos que proporcionar una forma de probar esos umbrales de antemano. Esto podría parecerse a la funcionalidad de prueba de AbuseFilter, mediante la cual las ediciones recientes pueden comprobarse con la herramienta para entender qué ediciones habrían sido revertidas en un umbral determinado.

¿Qué importancia tiene para usted este tipo de pruebas? ¿Hay alguna función de prueba que le resulte especialmente útil?

Configuración de las comunidad

Un aspecto central de este proyecto será ofrecer a quienes moderan opciones de configuración claras para configurar el automoderador y adaptarlo a las necesidades de su comunidad. En lugar de limitarse a revertir todas las ediciones que alcancen un umbral, podríamos, por ejemplo, ofrecer filtros para no actuar sobre determinadas personas editoras o grupos de usuarios/as, o evitar determinadas páginas.

¿Qué opciones de configuración cree que necesitaría antes de utilizar este software?

Informes de falsos positivos

Los modelos de aprendizaje automático no son perfectos, por lo que cabe esperar que haya un número no nulo de falsos positivos. Hay al menos dos cosas que tenemos que considerar aquí: el proceso para que un usuario señale que su edición fue falsamente revertida para que pueda ser restablecida, y proporcionar un mecanismo para que las comunidades proporcionen retroalimentación al modelo con el tiempo para que pueda ser re-entrenado.

El modelo es más sensible a las ediciones de usuarios nuevos y no registrados, ya que de ahí procede la mayor parte del vandalismo. No queremos que esta herramienta afecte negativamente a la experiencia de las y los nuevos usuarios de buena fe, por lo que necesitamos crear vías claras para que estas personas entiendan que su edición ha sido revertida y puedan restablecerla. Sin embargo, esto debe equilibrarse con la necesidad de no proporcionar rutas fáciles para que quienes hacen vandalismo deshagan el trabajo de la herramienta.

Aunque estos modelos se han entrenado con una gran cantidad de datos, las notificaciones de falsos positivos por parte de las personas editoras pueden proporcionar un valioso conjunto de datos para el re-entrenamiento continuo del modelo. Tenemos que averiguar cómo permitir que redactoras/es experimentadas/os envíen datos de falsos positivos al modelo para que pueda mejorar con el tiempo.

¿Cómo podemos proporcionar información y medidas claras las personas editoras que reciban un falso positivo, sin que quienes hacen vandalismo abusen de ello?
¿Qué cuestiones le preocupan sobre los falsos positivos?

Designs

Our current plans for Automoderator have two UI components:

Landing page.

A landing page with information about Automoderator, a way to appeal the bot’s decisions, and a link to configure the bot.

Configuration page.
Making changes to the configuration page.
Saving changes to the configuration page.

The configuration page, which will be generated by Community Configuration . In the MVP, admins will be able to turn Automoderator on or off, configure its threshold (i.e. how it should behave), and customize its default edit summary and username. We anticipate that we'll add more configuration options over time in response to feedback. Once the page is saved, if the user has turned Automoderator on, it will start running immediately.

Otras preguntas abiertas

Si tu comunidad utiliza un bot antivandalismo mantenido por personas voluntarias, ¿cuál ha sido tu experiencia con ese bot? ¿Cómo te sentirías si dejara de funcionar?
¿Cree que su comunidad lo utilizaría? ¿Cómo encajaría con sus otros flujos de trabajo y herramientas?
¿Qué más deberíamos tener en cuenta que no hayamos documentado antes?