Wikimedia Apps/Team/Android/Machine Assisted Article Descriptions/es



Antecedentes del experimento
El equipo de Android está colaborando con Research y EPFL para mejorar las descripciones de los artículos, también conocidas como descripciones breves.

Actualmente los usuarios de la aplicación Android pueden crear y editar descripciones de artículos a través de ediciones sugeridas. Las descripciones de los artículos se envían a Wikidata, a excepción de las descripciones de los artículos de la Wikipedia en inglés. El equipo de Android ha recibido comentarios de que los nuevos usuarios producen descripciones de artículos de baja calidad (T279702). En 2022, el equipo impuso una restricción temporal a las ediciones sugeridas para los usuarios que tenían menos de 3 ediciones de la Wikipedia en inglés (T304621) con la intención de encontrar métodos para mejorar la calidad de las descripciones de los artículos por parte de los nuevos usuarios.

EPFL y Research se pusieron en contacto con el equipo de Android con un modelo llamado Descartes, que es un modelo que puede generar descripciones con un rendimiento a la par con los editores humanos. Descartes toma la información de la página de un artículo de Wikipedia y proporciona una breve descripción del artículo, al tiempo que se adhiere a la guía de lo que hace que la descripción de un artículo sea útil. Durante la evaluación inicial del modelo, se prefirió más del 50 de las veces que las descripciones de artículos generadas por humanos. Además, Descartes obtuvo un 91,3% de precisión en las pruebas. A pesar de estos resultados tan prometedores, el equipo quiso actuar con la debida diligencia realizando una prueba ABC para garantizar que las sugerencias mejoraran la calidad de las descripciones de los artículos cuando se sugirieran a nuevos editores, sin introducir o aumentar el sesgo existente. Hemos creado una API alojada en Toolforge e integraremos el modelo en nuestra interfaz actual para llevar a cabo nuestro experimento. Patrullaremos las ediciones realizadas a través del experimento en colaboración con voluntarios para no sobrecargar a los patrulleros.



Requisitos del producto

 * Los usuarios pueden dar su opinión sobre sugerencias concretas si detectan problemas.
 * Acomodar dos sugerencias generadas por máquina para probar qué haz es más preciso
 * Incorporar usuarios a las sugerencias generadas por máquinas
 * Ventanas emergentes de recordatorio de comprobación de sesgo al hacer clic en una sugerencia sobre una biografía
 * Sólo los usuarios experimentados podrán ver sugerencias de biografías
 * Posibilidad de que los usuarios escriban su propia respuesta y editen una sugerencia
 * Incorporar un icono que identifique que el producto utiliza aprendizaje automático
 * Compatibilidad multilingüe con mBART25



Objetivo e indicadores
Como primer paso en la implementación de este proyecto, el equipo de Android desarrollará un MVP con el propósito de:


 * 1) Determinar si las sugerencias realizadas a través del modelo Descartes aumentan la calidad de las adiciones y ediciones de descripciones de artículos realizadas utilizando la aplicación Android de Wikipedia. Para entender cómo la descripción del artículo sugerida cambia el comportamiento del usuario evaluaremos:
 * 2) * Si la introducción de sugerencias altera la adherencia del tipo de tarea a lo largo del tiempo de edición
 * 3) * Variabilidad en el tiempo de finalización de la tarea en relación con la calidad de las ediciones
 * 4) * Frecuencia con la que los usuarios modifican las sugerencias antes de publicarlas
 * 5) * El diseño y el flujo de trabajo del usuario óptimos para fomentar la precisión y la retención de tareas
 * 6) * ¿Qué medidas adicionales deben adoptarse, en su caso, para desalentar las sugerencias erróneas o tendenciosas?
 * 7) Determinar si el algoritmo se mantiene cuando se expone a más usuarios:
 * 8) * ¿Cambia la precisión y el índice de preferencia cuando se expone a más usuarios?
 * 9) * ¿Varía mucho la precisión y el índice de preferencia de uso de la sugerencia según las lenguas?
 * 10) * ¿Introduce el algoritmo sesgos (por ejemplo, errores de género) o no representa con precisión los matices críticos de las biografías de personas vivas?
 * 11) * ¿Cómo cambia el índice de precisión y el rendimiento cuando se muestra más de una sugerencia?

Si el experimento de 30 días muestra resultados prometedores basados en los indicadores anteriores, el equipo introducirá la función a todos los usuarios y eliminará nuestro requisito de 3 ediciones para las ediciones sugeridas. También tomaremos medidas para ampliar el número de idiomas a mBART 50 y migrar la API de toolforge a un hogar más permanente.



Evaluadores voluntarios
El equipo se asociará con voluntarios para patrullar las ediciones realizadas durante el tiempo del experimento y asignar una calificación a la edición.

Esto servirá para determinar si la calidad de las ediciones aumenta cuando se utilizan descripciones de artículos generadas automáticamente. Los evaluadores voluntarios pueden inscribirse a continuación o ponerse en contacto con ARamadan-WMF.

El compromiso para servir como evaluador voluntario es de hasta una hora a la semana durante cuatro semanas.

Decision to be made
This A/B test will help us make the following decision:


 * Expand the feature to all users
 * Use suggestion as a means to train new users and remove 3 edit minimum gate
 * Migrate model to more permanent API
 * Show 1 or 2 beams
 * Expand to MBart 50

ABC Logic Explanation

The only users that will see the suggestions are those in mBART25
 * Experiment will include only logged in users, in order to stabilize distribution.
 * Of those in mBART25 half will see suggestions (B: Treatment) and half will not see suggestions (Control)
 * Of those in mBART25 only users that have more than 50 edits can see suggestions for Biographies of a Living Person, and if the users are in the non-Blp group, they will remain in it, even if they cross 50 edits during the experiment.

Additionally, we care about how the answers to our experiment will differ by language wiki and user experience (<50 New vs. 50+ Experienced).

Decision to be made

 * If the accuracy rate for edits that came from the suggestion is less than those manually written, we will not keep the feature in the app. The accuracy rate will be determined based on manual patrolling.
 * If the accuracy rate for edits that came from the suggestion is less than 80%, we will not keep the feature in the app. The accuracy rate will be determined based on manual patrolling.
 * If the time spent to complete the task using the suggestion is double the average rate as those that do not see suggestions we will need to compare it to reports to see if there are performance issues
 * If time spent to complete the task using the suggestion is less than the average without a negative impact to accuracy rate, we will consider it a positive indicator to expand the feature to more users
 * If users that see the suggestion modify the suggestions more often than submitting it without modification, we will evaluate its accuracy rate compared to users that did not see the suggestions and determine if the suggestion is a good starting point for users and how it differs by user experience
 * If users that see the suggestion modify the suggestions more often than submitting them without modification, we will look for trends in the modification and offer a recommendation to EPFL to update the model
 * If beam one is chosen more than 25% of the time than beam two while having an equal or higher accuracy rate, we will only show beam one in the future
 * If users that see treatment return to the task multiple times (1,2,7,14 days) at a rate 15% or more than the control group without a negative impact to accuracy, we will take steps to expand the feature
 * If our risks are triggered we will implement our contingency plan
 * If users that see the treatment do not select a suggestion more than 50% of the time after viewing the suggestions, we will not expand the feature

In aggregate, there should be at least 1500 people with a stretch goal of **2,000 people** and 4,000 edits included in the A/B test across the following mBART25 wikis: English, Russian, Vietnamese, Japanese, German, Romanian, French, Finnish, Korean, Spanish, Chinese (sim), Italian, Dutch, Arabic, Turkish, Hindi, Czech, Lithuanian, Latvian, Kazakh, Estonian, Nepali, Sinhala, Gujarati, and Burmese.



Gestión de riesgos
Cada vez que se utiliza Machine Learning introducimos una mayor cantidad de riesgos de los que ya implica el desarrollo de software. Por ese motivo, estamos siguiendo y gestionando los riesgos asociados a este proyecto junto con nuestro equipo legal y de seguridad.



Cómo seguir
Hemos creado T316375 como nuestro Phabricator Epic para seguir este trabajo. Te animamos a colaborar allí o en nuestra página de discusión.

También habrá actualizaciones periódicas de esta página a medida que avancemos. También puede probar el modelo en https://ml-article-descriptions.toolforge.org/.

April 2023: Updated Designs
We released our experiment in the 25 mBART languages this month and it will run until mid-May. Prior to release we added a model card to our FAQ page to provide transparency into how the model works.



Enero de 2023: Diseños actualizados
Tras determinar que las sugerencias podían integrarse en las descripciones de los artículos existentes, el equipo de Android actualizó nuestro diseño. Si un usuario informa de una sugerencia, verá el mismo cuadro de diálogo que propusimos en nuestra actualización de agosto de 2022 como lo que se verá si alguien hace clic en No estoy seguro.

Este nuevo diseño significa que permitiremos a los usuarios publicar sus ediciones, como podrían hacerlo sin las sugerencias generadas por la máquina. Sin embargo, nuestro equipo controlará las ediciones que se realicen a través de este experimento para garantizar que no abrumamos a los patrulleros voluntarios. Además, los nuevos usuarios no recibirán sugerencias para biografías de personas vivas.



Noviembre de 2022: Desarrollo de la API
El equipo de investigación puso el modelo en toolforge y probó el rendimiento de la API. Los primeros datos revelaron que se tardaban entre 5 y 10 segundos en generar sugerencias, lo que también variaba en función del número de sugerencias que se mostraban. El rendimiento mejoraba a medida que disminuía el número de sugerencias generadas. Para solucionar este problema se precargaron algunas sugerencias, se restringió el número de sugerencias que se mostraban cuando se integraban en las descripciones de los artículos y se modificaron los flujos de usuario para garantizar que las sugerencias se generaran en segundo plano.

August 2022: Initial Design Concepts and Guardrails for Bias
Historia de usuario para el descubrimiento

Cuando utilizo la aplicación de Wikipedia para Android, he iniciado sesión y descubro un tooltip sobre una nueva función de edición, quiero que me informen sobre la tarea para poder probarla. Pregunta abierta: ¿Cuándo debe verse esta información sobre herramientas en relación con otras?

Historia de usuario para la educación

Cuando quiero probar la función de descripción de artículos, quiero que me informen sobre la tarea, para que mis expectativas sean correctas.

Guardrails for bias and harm
The team generated possible guardrails for bias and harm:


 * Harm: problematic text recommendations
 * Guardrail: blocklist of words never to use
 * Guardrail: check for stereotypes – e.g., gendered language + occupations
 * Harm: poor quality of recommendations
 * Guardrail: minimum amount of information in article
 * Guardrail: verify performance by knowledge gap
 * Harm: recommendations only for some types of articles
 * Guardrail: monitor edit distribution by topic