Wikimedia Apps/Team/Android/Machine Assisted Article Descriptions/es



Antecedentes del experimento
El equipo de Android está colaborando con Research y EPFL para mejorar las descripciones de los artículos, también conocidas como descripciones breves.

Actualmente los usuarios de la aplicación Android pueden crear y editar descripciones de artículos a través de ediciones sugeridas. Las descripciones de los artículos se envían a Wikidata, a excepción de las descripciones de los artículos de la Wikipedia en inglés. El equipo de Android ha recibido comentarios de que los nuevos usuarios producen descripciones de artículos de baja calidad (T279702). En 2022, el equipo impuso una restricción temporal a las ediciones sugeridas para los usuarios que tenían menos de 3 ediciones de la Wikipedia en inglés (T304621) con la intención de encontrar métodos para mejorar la calidad de las descripciones de los artículos por parte de los nuevos usuarios.

EPFL y Research se pusieron en contacto con el equipo de Android con un modelo llamado Descartes, que es un modelo que puede generar descripciones con un rendimiento a la par con los editores humanos. Descartes toma la información de la página de un artículo de Wikipedia y proporciona una breve descripción del artículo, al tiempo que se adhiere a la guía de lo que hace que la descripción de un artículo sea útil. Durante la evaluación inicial del modelo, se prefirió más del 50 de las veces que las descripciones de artículos generadas por humanos. Además, Descartes obtuvo un 91,3% de precisión en las pruebas. A pesar de estos resultados tan prometedores, el equipo quiso actuar con la debida diligencia realizando una prueba ABC para garantizar que las sugerencias mejoraran la calidad de las descripciones de los artículos cuando se sugirieran a nuevos editores, sin introducir o aumentar el sesgo existente. Hemos creado una API alojada en Toolforge e integraremos el modelo en nuestra interfaz actual para llevar a cabo nuestro experimento. Patrullaremos las ediciones realizadas a través del experimento en colaboración con voluntarios para no sobrecargar a los patrulleros.



Requisitos del producto

 * Los usuarios pueden dar su opinión sobre sugerencias concretas si detectan problemas.
 * Acomodar dos sugerencias generadas por máquina para probar qué haz es más preciso
 * Incorporar usuarios a las sugerencias generadas por máquinas
 * Ventanas emergentes de recordatorio de comprobación de sesgo al hacer clic en una sugerencia sobre una biografía
 * Sólo los usuarios experimentados podrán ver sugerencias de biografías
 * Posibilidad de que los usuarios escriban su propia respuesta y editen una sugerencia
 * Incorporar un icono que identifique que el producto utiliza aprendizaje automático
 * Multilingual compatibility with mBART25 mBART25



Objetivo e indicadores
Como primer paso en la implementación de este proyecto, el equipo de Android desarrollará un MVP con el propósito de:


 * 1) Determine if suggestions made through the Descartes model increases the quality of article description additions and edits made using the Wikipedia Android app. To understand how the suggested article description changes user behavior we will evaluate:
 * 2) * If introduction of suggestions alters the stickiness of the task type across editing tenure
 * 3) * Variability in task completion time relative to quality of edits
 * 4) * How often users modify suggestions before hitting publish
 * 5) * The optimal design and user workflow to encourage accuracy and task retention
 * 6) * What, if any, additional measures need to be in place to discourage bad or bias suggestions
 * 7) Determine if the algorithm holds up when exposed to more user:
 * 8) * Does the accuracy and preference rate change when exposed to more users
 * 9) * Does the accuracy and preference rate of using the suggestion vary greatly across languages
 * 10) * Is the algorithm introducing bias (e.g. Misgendering) or not accurately representing critical nuance for Biographies of Living Persons
 * 11) * How does the accuracy rate and performance change when showing more than one suggestion

Si el experimento de 30 días muestra resultados prometedores basados en los indicadores anteriores, el equipo introducirá la función a todos los usuarios y eliminará nuestro requisito de 3 ediciones para las ediciones sugeridas. También tomaremos medidas para ampliar el número de idiomas a mBART 50 y migrar la API de toolforge a un hogar más permanente.

Volunteer Graders
El equipo se asociará con voluntarios para patrullar las ediciones realizadas durante el tiempo del experimento y asignar una calificación a la edición.

This will serve as one input for determining if the quality of edits increase when using machine generated article descriptions. Volunteer graders can sign up below or reach out to ARamadan-WMF.

The commitment for serving as a volunteer grader is up to one hour a week for four weeks.



Gestión de riesgos
Any time Machine Learning is used we introduce a greater deal of risks than what is already involved in software development. For that reason we are tracking and managing risks associated with this project alongside our Security and Legal team.

How to follow along
We have created T316375 as our Phabricator Epic to track this work. We encourage your collaboration there or on our Talk Page.

There will also be periodic updates to this page as we make progress. You can also test the model at https://ml-article-descriptions.toolforge.org/.

Actualizaciones


Enero de 2023: Diseños actualizados
After determining that the suggestions could be embedded in the existing article descriptions task the Android team made updates to our design. If a user reports a suggestion, they will see the same dialog as we proposed in our August 2022 update as the what will be seen if someone clicks Not Sure.

This new design does mean we will allow users to publish their edits, as they would be able to without the machine generated suggestions. However, our team will patrol the edits that are made through this experiment to ensure we do not overwhelm volunteer patrollers. Additionally, new users will not receive suggestions for Biographies of Living Persons.



Noviembre de 2022: Desarrollo de la API
The Research team put the model on toolforge and tested the performance of the API. Initial insights found that it took 5-10 seconds to generate suggestions, which also varied depending on how many suggestions were being shown. Performance improved as the number of suggestions generated decreased. Ways of addressing this problem was by preloading some suggestions, restricting the number of suggestions shown when integrated into article descriptions, and altering user flows to ensure suggestions can be generated in the background.

August 2022: Initial Design Concepts and Guardrails for Bias
User story for Discovery

When I am using the Wikipedia Android app, am logged in, and discover a tooltip about a new edit feature, I want to be educated about the task, so I can consider trying it out. Open Question: When should this tooltip be seen in relation to other tooltips?

User story for education

When I want to try out the article descriptions feature, I want to be educated about the task, so my expectations are set correctly.

Guardrails for bias and harm
The team generated possible guardrails for bias and harm:


 * Harm: problematic text recommendations
 * Guardrail: blocklist of words never to use
 * Guardrail: check for stereotypes – e.g., gendered language + occupations
 * Harm: poor quality of recommendations
 * Guardrail: minimum amount of information in article
 * Guardrail: verify performance by knowledge gap
 * Harm: recommendations only for some types of articles
 * Guardrail: monitor edit distribution by topic