Jump to content

Apps Wikimedia/Equipo/Android/Descripciones para Artículos con Asistencia Automatizada/Novedades

From mediawiki.org
This page is a translated version of the page Wikimedia Apps/Team/Android/Machine Assisted Article Descriptions/Updates and the translation is 11% complete.
Outdated translations are marked like this.

Updates

Further changes

  • We've used the same underlying machine-learning model for all of these experiments (so no re-training etc. of the actual model). What we've been adjusting throughout is how the user interacts with it.
  • Our initial offline evaluation was of this model (Jan-April '23) lead us to put in place a few modifications to how users interacted with the model for the May-June 2023 piloting -- notably which outputs they could see (only higher confidence ones) and adjusting who could see the recommendations based on whether the article was a biography of a living person or not.
  • The feedback from that pilot lead to us putting in place one final adjustment having to do with when a recommended article description included a year in it (only show it if there's support for that year in the article text because this was one source of hallucinations by the model). That's now part of the officially deployed model on LiftWing (the link I shared above) that Android users would see.
  • At this point we aren't planning on any model updates beyond trying to reduce the latency of the model so Android users can see the recommendations more quickly. If we got feedback about errors that we thought we could address though, we'd try to make those fixes

agosto de 2024

  • We are beginning to reach out to some Wikis to implement the feature, based on the results from the experiment that was updated and published last January.

July 2024: API available through LiftWing

We appreciate everyone's patience as we've worked with the Machine Learning team to migrate the model to LiftWing. In August we will clean up the client side code to remove test conditions and add in improvements mentioned in the January 2024 update. In the following months we will reach out to different language communities to make the feature available to them in the app.

If you are a developer and would like to build a gadget using the API, you can read the documentation here.

Enero de 2024: Resultados de las Pruebas

Idiomas incluidos en calificación:
  • árabe
  • checo
  • alemán
  • inglés
  • español
  • francés
  • guyaratí
  • hindi
  • italiano
  • japonés
  • ruso
  • turco

Idiomas adicionales revisados por el equipo, pero que no tuvieron evaluadores de la comunidad:

  • finés
  • kazajo
  • coreano
  • birmano
  • neerlandés
  • rumano
  • vietnamita

¿Hubo diferencia entre el Promedio de Ediciones y la Nota Media entre las Sugerencias Automáticas Aceptadas, las Generadas por Humanos:
Ediciones Calificadas Nota Promedio Mediana
Ediciones Automáticas Aceptadas 4.1 5
Ediciones Generadas por Humanos 4.2 5
Graded Edits Avg Grade Median Grade
Machine Accepted Edits 4.1 5
Human Generated Edits 4.2 5
  • Nota: 5 es el puntaje más elevado posible

¿Cómo se comportó el modelo en los distintos idiomas?
Idioma Automáticas Aceptadas
Language Machine Accepted
Edits Avg. Grade
Human Generated
Edits Avg. Grade
Machine Avg.
Grade Higher?
Recommendation of if feature should be enabled
ar* 2.8 2.1 TRUE No
cs 4.5 N/A Yes
de 3.9 4.1 FALSE 50+ Edits Required
en 4.0 4.5 FALSE 50+ Edits Required
es 4.5 4.1 TRUE Yes
fr 4.0 4.1 FALSE 50+ Edits Required
gu* 1.0 N/A No
hi 3.8 N/A 50+ Edits Required
it 4.2 4.4 FALSE 50+ Edits Required
ja 4.0 4.5 FALSE 50+ Edits Required
ru 4.7 4.3 TRUE Yes
tr 3.8 3.4 TRUE Yes
Other language communities N/A N/A N/A Can be enabled upon request
  • Nota: No habilitaremos la función sin la participación previa de las comunidades.

* Indica las comunidades de idiomas en las que no hubo muchas sugerencias qué evaluar, lo cual creemos que tuvo repercusión en la calificación

¿Con cuánta frecuencia fueron aprobadas, modificadas o rechazadas las sugerencias automáticas?
Edit type % Total de Ediciones Automáticas
Sugerencias aceptadas 23.49%
Sugerencias modificadas 14.49%
Sugerencias rechazadas 62.02%
Edit type % of Total Machine Edits
Machine suggestion accepted 23.49%
Machine suggestion modified 14.49%
Machine suggestion rejected 62.02%
  • Nota: El rechazo significa que la sugerencia no fue seleccionada a pesar de estar disponible. Se pudo acceder a las sugerencias automáticas desde una pestaña etiquetada “Sugerencias Automáticas”. Entre los "rechazos", se cuenta a quienes no revisaron las sugerencias automáticas en absoluto. El rechazo está dirigido a comunicar que el usuario prefirió escribir su propia descripción breve.

¿Cómo se distribuyeron las Descripciones Breves automáticas aceptadas con un puntaje de 3 o más?
Calificación Distribución Porcentual
< 3 10.0%
>= 3 90.0%
Score Percent Distribution
< 3 10.0%
>= 3 90.0%

¿Cuánto cambió el puntaje de las descripciones breves automáticas aceptadas cuando se toma en cuenta la experiencia de quien edita?
Experiencia en Edición Nota Promedio de Ediciones Nota Mediana de Ediciones
Menos de 50 Ediciones 3.6 4
Más de 50 Ediciones 4.4 5
Editor Experience Average Edit Grade Median Edit Grade
Under 50 Edits 3.6 4
Over 50 Edits 4.4 5

Nuestra experimento probó dos rutas para ver cual era mas acertada y producente. Para evitar sesgos, la ubicación de la sugerencia al usuario cambiaba de lugar cada vez. Los resultados son:
Ruta Seleccionada Nota Promedio de Ediciones % de Distribución
1 4.2 64.7%
2 4.0 35.3%
Beam Selected Average Edit Grade % Distribution
1 4.2 64.7%
2 4.0 35.3%
  • Nota: Cuando la función sea lanzada nuevamente, solo se mostrara la Ruta 1.

¿Cada cuanto se hacen ediciones (modificaciones) a la sugerencia automática antes de publicarla?
Tipo de Edición Distribución de la Modificación
Automática Aceptada Sin Modificar 61.85%
Automática Aceptada Modificada 38.15%
Edit Type Modification Distribution
Machine Accepted Not Modified 61.85%
Machine Accepted Modified 38.15%

¿Cómo impactaron las modificaciones a a la veracidad de la sugerencia automática?
Ediciones Automáticas Calificadas Nota Prom.
Sin Modificar 4.2
Modificadas 4.1
Machine Graded Edits Avg. Score
Not Modified 4.2
Modified 4.1
  • Nota: Dado que no influye en la precisión el hecho de que un usuario modifique o no la sugerencia, no vemos la necesidad de exigir a los usuarios que modifiquen la recomendación, pero debemos mantener una interfaz de usuario que fomente la modificación de la sugerencia automática

How often did a grader say they would revert vs rewrite an edit based on if it was Machine Suggested or Human Generated?¿Cuán seguido dijo quien evaluó la sugerencia que quiso revertir una edición, en consideración a si esta fue generada automáticamente o por humanos?
Ediciones Calificadas: % de ediciones que se revertirían % de ediciones que se reescribirían
Sugerencia aceptada 2.3% 25.0%
Sugerencia vista pero en su lugar redactó su propia descripción 5.7% 38.4%
Edición humana sin ver sugerencias 15.0% 25.8%
Graded Edits: % edits would revert % edits would rewrite
Editor accepted suggestion 2.3% 25.0%
Editor saw suggestion but wrote out their own description instead 5.7% 38.4%
Human edit no exposure to suggestion 15.0% 25.8%
  • Definimos revertir cuando la edición es tan inexacta que no merece la pena intentar hacer una pequeña modificación para mejorarla durante un patrullaje. Reescribir define

la modificación de lo publicado por el usuario para mejorarlo. En el transcurso del experimento sólo se revirtieron 20 ediciones automáticas en todos los proyectos, lo que no fue estadísticamente significativo, por lo que no pudimos comparar las reversiones reales, sino que nos basamos en las recomendaciones de los evaluadores. Sólo dos comunidades lingüísticas tienen descripciones cortas de artículos en Wikipedia, lo que significa que el patrullaje es menos frecuente para la mayoría de las comunidades lingüísticas, debido a que las descripciones están alojadas en Wikidata.

What insights did we gain through the feature’s report function?¿Qué reflexiones recogemos de la función de reporte del modelo?

0.5% reportaron la función. A continuación, la distribución de los tipos de comentarios efectuados:

Evaluación/Respuesta % de Distribución de opiniones
Sin información suficiente 43%
Sugerencia no apropriada 21%
Fechas incorrectas 14%
No se ve la descripción 7%
"Gancho Innecesario" 7%
Escritura defectuosa 7%

0.5% of unique users reported the feature. Below is a distribution of the type of feedback we received:

Feedback/Response % Distribution of feedback
Not enough info 43%
Inappropriate suggestion 21%
Incorrect dates 14%
Cannot see description 7%
"Unnecessary hook" 7%
Faulty spelling 7%

¿Tuvo la función algún efecto en términos de retención?
Periodo de Retención Grupo 0
Retention Period Group 0
(No treatment)
Groups 1 and 2
1-day average return rate: 35.4% 34.9%
3-day average return rate: 29.5% 30.3%
7-day average return rate: 22.6% 24.1%
14-day average return rate: 14.7% 15.8%
  • Nota: Usuarios expuestos a descripciones breves automáticas asistidas tuvieron una tasa mayor de retorno, en comparación a usuarios que no estuvieron expuestos a la función

Próximos Pasos:

El experimento fue hecho en servicios de la Nube, la cual no es una solucion sostenible. Hubo suficientes indicadores positivos para hacer que la función se habilite para las comunidades que lo deseen. El equipo de aplicaciones trabajará en conjunto con nuestro Aprendizaje Automatizado para migrar el modelo a Liftwing. Una vez migrada, y habiéndose testeado lo suficiente su funcionamiento, regresaremos a interactuar con las comunidades de idiomas para determinar dónde habilitar la función y qué mejoras adicionales se pueden sumar al modelo. Las modificaciones que se consideran actualmente son:

  • Prohibir Biografías de personas vivas: Durante el experimento permitimos que usuarios con mas de 50 ediciones añadieran descripciones breves a Biografías de personas vivas con asistencia automatizada. Reconocemos las inquietudes que pesan sobre sugerencias de descripciones breves permanentes en estos artículos. No evidenciamos problemas relacionados a Biografías de Personas Vivas, pero estamos conformes sin mostrar sugerencias en este tipo de biografías.
  • Utilizar solo la Ruta 1: La Ruta 1 superó continuamente a la Ruts 2 en sugerencias. Como resultado, solo mostraremos una recomendación, la cual pertenece a la Ruta 1.
  • Modificar la incorporación y la guía: Durante el experimento, existió una pantalla de bienvenida a las sugerencias automatizadas. Nos gustaría incorporar estas cuando se estrene la función. Sería de gran ayuda recibir los comentarios de la comunidad sobre adiciones que les gustaría que realicemos para que escribir descripciones breves sea más eficiente, y asi poder mejorar su inclusión.

De existir errores evidentes, por favor deje un mensaje en la página de discusión del proyecto, para así poder corregirlos. Un ejemplo de error evidente son las fechas erróneas, que notamos durante las pruebas de la aplicacion, y se añadió un filtro que previene descripciones breves con fechas que no son mencionadas en el texto del artículo. También notamos que se recomendaba páginas de desambiguación en el modelo original, por lo que las retiramos en la interfaz de cliente, un cambio que prentendemos mantener permanentemente. Otros cambios, como el uso de mayúsculas en la primera letra, son cambios generales que podríamos hacer, ya que hay una clara trayectoria para usar en su implementación.

Para idiomas en los que el modelo no esta funcionando suficientemente bien para ser desplegado completamente, lo mas útil es añadir más descripciones breves de artículos en el idioma, asi el despliegue del modelo tendrá mas informacion con la que podrá continuar. No existe una fecha o una frecuencia fija en este punto; sin embargo, para ello se volverá a entrenar el modelo. Podemos trabajar con el equipo de Investigación y Aprendizaje Automático para que esto se priorice a medida que las comunidades lo soliciten.

July 2023: Early Insights from 32 Days of Data Analysis: Grading Scores and Editing Patterns

We can not complete our data analysis until all entries have been graded so that we have an accurate grading score. However we do have early insights we can share. These insights are based on 32 days of data:

  • 3968 Articles with Machine Edits were exposed to 375 editors.
    • Note: Exposed does not mean selected.
  • 2125 Machine edits were published by 256 editors
  • Editors with 50+ edits completed three times the amount of edits per unique compared to editors with less than 50 edits

May 2023: Experiment Deactivated & Volunteers Evaluate Article Short Descriptions

The experiment has officially been deactivated and we are now in a period of edits being graded.

Volunteers across several language Wikis have begun to evaluate both human generated and machine assisted article short descriptions.

We express our sincere gratitude and appreciation to all the volunteers, and have added a dedicated section to honor their efforts on the project page. Thank you for your support!

We are still welcoming support from the following language Wikipedias for grading: Arabic, English, French, German, Italian, Japanese, Russian, Spanish, and Turkish languages.

If you are interested in joining us for this incredible project, please reach out to Amal Ramadan. We look forward to collaborating with passionate individuals like you!

April 2023: FAQ Page and Model Card

We released our experiment in the 25 mBART languages this month and it will run until mid-May. Prior to release we added a model card to our FAQ page to provide transparency into how the model works.

This is the onboarding process:

January 2023: Updated Designs

After determining that the suggestions could be embedded in the existing article short descriptions task the Android team made updates to our design.

If a user reports a suggestion, they will see the same dialog as we proposed in our August 2022 update as the what will be seen if someone clicks Not Sure.

This new design does mean we will allow users to publish their edits, as they would be able to without the machine generated suggestions. However, our team will patrol the edits that are made through this experiment to ensure we do not overwhelm volunteer patrollers. Additionally, new users will not receive suggestions for Biographies of Living Persons.

November 2022: API Development

The Research team put the model on toolforge and tested the performance of the API. Initial insights found that it took 5-10 seconds to generate suggestions, which also varied depending on how many suggestions were being shown. Performance improved as the number of suggestions generated decreased. Ways of addressing this problem was by preloading some suggestions, restricting the number of suggestions shown when integrated into article short descriptions, and altering user flows to ensure suggestions can be generated in the background.

August 2022: Initial Design Concepts and Guardrails for Bias

User story for Discovery

When I am using the Wikipedia Android app, am logged in, and discover a tooltip about a new edit feature, I want to be educated about the task, so I can consider trying it out. Open Question: When should this tooltip be seen in relation to other tooltips?

User story for education

When I want to try out the article short descriptions feature, I want to be educated about the task, so my expectations are set correctly.

User story for adding descriptions

When I use the article short descriptions feature, I want to see articles without a description, I want to be presented with two suitable descriptions and an option to add a description of my own, so I can select or add a description for multiple articles in a row.

Guardrails for bias and harm

The team generated possible guardrails for bias and harm:

  • Harm: problematic text recommendations
    • Guardrail: blocklist of words never to use
    • Guardrail: check for stereotypes – e.g., gendered language + occupations
  • Harm: poor quality of recommendations
    • Guardrail: minimum amount of information in article
    • Guardrail: verify performance by knowledge gap
  • Harm: recommendations only for some types of articles
    • Guardrail: monitor edit distribution by topic