Growth/Personalized first day/Structured tasks/Add an image/es

Esta página describe el trabajo en una tarea estructurada de "añadir una imagen", que es un tipo de tarea estructurada que el equipo de Crecimiento ofrecerá a través de la página de inicio para recién llegados. El equipo de Android ha trabajado en una versión mínima de una tarea similar para la aplicación de Wikipedia para Android utilizando los mismos componentes de base. Además, el equipo de Datos estructurados está en las primeras fases de estudio de algo similar, dirigido a usuarios más experimentados y que se beneficie de Datos estructurados en Commons. Los comentarios y actualizaciones de esta página son relevantes para el trabajo de todos los equipos.

Esta página contiene los principales elementos, diseños, preguntas abiertas y decisiones.

La mayoría de las actualizaciones sobre el progreso se publicarán en la página general de Actualizaciones del equipo de crecimiento, con algunas actualizaciones grandes o detalladas publicadas aquí.

Estado actual

 * 2020-06-22: reflexión inicial sobre las ideas para crear un algoritmo sencillo de recomendación de imágenes
 * 2020-09-08: evaluó un primer intento de algoritmo de comparación en inglés, francés, árabe, coreano, checo y vietnamita
 * 2020-09-30: evaluó un segundo intento de algoritmo de comparación en inglés, francés, árabe, coreano, checo y vietnamita
 * 2020-10-26: Discusión interna sobre la viabilidad del servicio de recomendación de imágenes
 * 2020-12-15: realizar una ronda inicial de pruebas con los usuarios para empezar a entender si los recién llegados pueden tener éxito con esta tarea
 * 2021-01-20: Nuestro equipo de ingeniería de plataformas comienza a construir una prueba de concepto de la API para las recomendaciones de imágenes.
 * 2021-01-21: El equipo de Android comienza a trabajar en una versión mínima viable para el aprendizaje
 * 2021-01-28: publicación de resultados de las pruebas de usuarios
 * 2021-02-04: Publicación de un resumen del debate comunitario y de las estadísticas de cobertura.
 * 2021-05-07: El MVP de Android se pone a disposición de los usuarios
 * 2021-08-06: resultados publicados de Android y maquetas para la Iteración 1
 * 2021-08-17: Comienza el trabajo backend en la Iteración 1
 * 2021-08-23: publicación de prototipos interactivos y comienzo de las pruebas de usuario en inglés y español
 * 2021-10-07: resultados publicados de las pruebas de usuarios y diseños finales basados en los datos obtenidos
 * 2021-11-19: El embajador comienza a probar la función en sus Wikipedias de producción
 * 2021-11-22: el conjunto de datos de sugerencia de imágenes se actualiza antes de entregar la Iteración 1 a los usuarios
 * Siguiente: desplegar la Iteración 1 a las wikis piloto el 29 de noviembre

Resumen
Las tareas estructuradas tienen como objetivo dividir las tareas de edición en flujos de trabajo paso a paso que tengan sentido para los recién llegados y para los dispositivos móviles. El equipo de Crecimiento cree que la introducción de estos nuevos tipos de flujos de trabajo de edición permitirá que más personas nuevas comiencen a participar en Wikipedia, algunas de las cuales aprenderán a hacer ediciones más relevantes y se involucrarán con sus comunidades. Después de discutir la idea de las tareas estructuradas con las comunidades, decidimos construir la primera tarea estructurada: "añadir un enlace".

Después de desplegar "añadir un enlace" en mayo de 2021, recogimos datos iniciales que mostraban que la tarea era atractiva para los recién llegados y que hacían ediciones con bajas tasas de reversión, lo que indica que las tareas estructuradas parecen valiosas para la experiencia de los recién llegados y las wikis.

Mientras construíamos esa primera tarea, estuvimos pensando en cuál podría ser la siguiente tarea estructurada, y creemos que añadir imágenes podría ser una buena opción para los recién llegados. La idea es que un simple algoritmo recomiende imágenes de Commons para colocarlas en artículos que no tienen imágenes. Para empezar, utilizaría sólo las conexiones existentes que se pueden encontrar en Wikidata, y los recién llegados usarían su sentido común para colocar la imagen en el artículo o no.

Sabemos que hay muchas preguntas abiertas sobre cómo funcionará este sistema, y también muchas razones posibles para que no salga bien. Por eso queremos escuchar a muchos miembros de la comunidad y mantener un debate continuo mientras decidimos cómo proceder.

¿Por qué imágenes?
Buscando contribuciones relevantes

Cuando comentamos por primera vez las tareas estructuradas con los miembros de la comunidad, muchos señalaron que añadir wikilinks no era un tipo de edición especialmente valioso. Los miembros de la comunidad aportaron ideas sobre cómo los recién llegados podrían hacer contribuciones más significativas. Una idea es la de las imágenes. Wikimedia Commons contiene 65 millones de imágenes, pero en muchas Wikipedias, más del 50% de los artículos no tienen imágenes. Creemos que muchas imágenes de Commons pueden hacer que Wikipedia esté sustancialmente más ilustrada.

Intereses de los recién llegados

Sabemos que muchos recién llegados están interesados en añadir imágenes a Wikipedia. "Añadir una imagen" es una respuesta común que dan los recién llegados en la encuesta de bienvenida para explicar por qué están creando su cuenta. También vemos que una de las preguntas más frecuentes del panel de ayuda es sobre cómo añadir imágenes, algo que ocurre en todas las wikis con las que trabajamos. Aunque la mayoría de estos recién llegados probablemente traen su propia imagen que quieren añadir, esto indica que las imágenes pueden resultar atractivas y estimulantes. Esto tiene sentido, dados los elementos de imagen de las otras plataformas en las que participan los recién llegados, como Instagram y Facebook.

Dificultades de trabajar con imágenes

Las numerosas preguntas del panel de ayuda sobre las imágenes reflejan que el proceso para añadirlas a los artículos es muy complicado. Los recién llegados tienen que entender la diferencia entre Wikipedia y Commons, las reglas en torno a los derechos de autor y las partes técnicas de insertar y subtitular la imagen en el lugar correcto. Encontrar una imagen en Commons para un artículo no ilustrado requiere aún más habilidades, como el conocimiento de Wikidata y las categorías.

Éxito de la campaña "Páginas de Wikipedia que quieren fotos"

La campaña Páginas de Wikipedia que quieren fotos (WPWP) tuvo un éxito sorprendente: 600 usuarios añadieron imágenes a 85.000 artículos. Lo hicieron con la ayuda de un par de herramientas comunitarias que identificaron las páginas que no tenían imágenes, y sugerían posibles imágenes a través de Wikidata. Aunque aún quedan importantes aspectos que comprender sobre cómo ayudar a los recién llegados a tener éxito con la adición de imágenes, esto nos da la certeza de que a los usuarios pueden ser entusiastas sobre la adición de imágenes y de que con las herramientas se les puede ayudar.

Tomando todo esto en conjunto

Considerando toda esta información, pensamos que podría ser posible construir una tarea estructurada de "añadir una imagen" que sea divertida para los recién llegados y productiva para las Wikipedias.

Validación de ideas
''Desde junio de 2020 hasta julio de 2021, el equipo de Crecimiento trabajó en discusiones con la comunidad, investigación de fondo, evaluaciones y pruebas de concepto en torno a la tarea de "añadir una imagen". Esto llevó a la decisión de empezar a construir nuestra primera iteración en agosto de 2021 (ver Iteración 1). Esta sección contiene todo ese trabajo de fondo que lleva a la Iteración 1.''

Algoritmo
Nuestra capacidad de hacer una tarea estructurada para añadir imágenes depende de que podamos crear un algoritmo que genere recomendaciones suficientemente buenas. Definitivamente, no queremos instar a los recién llegados a que añadan las imágenes equivocadas a los artículos, lo que causaría trabajo a los patrulleros para limpiarlas. Por eso, una de las primeras cuestiones que hemos estudiado es si podemos crear un buen algoritmo.

Lógica
Hemos estado trabajando con el equipo de investigación de Wikimedia, y por ahora hemos estado probando un algoritmo que prioriza la precisión y el juicio humano. En lugar de utilizar cualquier tipo de visión informática, que podría generar resultados inesperados, simplemente agrega la información existente en Wikidata, basándose en las conexiones realizadas por colaboradores experimentados. Estas son las tres formas principales en las que sugiere coincidencias con los artículos no ilustrados:


 * Mira el elemento de Wikidata del artículo. Si tiene una imagen (P18), elige esa imagen.
 * Mira el elemento de Wikidata del artículo. Si tiene una categoría Commons asociada (P373), elige una imagen de la categoría.
 * Mira los artículos sobre el mismo tema en las Wikipedias de otros idiomas. Elige una imagen principal de esos artículos.

El algoritmo también incluye una lógica para realizar cosas como excluir imágenes que probablemente sean iconos o que estén presentes en un artículo como parte de un navbox.

Precisión
Desde agosto de 2021, hemos llevado a cabo tres rondas de pruebas del algoritmo, cada vez examinando las coincidencias con artículos en seis idiomas: inglés, francés, árabe, vietnamita, checo y coreano. Las evaluaciones fueron realizadas por los embajadores de nuestro equipo y otros wikimedistas expertos, que son hablantes nativos de los idiomas probados.

Primeras dos evaluaciones

Al ver las 50 coincidencias sugeridas en cada idioma, las revisamos y las clasificamos en estos grupos:

Una cuestión que se plantea a lo largo de todo el trabajo sobre un algoritmo como éste es: ¿qué grado de precisión debe tener? Si el 75% de las coincidencias son buenas, ¿es suficiente? ¿Necesita una precisión del 90%? ¿O puede tener una precisión de tan sólo el 50%? Esto depende del buen juicio de los novatos que lo utilicen y de la paciencia que tengan con las coincidencias dudosas. Sabremos más sobre esto cuando probemos el algoritmo con usuarios reales.

En la primera evaluación, lo más importante es que encontramos un montón de mejoras fáciles de realizar en el algoritmo, incluyendo tipos de artículos e imágenes a excluir. Incluso sin esas mejoras, alrededor del 20-40% de las coincidencias fueron "2s", lo que significa grandes coincidencias para el artículo (dependiendo de la wiki). Puedes ver los resultados completos y las notas de la primera evaluación aquí.

Para la segunda evaluación, se incorporaron muchas mejoras, y la precisión aumentó. Entre el 50-70% de las coincidencias fueron "2s" (dependiendo de la wiki). Pero el aumento de la precisión puede disminuir la cobertura, es decir, el número de artículos para los que podemos hacer coincidencias. Utilizando un criterio conservador, el algoritmo sólo puede sugerir decenas de miles de coincidencias en una wiki determinada, aunque esa wiki tenga cientos de miles o millones de artículos. Creemos que ese tipo de volumen sería suficiente para construir una versión inicial de esta función. Puedes ver los resultados completos y las notas de la segunda evaluación aquí.

Tercera evaluación

En mayo de 2021, el equipo de Datos estructurados realizó una prueba a mayor escala del algoritmo de comparación de imágenes (y del algoritmo MediaSearch) en las Wikipedias en árabe, cebuano, inglés, vietnamita, bengalí y checo. En esta prueba, unas 500 coincidencias tanto del algoritmo de comparación de imágenes como de MediaSearch fueron evaluadas por expertos en cada idioma, que pudieron clasificarlas como coincidencias "buenas", " aceptables" o "malas". Los resultados que se detallan a continuación así lo demuestran:


 * El algoritmo de concordancia de imágenes oscila entre el 65 y el 80% de precisión, dependiendo de si se cuenta "Bueno" o "Bueno+Aceptable", y dependiendo del wiki/evaluador. Curiosamente, en nuestra experiencia en la evaluación de las coincidencias de imágenes, los wikimedistas expertos a menudo no están de acuerdo entre sí, porque cada uno tiene sus propios estándares sobre si las imágenes deben estar en los artículos.
 * Wikidata P18 ("Wikidata") es la fuente más fuerte de coincidencias, con una precisión del 85% al 95%. Las imágenes de otras Wikipedias ("Cross-wiki") y de las categorías Commons adjuntas a los artículos de Wikidata ("Commons category") son menos precisas en un grado similar.
 * Las imágenes de otras Wikipedias ("Cross-wiki") es la fuente más común de coincidencias. En otras palabras, el algoritmo dispone de más imágenes de este tipo que de las otras dos fuentes.

Los resultados completos pueden encontrarse aquí..

Cobertura
La precisión del algoritmo es claramente un componente muy importante. Igualmente importante es su "cobertura", que se refiere a "cuántas" coincidencias de imágenes puede hacer. La precisión y la cobertura tienden a estar relacionadas de forma inversa: a mayor precisión del algoritmo, menor número de sugerencias (porque sólo hará sugerencias cuando esté seguro). Tenemos que responder a estas preguntas: ¿es el algoritmo capaz de proporcionar suficientes coincidencias como para que merezca la pena construir una característica con él? ¿Podría tener un impacto sustancial en las wikis? Hemos analizado 22 wikipedias para hacernos una idea de las respuestas. La siguiente tabla muestra el resumen de estos aspectos:


 * Los números de cobertura reflejados en la tabla parecen ser suficientes para una primera versión de una función de "añadir una imagen". Hay suficientes coincidencias de candidatos en cada wiki como para que (a) los usuarios no se queden sin ellas, y (b) la función pueda tener un impacto significativo en lo ilustrada que esté una wiki.
 * Las wikis oscilan entre el 20% sin ilustrar (serbia) y el 69% sin ilustrar (vietnamita).
 * Podemos encontrar entre 7.000 (bengalí) y 155.000 (inglés) artículos no ilustrados que tienen opciones de coincidencia. En general, se trata de un volumen suficiente para una primera versión de la tarea, de modo que los usuarios tienen bastantes posibilidades de realizar emparejamientos. En algunas de las wikis más escasas, como la bengalí, podría entrar en números pequeños una vez que los usuarios se limiten a los temas de interés. Dicho esto, el bengalí sólo tiene unos 100.000 artículos en total, por lo que estaríamos proponiendo coincidencias para el 7% de ellos, lo cual es considerable.
 * En cuanto a la mejora de las ilustraciones que podríamos hacer en las wikis con este algoritmo, el límite oscila entre el 1% (cebwiki) y el 9% (trwiki). Ese es el porcentaje global de artículos adicionales que podrían incorporar ilustraciones si todas las coincidencias fueran buenas y se añadieran a la wiki.
 * Las wikis con el menor porcentaje de artículos sin ilustrar para las que podemos encontrar coincidencias son arzwiki y cebwiki, que tienen un alto volumen de artículos creados por bots. Esto tiene sentido porque muchos de esos artículos son de ciudades o especies específicas que no tendrían imágenes en Commons. Pero como esas wikis tienen tantos artículos, aún hay decenas de miles para los que el algoritmo tiene coincidencias.
 * En un futuro más lejano, esperamos que las mejoras en el algoritmo de comparación de imágenes, o en MediaSearch, o en los flujos de trabajo para subir/titular/etiquetar imágenes produzcan más coincidencias potenciales.

MediaSearch
Como se ha mencionado anteriormente, el equipo de Datos estructurados está explorando el uso del algoritmo MediaSearch para aumentar la cobertura y obtener más resultados potenciales.

MediaSearch funciona combinando la búsqueda tradicional basada en texto y los datos estructurados para proporcionar resultados relevantes para las búsquedas de manera independiente al idioma. Al utilizar las declaraciones de Wikidata añadidas a las imágenes como parte de Datos estructurados en Commons como entrada para la clasificación de la búsqueda, MediaSearch es capaz de aprovechar los alias, los conceptos relacionados y las etiquetas en varios idiomas para aumentar la relevancia de las coincidencias de las imágenes. Puedes encontrar más información sobre el funcionamiento de MediaSearch aquí.

Desde febrero de 2021, el equipo está investigando cómo proporcionar una puntuación de confianza para las coincidencias de MediaSearch que el algoritmo de recomendaciones de imágenes pueda consumir y utilizar para determinar si una coincidencia de MediaSearch es de suficiente calidad para ser utilizada en tareas de emparejamiento de imágenes. Queremos estar seguros de que los usuarios confían en las recomendaciones que MediaSearch proporciona antes de incorporarlas a la función.

El equipo de Datos Estructurados también está explorando y creando un prototipo para que los bots generados por el usuario utilicen los resultados generados tanto por el algoritmo de recomendaciones de imágenes como por MediaSearch para añadir automáticamente imágenes a los artículos. Se trata de un experimento en wikis con muchos bots, en colaboración con los creadores de bots de la comunidad. Puedes saber más sobre este proyecto o expresar tu interés en participar en la tarea phabricator.

En mayo de 2021, en la misma evaluación citada en la sección "Precisión", MediaSearch resultó ser mucho menos preciso que el algoritmo de comparación de imágenes. Mientras que el algoritmo de comparación de imágenes tenía una precisión del 78%, las coincidencias de MediaSearch tenían una precisión del 38%. Por lo tanto, el equipo de Crecimiento no tiene previsto utilizar MediaSearch en su primera iteración de la tarea "añadir una imagen".

Preguntas abiertas
Las imágenes son una parte muy importante y notoria de la experiencia de Wikipedia. Es fundamental que pensemos detenidamente en cómo funcionaría una función que permitiera añadir imágenes de forma sencilla, cuáles podrían ser los posibles obstáculos y cuáles serían las implicaciones para los miembros de la comunidad. Con este fin, tenemos muchas preguntas abiertas, y queremos escuchar otras que los miembros de la comunidad puedan plantear.


 * ¿Será nuestro algoritmo lo suficientemente preciso como para proporcionar muchas coincidencias buenas?
 * ¿Qué metadatos de Commons y del artículo sin ilustrar necesitan los recién llegados para tomar una decisión sobre si añadir la imagen?
 * ¿Tendrán los recién llegados el suficiente buen criterio a la hora de analizar las recomendaciones?
 * ¿Los recién llegados que no leen inglés serán igualmente capaces de tomar buenas decisiones, dado que gran parte de los metadatos de Commons están en inglés?
 * ¿Serán capaces los recién llegados de escribir buenos pies de foto que acompañen a las imágenes que coloquen en los artículos?
 * ¿Hasta qué punto los recién llegados deben considerar las imágenes en función de su "calidad" frente a su "relevancia"?
 * ¿Los recién llegados pensarán que esta tarea es interesante? ¿Divertida? ¿Difícil? ¿Fácil? ¿Aburrida?
 * ¿Con qué precisión debemos determinar qué artículos no tienen imágenes?
 * ¿En qué parte del artículo debe colocarse la imagen? ¿Es suficiente con ponerla en la parte superior del artículo?
 * ¿Cómo podemos controlar el posible sesgo de las recomendaciones, por ejemplo, si el algoritmo hace muchas más coincidencias con temas de Europa y América del Norte?
 * ¿Será este flujo de trabajo un vector de vandalismo? ¿Cómo se puede evitar?

Notas de las discusiones comunitarias 04-02-2021
Desde diciembre de 2020, invitamos a los miembros de la comunidad a hablar sobre la idea de "añadir una imagen" en cinco idiomas (inglés, bengalí, árabe, vietnamita y checo). La discusión en inglés tuvo lugar principalmente en la página de discusión, con conversaciones en el idioma local en las otras cuatro Wikipedias. Hemos escuchado a 28 miembros de la comunidad, y esta sección resume algunas de las ideas más comunes e interesantes. Estas discusiones están influenciando fuertemente nuestro próximo conjunto de diseños.


 * En general: Los miembros de la comunidad son en general cautelosamente optimistas sobre esta idea. En otras palabras, la gente parece estar de acuerdo en que sería valioso utilizar algoritmos para añadir imágenes a la Wikipedia, pero que hay muchas trampas potenciales y formas en que esto puede salir mal, especialmente con los recién llegados.
 * Algoritmo
 * Los miembros de la comunidad parecían confiar en el algoritmo porque sólo se basa en las asociaciones codificadas en Wikidata por usuarios experimentados, y no en una especie de inteligencia artificial impredecible.
 * De las tres fuentes para el algoritmo (Wikidata P18, enlaces interwiki y categorías de Commons), la gente estuvo de acuerdo en que las categorías de Commons son las más débiles (y que Wikidata es la más fuerte). Esto se ha confirmado en nuestras pruebas, y es posible que excluyamos las categorías de Commons en futuras iteraciones.
 * Recibimos buenos consejos para excluir ciertos tipos de páginas de la función: desambiguaciones, listas, años, artículos buenos y destacados... También podríamos excluir las biografías de personas vivas.
 * También debemos excluir las imágenes que tengan una plantilla de borrado en Commons y que hayan sido eliminadas previamente de la página de Wikipedia.
 * Criterio del recién llegado
 * A los miembros de la comunidad les preocupaba en general que los recién llegados aplicaran un criterio pobre y dieran al algoritmo el beneficio de la duda. Sabemos, gracias a nuestros tests de usuario, que los recién llegados son capaces de aplicar el buen juicio, y creemos que un diseño adecuado lo fomentará.
 * En la discusión de la campaña de Páginas de Wikipedia que Quieren Fotos (WPWP), aprendimos que mientras muchos recién llegados pudieron mostrar buen juicio, algunos usuarios demasiado entusiastas pudieron hacer muchos emparejamientos malos rápidamente, causando mucho trabajo para los patrulleros. Es posible que queramos añadir algún tipo de validación para evitar que los usuarios añadan imágenes demasiado rápido, o que sigan añadiendo imágenes después de haber sido revertidas repetidamente.
 * La mayoría de los miembros de la comunidad afirmaron que la "relevancia" es más importante que la "calidad" a la hora de decidir si una imagen debe aparecer. En otras palabras, si la única foto de una persona es borrosa, suele ser mejor que no tener ninguna imagen.  Hay que explicar a los recién llegados esta norma mientras realizan la tarea.
 * Nuestra interfaz debe transmitir que los usuarios deben avanzar despacio y ser cuidadosos, en lugar de intentar hacer todos los emparejamientos que puedan.
 * Debemos enseñar a los usuarios que las imágenes deben ser instructivas, no meramente decorativas.
 * Interfaz de usuario
 * Varias personas propusieron que mostráramos a los usuarios varias imágenes candidatas para elegir, en lugar de sólo una. Así sería más probable que se añadieran imágenes buenas a los artículos.
 * Muchos miembros de la comunidad recomendaron que se permitiera a los recién llegados elegir áreas temáticas de interés (especialmente geográficas) para trabajar con los artículos. Si los recién llegados eligen áreas en las que tienen algún conocimiento, podrán hacer elecciones más acertadas.  Afortunadamente, esto formará parte automáticamente de cualquier característica que el equipo de Crecimiento construya, puesto que ya permitimos a los usuarios elegir entre 64 áreas temáticas al seleccionar las tareas de edición sugeridas.
 * Los miembros de la comunidad recomiendan que los recién llegados vean la mayor parte posible del contexto del artículo, en lugar de sólo una vista previa. Esto les ayudará a entender la relevancia de la tarea y a tener mucha información para usar en sus decisiones.
 * Ubicación en el artículo
 * Aprendimos sobre los infoboxes de Wikidata. Aprendimos que para las wikis que las usan, la preferencia es que las imágenes se añadan a Wikidata, en lugar de al artículo, para que puedan aparecer a través del infobox de Wikidata.  En este sentido, vamos a investigar cómo de comunes son estos infoboxes en varias wikis.
 * En general, parece que la regla de "colocar una imagen debajo de las plantillas y encima del contenido" en un artículo funcionará la mayoría de las veces.
 * Algunos miembros de la comunidad nos aconsejaron que incluso si la colocación en un artículo no es perfecta, otros usuarios corregirán encantados la colocación, ya que el trabajo difícil de encontrar la imagen correcta ya estará hecho.
 * Usuarios de habla no inglesa
 * Los miembros de la comunidad nos recordaron que algunos elementos de metadatos de Commons pueden ser ajenos al idioma, como los pies de foto y las declaraciones de representación. Hemos analizado cómo de común es esto en esta sección.
 * Hemos escuchado la sugerencia de que, aunque los usuarios no dominen el inglés, pueden utilizar los metadatos si saben leer los caracteres latinos. Esto se debe a que, para realizar muchas de las coincidencias, el usuario sólo busca el título del artículo en algún lugar de los metadatos de la imagen.
 * Alguien también propuso la idea de utilizar la traducción automática (por ejemplo, Google Translate) para traducir los metadatos al idioma local a efectos de esta función.
 * Leyendas
 * Los miembros de la comunidad (y los miembros del equipo de Crecimiento) son escépticos sobre la capacidad de los recién llegados para escribir leyendas adecuadas.
 * Recibimos consejos para mostrar a los usuarios ejemplos de subtítulos y directrices adaptadas al tipo de artículo que se subraya.

Plan para el test de usuario


Thinking about the open questions above, in addition to community input, we want to generate some quantitative and qualitative information to help us evaluate the feasibility of building an "add an image" feature. Though we have been evaluating the algorithm amongst staff and Wikimedians, it is important to see how newcomers react to it, and to see how they use their judgment when deciding on whether an image belongs in an article.

To that end, we are going to run tests with usertesting.com, in which people new to Wikipedia editing can go through potential image matches in a prototype and respond "Yes", "No", or "Unsure". We built a quick prototype for the test, backed with real matches from the current algorithm. The prototype just shows one match after another, all in a feed. The images are shown along with all the relevant metadata from Commons:


 * Filename
 * Size
 * Date
 * User
 * Description
 * Caption
 * Categories
 * Tags

Though this may not be what the workflow would be like for real users in the future, the prototype was made so that testers could go through lots of potential matches quickly, generating lots of information.

To try out the interactive prototype, use this link. Note that this prototype is primarily for viewing the matches from the algorithm -- we have not yet thought hard about the actual user experience. It does not actually create any edits. It contains 60 real matches proposed by the algorithm.

Here's what we'll be looking for in the test:


 * 1) Are participants able to confidently confirm matches based on the suggestions and data provided?
 * 2) How accurate are participants at evaluating suggestions? Do they think they are doing a better or worse job than they are actually doing?
 * 3) How do participants feel about the task of adding images to articles this way? Do they find it easy/hard, interesting/boring, rewarding/irrelevant?
 * 4) What information do participants find most valuable in helping them evaluate image and article matches?
 * 5) Are participants able to write good captions for images they deem a match using the data provided?

Concept A vs. B
In thinking about design for this task, we have a similar question as we faced for "add a link" with respect to Concept A and Concept B. In Concept A, users would complete the edit at the article, while in Concept B, they would do many edits in a row all from a feed. Concept A gives the user more context for the article and editing, while Concept B prioritizes efficiency.

In the interactive prototype above, we used Concept B, in which the users proceed through a feed of suggestions. We did that because in our user tests we wanted to see many examples of users interacting with suggestions. That's the sort of design that might work best for a platform like the Wikipedia Android app. For the Growth team's context, we're thinking more along the lines of Concept A, in which the user does the edit at the article. That's the direction we chose for "add a link", and we think that it could be appropriate for "add an image" for the same reasons.

Single vs. Multiple
Another important design question is whether to show the user a single proposed image match, or give them multiple images matches to choose from. When giving multiple matches, there's a greater chance that one of the matches is a good one. But it also may make users think they should choose one of them, even if none of them are good. It will also be a more complicated experience to design and build, especially for mobile devices. We have mocked up three potential workflows:


 *  Single : in this design, the user is given only one proposed image match for the article, and they only have to accept or reject it. It is simple for the user.
 *  Multiple : this design shows the user multiple potential matches, and they could compare them and choose the best one, or reject all of them. A concern would be if the user feels like they should add the best one to the article, even if it doesn't really belong.
 *  Serial : this design offers multiple image matches, but the user looks at them one at a time, records a judgment, and then chooses a best one at the end if they indicated that more than one might match. This might help the user focus on one image at a time, but adds an extra step at the end.



User tests December 2020
 Background 

During December 2020, we used usertesting.com to conduct 15 tests of the mobile interactive prototype. The prototype contained only a rudimentary design, little context or onboarding, and was tested only in English with users who had little or no previous Wikipedia editing experience. We deliberately tested a rudimentary design earlier in the process so that we could gather lots of learnings. The primary questions we wanted to address with this test were around feasibility of the feature as a whole, not around the finer points of design:


 * 1) Are participants able to confidently confirm matches based on the suggestions and data provided?
 * 2) How accurate are participants at evaluating suggestions? And how does the actual aptitude compare to their perceived ability in evaluating suggestions?
 * 3) How do participants feel about the task of adding images to articles this way? Do they find it easy/hard, interesting/boring, rewarding/irrelevant?
 * 4) What metadata do participants find most valuable in helping them evaluate image and article matches?
 * 5) Are participants able to write good captions for images they deem a match using the data provided?

In the test, we asked participants to annotate at least 20 article-image matches while talking out loud. When they tapped yes, the prototype asked them to write a caption to go along with the image in the article. Overall, we gathered 399 annotations.

 Summary 

We think that these user tests confirm that we could successfully build an "add an image" feature, but it will only work if we design it right. Many of the testers understood the task well, took it seriously, and made good decisions -- this gives us confidence that this is an idea worth pursuing. On the other hand, many other users were confused about the point of the task, did not evaluate as critically, and made weak decisions -- but for those confused users, it was easy for us to see ways to improve the design to give them the appropriate context and convey the seriousness of the task.

 Observations 

'' To see the full set of findings, feel free to browse the slides. The most important points are written below the slides. ''




 * General understanding of the task matching images to Wikipedia articles was reasonably good, given the minimal context provided for the tool and limited knowledge of Commons and Wikipedia editing. There are opportunities to boost understanding once the tool is redesigned in a Wikipedia UX.
 * The general pattern we noticed was: a user would look at an article's title and first couple sentences, then look at the image to see if it could plausibly match (e.g. this is an article about a church and this is an image of a church). Then they would look for the article's title somewhere in the image metadata, either in the filename, description, caption, or categories.  If they found it, they would confirm the match.
 * Each image matching task could be done quickly by someone unfamiliar with editing. On average, it took 34 seconds to review an image.
 * All said they would be interested in doing such a task, with a majority rating it as easy or very easy.
 * Perceived quality of the images and suggestions was mixed. Many participants focused on the image composition and other aesthetic factors, which affected their perception of the suggestion accuracy.
 * Only a few pieces of image metadata from Commons were critical for image matching: filename, description, caption, categories.
 * Many participants would, at times, incorrectly try to match an images to its own data, rather than to the article (e.g. "Does this filename seem right for the image?"). Layout and visual hierarchy changes to better focus on the article context for the image suggested should be explored.
 * “Streaks” of good matches made some participants more complacent with accepting more images -- if many in a row were "Yes", they stopped evaluating as critically.
 * Users did a poor job of adding captions. They frequently would write their explanation for why they matched the image, e.g. "This is a high quality photo of the guy in the article." This is something we believe can be improved with design and explanation for the user.

 Metrics 


 * Members of our team annotated all the image matches that were shown to users in the test, and we recorded the answers the users gave. In this way, we developed some statistics on how good of a job the users did.
 * Of the 399 suggestions users encountered, they tapped "Yes" 192 times (48%).
 * Of those, 33 were not good matches, and might be reverted were they to be added to articles in reality. This is 17%, and we call this the "likely revert rate".

 Takeaways 


 * The "likely revert rate" of 17% is a really important number, and we want this to be as low as possible. On the one hand, this number is close to or lower than the average revert rate for newcomer edits in Wikipedia (English is 36%, Arabic is 26%, French is 22%, Vietnamese is 11%).  On the other hand, images are higher impact and higher visibility than small changes or words in an article.  Taking into account the kinds of changes we would make to the workflow we tested (which was optimized for volume, not quality), we think that this revert rate would come down significantly.
 * We think that this task would work much better in a workflow that takes the user to the full article, as opposed to quickly shows them one suggestion after another in the feed. By taking them to the full article, the user would see much more context to decide if the image matches and see where it would go in the article.  We think they would absorb the importance of the task: that they will actually be adding an image to a Wikipedia article.  Rather than going for speed, we think the user would be more careful when adding images.  This is the same decision we came to for "add a link" when we decided to build the "Concept A" workflow.
 * We also think outcomes will be improved with onboarding, explanation, and examples. This is especially true for captions.  We think if we show users some examples of good captions, they'll realize how to write them appropriately.  We could also prompt them to use the Commons description or caption as a starting point.
 * Our team has lately been discussing whether it would be better to adopt a "collaborative decision" framework, in which an image would not be added to an article until two users confirm it, rather than just one. This would increase the accuracy, but raises questions around whether such a workflow aligns with Wikipedia values, and which user gets credit for the edit.

Metadata
The user tests showed us that image metadata from Commons (e.g. filename, description, caption, etc.) is critical for a user to confidently make a match. For instance, though the user can see that the article is about a church, and that the photo is of a church, the metadata allowed them to tell if it is the church discussed in the article. In the user tests, we saw that these items of metadata were most important: filename, description, caption, categories. Items that were not useful included size, upload date, and uploading username.

Given that metadata is a critical part of making a strong decision, we have been thinking about whether users will need to be have metadata in their own language in order to do this task, especially in light of the fact that the majority of Commons metadata is in English. For 22 wikis, we looked at the percentage of the image matches from the algorithm that have metadata elements in the local language. In other words, for the images that can be matched to unillustrated articles in Arabic Wikipedia, how many of them have Arabic descriptions, captions, and depicts? The table is below these summary points:


 * In general, local language metadata coverage is very low. English is the exception.
 * For all wikis except English, fewer than 7% of image matches have local language descriptions (English is at 52%).
 * For all wikis except English, fewer than 0.5% of image matches have local language captions (English is at 3.6%).
 * For depicts statements, the wikis range between 3% (Serbian) and 10% (Swedish) coverage for their image matches.
 * The low coverage of local language descriptions and captions means that in most wikis, there are very few images we could suggest to users with local language metadata. Some of the larger wikis have a few thousand candidates with local language descriptions.  But no non-English wikis have over 1,000 candidates with local language captions.
 * Though depicts coverage is higher, we expect that depicts statements don’t usually contain sufficient detail to positively make a match. For instance, a depicts statement applied to a photo of St. Paul’s Church in Chicago is much more likely to be “church”, than “St. Paul’s Church in Chicago”.
 * We may want to prioritize image suggestions with local language metadata in our user interfaces, but until other features are built to increase the coverage, relying on local languages is not a viable option for these features in non-English wikis.

Given that local-language metadata has low coverage, our current idea is to offer the image matching task to just those users who can read English, which we could ask the user as a quick question before beginning the task. This unfortunately limits how many users could participate. It's a similar situation to the Content Translation tool, in that users need to know the language of the source wiki and the destination wiki in order to move content from one wiki to another. We also believe there will be sufficient numbers of these users based on results from the Growth team's welcome survey, which asks newcomers which languages they know. Depending on the wiki, between 20% and 50% of newcomers select English.

Android MVP
'' See this page for the details on the Android MVP. ''

Background
After lots of community discussion, many internal discussions, and the user test results from above, we believe that this "add an image" idea has enough potential to continue to pursue. Community members have been generally positive, but also cautionary -- we also know that there are still many concerns and reasons the idea might not work as expected. The next step we want to in order to learn more is to build a "minimum viable product" (MVP) for the Wikipedia Android app. The most important thing about this MVP is that it will not save any edits to Wikipedia. Rather, it will only be used to gather data, improve our algorithm, and improve our design.

The Android app is where "suggested edits" originated, and that team has a framework to build new task types easily. These are the main pieces:


 * The app will have a new task type that users know is only for helping us improve our algorithms and designs.
 * It will show users image matches, and they will select "Yes", "No", or "Skip".
 * We'll record the data on their selections to improve the algorithm, determine how to improve the interface, and think about what might be appropriate for the Growth team to build for the web platform later on.
 * No edits will happen to Wikipedia, making this a very low-risk project.

Results
The Android team released the app in May 2021, and over several weeks, thousands of users evaluated tens of thousands of image matches from the image matching algorithm. The resulting data allowed the Growth team to decide to proceed with Iteration 1 of the "add an image" task. In looking at the data, we were trying to answer two important questions around "Engagement" and "Efficacy".

Engagement: do users of all languages like this task and want to do it?
 * On average, users in the Android MVP did about 11 annotations each. While this is less than image descriptions and description translations, it is greater than the other four kinds of Android tasks.
 * Image matching edits showed a substantially lower retention rate than other kinds of Android suggested edits, but there are concerns that it’s not possible to calculate an apples-to-apples comparison. Further, we think that the fact that the edits from this MVP do not actually change the wikis would lead to lower retention, because users would be less motivated to return and do more.
 * With respect to language, data was collected for users in English Wikipedia as well as from users who exclusively use non-English Wikipedia, including large numbers of evaluations from German, Turkish, French, Portuguese, and Spanish Wikipedias. We expected English and non-English users to have quite different experiences, because the majority of metadata on images in Commons is in English. But metrics were remarkably similar across the two groups, including number of tasks completed, time spent on task, retention, and judgment. This bodes well for this task being usable across wikis, although it's likely that many of the non-English Android users are actually bilingual.

Efficacy: will resulting edits be of sufficient quality?
 * 80% of the matches for which newcomers said "yes" are actually good matches according to experts. This is an improvement of about 5 percentage points over the algorithm alone.
 * This number goes up to 82-83% when we remove newcomers who have very low median time for evaluations.
 * Experts tend to agree with each other only about 85% of the time.
 * Because newcomer accuracy goes up when certain kinds of newcomers are removed (those who evaluate too quickly or who accept too many suggestions), we think that automated “quality gates” could boost newcomer performance to levels acceptable by communities.

See the full results are here.

Engineering
This section contains links on how to follow along with technical aspects of this project:


 * Work on the "proof of concept" API by the Platform Engineering team, built to back the Android MVP
 * Phabricator tasks around the Android team's MVP
 * Phabricator tasks and evaluations of the image matching algorithm

Iteration 1
In July 2021, the Growth team decided to move forward with building a first iteration of an "add an image" task for the web. This was a difficult decision, because of the many open questions and risks around encouraging newcomers to add images to Wikipedia articles. But after going through a year of idea validation, and looking through the resulting community discussions, evaluations, tests, and proofs-of-concepts around this idea, we decided to build a first iteration so that we could continue learning. These are the main findings from the idea validation phase that led us to move forward:


 * Cautious community support: community members are cautiously optimistic about this task, agreeing that it would be valuable, but pointing out many risks and pitfalls that we think we can address with good design.
 * Accurate algorithm: the image matching algorithm has shown to be 65-80% accurate through multiple different tests, and we have been able to refine it over time.
 * User tests: many newcomers who experienced prototypes found the task fun and engaging.
 * Android MVP: the results from the Android MVP showed that newcomers generally applied good judgment to the suggestions, but more importantly, gave us clues about how to improve their results in our designs. The results also hinted that the task could work well across languages.
 * Overall learnings: having bumped into many pitfalls through our various validation steps, we'll be able to guard against them in our upcoming designs. This background work has given us lots of ideas on how to lead newcomers to good judgment, and how to avoid damaging edits.

Hypotheses
We're not certain that this task will work well -- that's why we plan to build it in small iterations, learning along the way. We do think that we can make a good attempt using our learnings so far to build a lightweight first iteration. One way to think about what we're doing with our iterations is hypothesis testing. Below are five optimistic hypotheses we have about the "add an image" task. Our aim in Iteration 1 will be to see if these hypotheses are correct.


 * 1) Captions: users can write satisfactory captions. This is our biggest open question, since images that get placed into Wikipedia articles generally require captions, but the Android MVP did not test the ability of newcomers to write them well.
 * 2) Efficacy: newcomers will have strong enough judgment that their edits will be accepted by the communities.
 * 3) Engagement: users like to do this task on mobile, do many, and return to do more.
 * 4) Languages: users who don’t know English will be able to do this task. This is an important question, since the majority of metadata on Commons is in English, and it is critical for users to read the filename, description, and caption from Commons in order to confidently confirm a match.
 * 5) Paradigm: the design paradigm we built for "the add a link structured task" will extend to images.

Scope
Because our main objective with Iteration 1 is learning, we want to get an experience in front of users as soon as we can. This means we want to limit the scope of what we build so that we can release it quickly. Below are the most important scope limitations we think we should impose on Iteration 1.


 * Mobile only: while many experienced Wikimedians do most of the wiki work from their desktop/laptop, the newcomers who are struggling to contribute to Wikipedia are largely using mobile devices, and they are the more important audience for the Growth team's work. If we build Iteration 1 only for mobile, we'll concentrate on that audience while saving the time it would take to additionally design and build the same workflow for desktop/laptop.
 * Static suggestions: rather than building a backend service to continuously run and update the available image matches using the image matching algorithm, we'll run the algorithm once and use the static set of suggestions for Iteration 1. While this won't make the newest images and freshest data available, we think it will be sufficient for our learning.
 * Add a link paradigm: our design will generally follow the same patterns as the design for our previous structured task, "add a link".
 * Unillustrated articles: we'll limit our suggestions only to articles that have no illustrations in them at all, as opposed to including articles that have some already, but could use more. This will mean that our workflow will not need to include steps for the newcomer to choose where in the article to place the image. Since it will be the only image, it can be assumed to be the lead image at the top of the article.
 * No infoboxes: we'll limit our suggestions only to articles that have no infoboxes. That's because if an unillustrated article has an infobox, its first image should usually be placed in the infobox. But it is a major technical challenge to make sure we can identify the correct image and image caption fields in all infoboxes in many languages. This also avoids articles that have Wikidata infoboxes.
 * Single image: although the image matching algorithm can propose multiple image candidates for a single unillustrated article, we'll limit Iteration 1 to only proposing the highest-confidence candidate. This will make for a simpler experience for the newcomer, and for a simpler design and engineering effort for the team.
 * Quality gates: we think we should include some sort of automatic mechanism to stop a user from making a large number of bad edits in a short time. Ideas around this include (a) limiting users to a certain number of "add an image" edits per day, (b) giving users additional instructions if they spend too little time on each suggestions, (c) giving users additional instructions if they seem are accepting too many images. This idea was inspired by English Wikipedia's 2021 experience with the Wikipedia Pages Wanting Photos campaign.
 * Pilot wikis: as with all new Growth developments, we will deploy first only to our four pilot wikis, which are Arabic, Vietnamese, Bengali, and Czech Wikipedias. These are communities who follow along with the Growth work closely and are aware that they are part of experiments. The Growth team employs community ambassadors to help us correspond quickly with those communities. We may add Spanish and Portuguese Wikipedias to the list in the coming year.

We're interested to hear community members' opinions on if these scoping choices sound good, or if any sound like they would greatly limit our learnings in Iteration 1.

Mockups and prototypes
Building on designs from our previous user tests and on the Android MVP, we are considering multiple design concepts for Iteration 1. For each of five parts of the user flow, we have two alternatives. We'll user test both to gain information from newcomers. Our user tests will take place in English and Spanish -- our team's first time testing in a non-English language. We also hope community members can consider the designs and provide their thoughts on the talk page.

 Prototypes for user testing 

The easiest way to experience what we're considering to build is through the interactive prototypes. We've built prototypes for both the "Concept A" and "Concept B" designs, and they are available in both English and Spanish. These are not actual wiki software, but rather a simulation of it. That means that no edits are actually saved, and not all the buttons and interactions work -- but the most important ones relevant to the "add an image" project do work.


 * Concept A (English)
 * Concept B (English)
 * Concept A (Spanish)
 * Concept B (Spanish)

 Mockups for user testing 

Below are static images of the mockups that we're using for user testing in August 2021. Community members are welcome to explore the Growth team designer's Figma file, which contains the mockups below in the lower right of the canvas, as well as the various pieces of inspiration and notes that led to them.

Feed

These designs refer to the very first part of the workflow, in which the user chooses an article to work on from the suggested edits feed. We want the card to be attractive, but also not confuse the user.

 Final designs for Iteration 1 

Based on the user test findings above, we created the set of designs that we are implementing for Iteration 1. The best way to explore those designs is here in the Figma file, which always contains the latest version.