Growth/Personalized first day/Structured tasks/Add an image/hu

Ez az oldal a "kép hozzáadása" strukturált feladattal kapcsolatos munkát írja le, mely a strukturált feladatok egy típusa, amit a Növekedési csapat a kezdők kezdőlapján keresztül kínál fel.

Ez az oldal tartalmazza a főbb eszközöket, terveket, nyitott kérdéseket és döntéseket.

Az előrehaladásról szóló legtöbb apró frissítés az általános Növekedési csapat frissítések oldalára kerül, néhány nagyobb vagy részletes frissítés pedig ide.



Jelenlegi állapot

 * 2020-06-22: kezdeti elképzelések a képek ajánlására szolgáló egyszerű algoritmus létrehozására
 * 2020-09-08: első próbálkozás kiértékelése egy megfelelő algoritmusra angol, francia, arab, koreai, cseh és vietnámi nyelven
 * 2020-09-30: egy második kísérlet kiértékelése egy megfelelő algoritmusra angol, francia, arab, koreai, cseh és vietnámi nyelven
 * 2020-10-26: belső mérnöki megbeszélés a képajánló szolgáltatás lehetséges megvalósíthatóságáról
 * 2020-12-15: felhasználói tesztek első körének lefuttatása annak megértése érdekében, hogy a kezdők sikeresen megoldhatják-e ezt a feladatot
 * 2021-01-20: A platformmérnöki csapat megkezdi a képajánlásokhoz szükséges próba API létrehozását
 * 2021-01-21: Az Android-csapat megkezdi a minimálisan életképes verzió kidolgozását tanulási célokra
 * 2021-01-28: a felhasználói tesztek eredményeinek közzététele
 * 2021-02-04: a közösségi viták és a lefedettségi statisztikák összefoglalása
 * 2021-05-07: Az Android MVP kiadása a felhasználóknak
 * 2021-08-06: az Android eredményeinek és az 1. ismétlés mockupjainak közzététele
 * 2021-08-17: megkezdődik a backend munka az Iteration 1 kapcsán
 * 2021-08-23: interaktív prototípusok közzététele és felhasználói tesztek megkezdése angol és spanyol nyelven
 * 2021-10-07: a felhasználói tesztek eredményeinek és az eredményeken alapuló végleges terveknek a közzététele
 * 2021-11-19: a nagykövetek megkezdik az eszköz tesztelését a produktív Wikipédiáikban
 * 2021-11-22: a képjavaslatok adathalmazának frissítése az Iteration 1 felhasználók számára történő kiadása előtt
 * 2021-11-29: Az 1. verziót az arab, cseh és bengáli Wikipédiákon a mobilfelhasználók 40%-a használta.
 * 2021-12-22: közzétett vezető mutatók
 * 2022-01-28: az asztali változatot az új fiókok 40%-ára telepítették az arab, cseh és bengáli Wikipediákon.
 * 2022-02-16: A spanyol Wikipédia kezdő felhasználóinak "képet kell hozzáadniuk"
 * 2022-03-22: A portugál, perzsa, francia és török Wikipédia kezdő felhasználóinak megjelenik a "kép hozzáadása" felirat
 * Tovább: a következő wikikre való bővítés és a konverziós folyamat részletes elemzése

Összefoglaló
A strukturált feladatok célja, hogy a szerkesztési feladatokat lépésről lépésre olyan munkafolyamatokra bontsa, melyek értelmesek a kezdők számára és mobil eszközökön is jól használhatóak. A Növekedési csapat úgy véli, hogy az ilyen újfajta szerkesztési munkafolyamatok bevezetése lehetővé teszi, hogy több új szerkesztő vegyen részt a Wikipédia szerkesztésében, akik közül néhányan megtanulnak majd jelentősebb szerkesztéseket végezni, és bekapcsolódnak a közösségükbe. Miután megvitattuk a strukturált feladatok ötletét a közösségekkel, úgy döntöttünk, hogy létrehozzuk az első strukturált feladatot: "link hozzáadása".

A "link hozzáadása" 2021 májusában történő bevezetése után kezdeti adatokat gyűjtöttünk, melyek azt mutatták, hogy a feladat vonzó volt a kezdő felhasználók számára, és hogy alacsony visszaállítási arány mellett végeztek szerkesztéseket -- ami azt jelzi, hogy a strukturált feladatok értékesnek tűnnek az új szerkesztők és a wikik számára.

Már az első feladat megalkotása közben is gondolkodtunk azon, hogy mi lehetne a következő strukturált feladat, és úgy gondoljuk, hogy a képek hozzáadása jó választás lehet a kezdők számára. Az ötlet az, hogy egy egyszerű algoritmus képeket ajánlana a Commonsból olyan szócikkekhez, melyekben nincsenek képek. Kezdetben csak a Wikidatában fellelhető, meglévő kapcsolatokat használná, és a kezdők saját belátásuk szerint döntenék el, hogy a képet a cikkre helyezik-e vagy sem.

Tudjuk, hogy sok nyitott kérdés van azzal kapcsolatban, hogy ez hogyan működne, és sok lehetséges oka van annak, hogy ez nem fog jól működni. Ezért reméljük, hogy sok közösségi tagtól halljuk majd a véleményeket, és folyamatos vitát folytatunk, miközben eldöntjük, hogyan tovább.



Kapcsolódó projektek
Az Android-csapat egy hasonló feladat minimális változatán dolgozott a Wikipédia Android-alkalmazásához, mely ugyanazokat az alapkomponenseket használja. Emellett a strukturált adatokkal foglalkozó csapat a kezdeti szakaszában van egy hasonló, tapasztaltabb felhasználóknak szánt, a Strukturált adatok a Commonson előnyét kihasználó fejlesztése. Az ezen az oldalon folyó viták és frissítések valamennyi csapat munkájára vonatkoznak.



Miért képek?
Jelentős szerkesztéseket keresünk

Amikor először beszéltünk a strukturált feladatokról a közösség tagjaival, sokan rámutattak, hogy a wikilinkek hozzáadása nem egy különösen nagy értékű szerkesztési típus. A közösség tagjai ötleteket vetettek fel arra vonatkozóan, hogy a kezdők hogyan tudnának érdemibb szerkesztést nyújtani. Az egyik ötlet a képek. A Wikimédia Commons 65 millió képet tartalmaz, de sok Wikipédiában a cikkek több mint 50%-a nem tartalmaz képet. Úgy gondoljuk, hogy a Commonsból származó sok kép lényegesen illusztráltabbá teheti a Wikipédiát.

A kezdők érdeklődése

Tudjuk, hogy sok kezdő érdeklődik a Wikipédia képekkel való bővítése iránt. Az új belépők az üdvözlési kérdőívben gyakran válaszolták, hogy "képet szeretnék hozzáadni", amikor azt kérdezték, hogy miért hozták létre a fiókjukat. Azt is látjuk, hogy az egyik leggyakoribb kérdés a súgópanelen a képek hozzáadására vonatkozik, és ez az összes wikire igaz, amivel dolgozunk. Bár a legtöbb új felhasználó valószínűleg a saját képét hozza, amit hozzá szeretne adni, ez arra utal, hogy a képek hogyan lehetnek vonzóak és izgalmasak. Ennek van értelme, tekintve, hogy a többi platform, ahol a kezdők részt vesznek - mint például az Instagram és a Facebook -- kép-hangsúlyos elemeket tartalmaz.

A képekkel való munka nehézségei

A képekkel kapcsolatos számos súgópanel-kérdés azt tükrözi, hogy a képek szócikkekhez való hozzáadásának folyamata túl bonyolult. A kezdőknek meg kell érteniük a Wikipédia és a Commons közötti különbséget, a szerzői jogokra vonatkozó szabályokat, valamint a kép megfelelő helyre történő beillesztésének és feliratozásának technikai részét. Egy kép megtalálása a Commonsban egy illusztrálatlan cikkhez még több készséget igényel, például a Wikidata és a kategóriák ismeretét.

A "Wikipedia Pages Wanting Photos" kampány sikere

A Wikipedia Pages Wanting Photos (WPWP) kampány meglepő sikert aratott: 600 felhasználó 85 000 oldalhoz adott hozzá képeket. Tették ezt néhány közösségi eszköz segítségével, melyek azonosították a kép nélküli oldalakat, és a Wikidata segítségével javasolták a lehetséges képeket. Bár még fontos tanulságokat lehet levonni arról, hogyan kell segíteni a kezdőknek a képek hozzáadásában, ez bizalmat ad nekünk abban, hogy a felhasználók lelkesedhetnek a képek hozzáadásáért, és hogy az eszközök segíthetnek nekik.

Mindezt együttvéve

Mindezeket az információkat együttesen végiggondolva úgy gondoljuk, hogy lehetséges lehet egy olyan strukturált "kép hozzáadása" feladatot létrehozni, amely egyszerre szórakoztató a kezdők számára és produktív a Wikipédia számára.

Az ötlet jóváhagyása
''2020 júniusától 2021 júliusáig a Növekedési csapat a "kép hozzáadása" feladat körüli közösségi megbeszéléseken, háttérkutatásokon, értékeléseken és koncepcióvizsgálatokon dolgozott. Ez vezetett ahhoz a döntéshez, hogy 2021 augusztusában elkezdjük az első iterációnk építését (lásd Iteration 1). Ez a szakasz tartalmazza mindazt a háttérmunkát, amely az Iteration 1-ig vezetett.''

Algoritmus
Az, hogy képesek vagyunk-e strukturált feladatot készíteni a képek hozzáadására, attól függ, hogy tudunk-e olyan algoritmust létrehozni, mely kellően jó ajánlásokat generál. Semmiképpen sem szeretnénk arra ösztönözni a kezdőket, hogy rossz képeket adjanak hozzá a szócikkekhez, ami munkát okozna a járőröknek, hogy utánuk takarítsanak. Ezért az egyik első dolog, amin dolgoztunk, hogy megpróbáljuk kideríteni, tudunk-e jó algoritmust készíteni.

Logika
Együtt dolgoztunk a Wikimédia kutatócsoporttal, és eddig egy olyan algoritmust teszteltünk, mely a pontosságot és az emberi ítélőképességet helyezi előtérbe. Ahelyett, hogy bármilyen számítógépes látásmódot használna, ami váratlan eredményeket hozhat, egyszerűen a Wikidata meglévő információit összesíti, a tapasztalt közreműködők által létrehozott kapcsolatokra támaszkodva. Ez a három fő módja annak, ahogyan a nem illusztrált cikkekhez találatokat javasol:


 * Nézd meg a szócikkhez tartozó Wikidata-elemet. Ha van benne kép (1$), válaszd ki azt a képet.
 * Nézd meg a szócikk Wikidata-elemét. Ha van hozzá Commons kategória (P373), akkor válassz egy képet a kategóriából.
 * Nézd meg az ugyanerről a témáról szóló szócikkeket más nyelvű Wikipédiákon. Válassz egy vezérképet ezekből a cikkekből.

Az algoritmus olyan logikát is tartalmaz, mely például kizárja azokat a képeket, amik valószínűleg ikonok, vagy a szócikkben egy navbox részeként vannak jelen.

Pontosság
2021 augusztusáig az algoritmus három tesztelési fordulón ment keresztül, minden alkalommal hat nyelv szócikkeit vizsgáltuk: Angol, francia, arab, vietnámi, cseh és koreai. Az értékeléseket csapatunk nagykövetei és más szakértő wikimédiások végezték, akik anyanyelvi beszélők a tesztelt nyelveken.

Az első két értékelés

Az egyes nyelvek 50 javasolt találatát megvizsgálva átnéztük és az alábbi csoportokba soroltuk azokat:

Egy ilyen algoritmuson végzett munka során az a kérdés, hogy mennyire kell pontosnak lennie? Ha az egyezések 75%-a jó, az elégséges? Kell-e 90%-os pontosságúnak lennie? Vagy lehet akár 50%-os pontosságú is? Ez attól függ, hogy az algoritmust használó kezdők mennyire jó ítélőképességűek, és mennyi türelemmel rendelkeznek a gyenge találatokhoz. Erről többet fogunk megtudni, amikor az algoritmust valódi kezdőkkel teszteljük.

Az első értékelés során a legfontosabb, hogy sok olyan egyszerű javítást találtunk az algoritmuson, amit könnyen el lehet végezni, beleértve a kizárandó szócikkek és képek típusait. Még ezen fejlesztések nélkül is a találatok körülbelül 20-40%-a "2-es" volt, ami azt jelenti, hogy a cikkhez nagyszerű találatok tartoznak (a wikitől függően). Az első értékelés teljes eredményeit és jegyzeteit itt találod.

A második értékeléshez számos javítást építettünk be, és a találati pontosság nőtt. A találatok 50-70%-a "2-es" volt (a wikitől függően). A pontosság növelése azonban csökkentheti a lefedettséget, azaz azon cikkek számát, melyekre egyezést tudunk találni. Konzervatív kritériumokat alkalmazva az algoritmus csak tízezer találatot tud javasolni egy adott wikiben, még akkor is, ha az adott wikinek több százezer vagy millió cikke van. Úgy gondoljuk, hogy ez a fajta mennyiség elegendő lenne a funkció kezdeti változatának elkészítéséhez. A második értékelés teljes eredményeit és jegyzeteit itt tekintheted meg.

Harmadik értékelés

2021 májusában a strukturált adatokkal foglalkozó csapat egy sokkal nagyobb léptékű tesztet végzett a képillesztési algoritmus (és a MediaSearch algoritmus) tesztelésére arab, cebuanói, angol, vietnámi, bengáli és cseh Wikipédiákon. Ebben a tesztben a képillesztési algoritmus és a MediaSearch mintegy 500 találatát értékelték az egyes nyelvek szakértői, akik jó esetben "Jó", "Rendben" vagy "Rossz" találatoknak minősíthették azokat. Az alább részletezett eredmények ezeket mutatják:


 * A képillesztési algoritmus pontossága 65-80% között mozog, attól függően, hogy a "Jó" vagy a "Jó+Rendben" kategóriába esik, és a wikitől/értékelőtől függően. Érdekes módon a képillesztések kiértékelésével kapcsolatos tapasztalataink szerint a szakértő wikimédiások gyakran nem értenek egyet egymással, mivel mindenkinek saját mércéje van arról, hogy a képeknek helye van-e a szócikkekben.
 * A Wikidata P18 ("Wikidata") a legerősebb egyezésforrás, 85%-95%-os pontossággal. A más Wikipédiákból ("Wikiközi") és a Wikidata-cikkekhez csatolt Commons-kategóriákból ("Commons-kategória") származó képek hasonló mértékben kevésbé pontosak.
 * A más Wikipédiákból származó képek ("Wikiközi") a leggyakoribb találati források. Más szóval, ezekből több áll az algoritmus rendelkezésére, mint a másik két forrásból.

Az eredmények teljes adatkészlete itt található.

Lefedettség
Az algoritmus pontossága egyértelműen nagyon fontos összetevő. Ugyanilyen fontos a "lefedettség" is -- ez arra utal, hogy hány képet tud egybevetni. A pontosság és a lefedettség általában fordítottan arányos: minél pontosabb egy algoritmus, annál kevesebb javaslatot tesz (mivel csak akkor tesz javaslatokat, ha biztos a dolgában). Ezekre a kérdésekre kell válaszolnunk: képes-e az algoritmus annyi találatot adni, hogy érdemes legyen vele egy eszközt létrehozni? Képes lenne-e érdemi hatást gyakorolni a wikire? Megnéztünk 22 Wikipédiát, hogy képet kapjunk a válaszokról. Az összefoglaló pontok alatt található a táblázat:


 * A táblázatban tükröződő lefedettségi számok elegendőnek tűnnek egy "kép hozzáadása" funkció első verziójához. Minden wikiben van annyi jelölt találat, hogy (a) a szerkesztők nem fognak kifogyni belőle, és (b) egy funkció jelentős hatást gyakorolhatna egy wiki illusztráltságára.
 * A wikik a 20%-os illusztrálatlanság (szerb) és a 69%-os illusztrálatlanság ( vietnámi) között mozognak.
 * 7000 (bengáli) és 155000 (angol) között találunk illusztrálatlan szócikkeket, ahol találunk megfelelő jelölteket. Általánosságban elmondható, hogy ez a feladat első verziójához elegendő mennyiség, így a szerkesztőknek bőven akad találatuk. Néhány ritkább wikiben, mint például a bengáli, ez a szám kis számokba is belekerülhet, amint a felhasználók leszűkítik az őket érdeklő témákat. Ennek ellenére a bengáliban csak körülbelül 100 000 szócikk van összesen, így a szócikkek 7%-ára javasolnánk találatokat, ami jelentős.
 * Ami azt illeti, hogy mekkora javulást érhetnénk el a wikik illusztrálásában ezzel az algoritmussal, a felső határ 1% (cebwiki) és 9% (trwiki) között mozog. Ez a további cikkek teljes százalékos aránya, ami illusztrációkkal egészülne ki, ha minden találat jó lenne és bekerülne a wikibe.
 * Az arzwiki és a cebwiki az a wiki, ahol a legalacsonyabb az illusztrálatlan cikkek aránya, melyekhez találunk találatokat, mivel mindkettőben nagy a botok által létrehozott cikkek száma. Ennek van értelme, mert ezek közül a szócikkek közül sok olyan konkrét városokról vagy fajokról szól, melyekhez a Commonsban nem lenne kép. De mivel ezekben a wikikben nagyon sok szócikk található, még mindig több tízezer olyan szócikk van, amire az algoritmus talál találatokat.
 * A távolabbi jövőben reméljük, hogy a képillesztési algoritmus, a MediaSearch vagy a képek feltöltésére/feliratozására/megjelölésére vonatkozó munkafolyamatok fejlesztése több találatot eredményez.

MediaSearch
Amint arról már szó volt, a strukturált adatokkal foglalkozó csoport vizsgálja a MediaSearch algoritmus használatát a lefedettség növelése és több találati lehetőség biztosítása érdekében.

A MediaSearch a hagyományos szövegalapú keresés és a strukturált adatok kombinálásával működik, hogy nyelvfüggetlen módon releváns találatokat adjon a keresésekhez. A Commonson található strukturált adatok részeként a képekhez hozzáadott Wikidata állítások keresési rangsorolási bemenetként való felhasználásával a MediaSearch képes kihasználni az aliasokat, a kapcsolódó fogalmakat és a többnyelvű címkéket, hogy növelje a képek találatainak relevanciáját. A MediaSearch működéséről további információ itt található.

2021 februárjától a csapat jelenleg azzal kísérletezik, hogyan lehet a MediaSearch találatokhoz egy olyan megbízhatósági pontszámot biztosítani, melyet a képajánló algoritmus felhasználhat, és ami alapján eldöntheti, hogy a MediaSearchből származó találat megfelelő minőségű-e a képillesztési feladatokban való felhasználáshoz. Biztosak akarunk lenni abban, hogy a szerkesztők bíznak a MediaSearch által adott ajánlásokban, mielőtt beépítenénk azokat a funkcióba.

A strukturált adatokkal foglalkozó csoport azt is vizsgálja és prototípusokat készít, hogy a szerkesztők által generált botok hogyan használhatják a képajánló algoritmus és a MediaSearch által generált eredményeket arra, hogy automatikusan képeket adjanak hozzá a szócikkekhez. Ez egy kísérlet lesz a botoktól hemzsegő wikikben, a közösségi bot-írókkal együttműködve. Többet megtudhatsz erről az igyekezetről, vagy kifejezheted érdeklődésedet a phabricator feladatban való részvétel iránt.

2021 májusában a fenti "Pontosság" szakaszban idézett értékelés során a MediaSearch jóval kevésbé pontosnak bizonyult, mint a képillesztési algoritmus. Míg a képillesztési algoritmus körülbelül 78%-os pontosságú volt, addig a MediaSearch találatai körülbelül 38%-os pontosságúak voltak. Ezért a növekedési csapat nem tervezi a MediaSearch használatát a "kép hozzáadása" feladat első ismétlésében.

Kérdések és megbeszélés


Nyitott kérdések
A képek fontos és látható részét képezik a Wikipédia-élménynek. Nagyon fontos, hogy alaposan átgondoljuk, hogyan működne egy olyan funkció, ami lehetővé tenné a képek egyszerű hozzáadását, mik lennének a lehetséges buktatók, és milyen következményekkel járna a közösség tagjaira nézve. Ebből a célból számos nyitott kérdésünk van, és szeretnénk, ha a közösség tagjai továbbiakat is felvetnének.


 * Elég pontos lesz-e az algoritmusunk ahhoz, hogy sok jó találatot adjunk?
 * Milyen metaadatokra van szükségük a kezdőknek a Commonsból és a kép nélküli szócikkből ahhoz, hogy dönteni tudjanak a kép hozzáadásáról?
 * A kezdők kellően jó ítélőképességgel rendelkeznek-e majd az ajánlások áttekintésekor?
 * Azok a kezdők, akik nem olvasnak angolul, ugyanolyan jól tudnak majd dönteni, mivel a Commons metaadatainak nagy része angolul van?
 * Képesek lesznek-e az új felhasználók jó képaláírásokat írni a szócikkekbe helyezett képek mellé?
 * Mennyire kell a kezdőknek a képeket a "minőségük" alapján megítélniük, szemben a "relevanciájukkal"?
 * Érdekesnek fogják-e tartani ezt a feladatot a kezdők? Szórakoztatónak? Nehéznek? Könnyűnek? Unalmasnak?
 * Pontosan hogyan határozzuk meg, hogy mely szócikkekben nincsenek képek?
 * A kép nélküli szócikkben hol kell elhelyezni a képet? Elég, ha a cikk elejére kerül?
 * Hogyan tudunk figyelni az ajánlások esetleges torzítására, azaz lehet, hogy az algoritmus sokkal több találatot ad az európai és észak-amerikai témákhoz.
 * Vajon egy ilyen munkafolyamat vektora lesz a vandalizmusnak? Hogyan lehet ezt megakadályozni?

A közösségi megbeszélések jegyzetei 2021-02-04
2020 decemberétől kezdve öt nyelven (angol, bengáli, arab, vietnámi, cseh) hívtuk meg a közösség tagjait, hogy beszélgessenek a "kép hozzáadása" ötletéről. Az angol nyelvű megbeszélések többnyire az itteni vitalapon zajlottak, a helyi nyelvű beszélgetések pedig a másik négy Wikipédián. A közösség 28 tagjától hallottunk véleményt, és ez a rész összefoglalja a leggyakoribb és legérdekesebb gondolatokat. Ezek a beszélgetések nagyban befolyásolják a következő tervezési sorozatunkat.


 * Általános: a közösség tagjai általában óvatosan optimisták ezzel az ötlettel kapcsolatban. Más szóval, úgy tűnik, a szerkesztők egyetértenek abban, hogy értékes lenne algoritmusokat használni a képek Wikipédiához való hozzáadásához, de hogy sok a lehetséges buktató, és hogy ez sokféleképpen rosszul sülhet el, különösen a kezdők esetében.
 * Algoritmus
 * Úgy tűnt, hogy a közösség tagjai bíznak az algoritmusban, mivel az csak a tapasztalt felhasználók által a Wikidatába kódolt asszociációkra támaszkodik, nem pedig valamiféle kiszámíthatatlan mesterséges intelligenciára.
 * Az algoritmus három forrása (Wikidata P18, interwiki linkek és Commons kategóriák) közül a szerkesztők egyetértettek abban, hogy a Commons kategóriák a leggyengébbek (és a Wikidata a legerősebb). Ez beigazolódott a tesztelés során, és lehet, hogy a Commons-kategóriákat kizárjuk a jövőbeli iterációkból.
 * Jó tanácsokat kaptunk bizonyos típusú oldalak kizárására a funkcióból: disambiguációk, listák, évszámok, jó és kiemelt cikkek... Lehet, hogy az élő személyek életrajzát is ki akarjuk zárni.
 * Azokat a képeket is ki kell zárnunk, melyek törlési sablonnal rendelkeznek a Commonson, és melyek korábban már törlésre kerültek a Wikipédia oldaláról.
 * Kezdők értékelése
 * A közösség tagjai általában attól tartottak, hogy a kezdők rosszul ítélik meg a helyzetet, és az algoritmusnak nem adnak igazat. Szerkesztői tesztjeinkből tudjuk, hogy a kezdők képesek józan ítélőképességre, és úgy véljük, hogy a megfelelő tervezés ezt ösztönözni fogja.
 * A Wikipedia Pages Wanting Photos (WPWP) kampány megvitatása során kiderült, hogy bár sok új felhasználó képes volt jó ítélőképességre, néhány túlbuzgó szerkesztő gyorsan sok rossz találatot hozhat létre, ami sok munkát okoz a járőröknek. Lehet, hogy valamiféle érvényesítést szeretnénk hozzáadni, hogy megakadályozzuk, hogy a felhasználók túl gyorsan adjanak hozzá képeket, vagy hogy többszöri visszaállítás után is folytassák a képek hozzáadását.
 * A legtöbb közösségi tag megerősítette, hogy a "relevancia" fontosabb, mint a "minőség", amikor arról van szó, hogy egy kép hozzátartozik-e. Más szóval, ha egy személyről az egyetlen kép elmosódott, az általában még mindig jobb, mintha egyáltalán nem lenne kép.  A kezdőknek meg kell tanítani ezt a normát, miközben a feladatot végzik.
 * A kezelőfelületünknek azt kell sugallnia, hogy a szerkesztőknek lassan és óvatosan kell haladniuk, nem pedig azt, hogy minél több találatot próbáljanak meg elvégezni.
 * Meg kell tanítanunk a szerkesztőknek, hogy a képeknek tanulságosnak kell lenniük, nem pedig pusztán dekoratívnak.
 * Felhasználói felület
 * Többen javasolták, hogy a felhasználóknak ne csak egy, hanem több kép közül választhassanak. Ezáltal valószínűbbé válna, hogy a szócikkekhez jó képeket csatolnak.
 * A közösség számos tagja javasolta, hogy a kezdők választhassák ki az őket érdeklő tématerületeket (különösen a földrajzi területeket), ahol a szócikkekkel dolgozni szeretnének. Ha a kezdők olyan területeket választanak, ahol már van némi tudásuk, akkor talán erősebb döntéseket tudnak hozni. Szerencsére ez automatikusan része lenne minden olyan funkciónak, melyet a Növekedési csapat készít, mivel már most is lehetővé tesszük a szerkesztők számára, hogy 64 tématerület közül válasszanak a javasolt szerkesztési feladatok kiválasztásakor.
 * A közösség tagjai azt javasolják, hogy a kezdők a lehető legtöbb cikkkörnyezetet lássák, ne csak egy előnézetet. Ez segít nekik megérteni a feladat súlyát, és rengeteg információ áll rendelkezésükre a döntésük meghozatalához.
 * Elhelyezés a szócikken belül
 * Tanultunk a Wikidata infoboxokról. Megtanultuk, hogy az ezeket használó wikik esetében a képek lehetőleg a Wikidata infoboxon keresztül jelenjenek meg, és ne a szócikkben. Ennek szellemében azt fogjuk kutatni, hogy mennyire gyakoriak ezek az infoboxok a különböző wikikben.
 * Általánosságban úgy tűnik, hogy a "helyezz egy képet a sablonok alá és a tartalom fölé" szabály egy szócikkben a legtöbbször működik.
 * Néhány közösségi tag azt tanácsolta nekünk, hogy még ha nem is tökéletes az elhelyezés egy szócikkben, más szerkesztők szívesen kijavítják az elhelyezést, mivel a megfelelő kép megtalálásának nehéz munkája már megtörtént.
 * Nem angol nyelvű szerkesztők
 * A közösség tagjai emlékeztettek bennünket arra, hogy a Commons egyes metaadat elemei, mint például a feliratok és az ábrázoló nyilatkozatok, nyelvfüggetlenek lehetnek. Ebben a szakaszban megnéztük, hogy ez pontosan mennyire gyakori.
 * Hallottuk azt a javaslatot, hogy még ha a szerkesztők nem is beszélnek folyékonyan angolul, akkor is használhatják a metaadatokat, ha képesek latin betűket olvasni. Ennek az az oka, hogy sok egyezéshez a felhasználó lényegében csak a cikk címét keresi valahol a kép metaadataiban.
 * Valaki azt az ötletet is felvetette, hogy a metaadatokat gépi fordítással (pl. Google fordító) fordítsák le a helyi nyelvre e funkció céljára.
 * Feliratok
 * A közösség tagjai (és a növekedési csapat tagjai) szkeptikusak azzal kapcsolatban, hogy a kezdők képesek-e megfelelő feliratokat írni.
 * Azt a tanácsot kaptuk, hogy mutassunk a szerkesztőknek példákat a feliratokra, és a feliratozandó szócikk típusára szabott iránymutatásokat.



Szerkesztői tesztelés tervezése


A fenti nyitott kérdésekre gondolva, a közösség véleménye mellett szeretnénk néhány kvantitatív és kvalitatív információt is generálni, melyek segítségével értékelni tudjuk a "kép hozzáadása" funkció létrehozásának megvalósíthatóságát. Bár az algoritmust már értékeltük a munkatársak és a Wikimédiások körében, fontos látni, hogyan reagálnak rá a kezdők, és hogyan használják az ítélőképességüket, amikor arról döntenek, hogy egy kép beletartozik-e egy szócikkbe.

Ebből a célból az usertesting.com segítségével teszteket fogunk futtatni, melyekben a Wikipédia-szerkesztésben járatlan szerkesztők egy prototípusban végigmehetnek a lehetséges képtalálatokon, és "Igen", "Nem" vagy "Bizonytalan" választ adhatnak. A teszthez készítettünk egy gyors prototípust, melyet a jelenlegi algoritmussal készült valódi találatokkal támasztunk alá. A prototípus csak az egyik találatot mutatja egymás után, mindezt egy feedben. A képek a Commons összes vonatkozó metaadatával együtt jelennek meg:


 * Fájlnév
 * Méret
 * Dátum
 * Szerkesztő
 * Leírás
 * Felirat
 * Kategóriák
 * Címkék

Bár lehet, hogy a jövőben nem ez lesz a munkafolyamat a valódi szerkesztők számára, a prototípus úgy készült, hogy a tesztelők sok potenciális találatot gyorsan át tudjanak nézni, sok információt generálva.

Az interaktív prototípus kipróbálásához használd ezt a linket. Megjegyzendő, hogy ez a prototípus elsősorban az algoritmus találatainak megtekintésére szolgál -- a tényleges felhasználói élményen még nem gondolkodtunk sokat. Valójában nem hoz létre semmilyen szerkesztést. Az algoritmus által javasolt 60 valódi találatot tartalmaz.

A következőkre fogunk figyelni a teszt során:


 * 1) A résztvevők képesek-e magabiztosan megerősíteni a találatokat a javaslatok és a megadott adatok alapján?
 * 2) Mennyire pontosak a résztvevők a javaslatok értékelésében? Úgy gondolják, hogy jobb vagy rosszabb munkát végeznek, mint amilyen valójában?
 * 3) Hogyan érzik magukat a résztvevők a képek ilyen módon történő hozzáadásának feladatával kapcsolatban a szócikkekhez? Könnyűnek/nehéznek, érdekesnek/unalmasnak, jutalmazónak/érdektelennek találják?
 * 4) Milyen információkat tartanak a résztvevők a legértékesebbnek a képek és a szócikkek egymáshoz való párosításának értékelésében?
 * 5) Képesek-e a résztvevők a megadott adatok alapján jó képaláírásokat írni az általuk megfelelőnek ítélt képekhez?

A koncepció vs. B
A feladat tervezésén gondolkodva hasonló kérdés merült fel, mint a "link hozzáadása" esetében az A és a B koncepció tekintetében. Az A koncepcióban a szerkesztők a szócikk szerkesztését a cikknél végeznék el, míg a B koncepcióban több szerkesztést végeznének egymás után, mindegyiket egy feedből. Az A koncepció több kontextust ad a szerkesztőnek a szócikkhez és a szerkesztéshez, míg a B koncepció a hatékonyságot helyezi előtérbe.

A fenti interaktív prototípusban a B koncepciót alkalmaztuk, melyben a szerkesztők egy javaslatokból álló csatornán keresztül haladnak. Ezt azért tettük, mert a szerkesztői tesztjeink során sok példát akartunk látni arra, hogy a felhasználók hogyan lépnek interakcióba a javaslatokkal. Ez az a fajta kialakítás, mely a legjobban működhet egy olyan platformon, mint a Wikipédia Android-alkalmazása. A Növekedési csapat kontextusában inkább az A. koncepcióban gondolkodunk, melyben a szerkesztő a szócikk szerkesztését a szócikknél végzi. Ezt az irányt választottuk a "link hozzáadása" esetében, és úgy gondoljuk, hogy ugyanezen okokból a "kép hozzáadása" esetében is megfelelő lehet.

Egyetlen vs. többszörös
Egy másik fontos tervezési kérdés, hogy egyetlen javasolt képillesztést mutassunk-e meg a felhasználónak, vagy több képillesztés közül választhat. Amennyiben több találatot adunk meg, nagyobb az esélye annak, hogy az egyik találat jó. De az is előfordulhat, hogy a szerkesztők azt gondolják, hogy az egyiket kell választaniuk, még akkor is, ha egyik sem jó. Emellett bonyolultabb lesz a tervezés és a kivitelezés, különösen a mobileszközök esetében. Három lehetséges munkafolyamatot modelleztünk:


 * Egyetlen: ebben a kialakításban a szerkesztő csak egy javasolt képillesztést kap a szócikkhez, és csak azt kell elfogadnia vagy elutasítania. Ez egyszerű a szerkesztő számára.
 * Többszörös: ez a terv több lehetséges egyezést mutat a szerkesztőnek, aki ezeket összehasonlíthatja, és kiválaszthatja a legjobbat, vagy elutasíthatja az összeset. Aggodalomra adhat okot, ha a szerkesztő úgy érzi, hogy a legjobbat kell hozzáadnia a szócikkhez, még akkor is, ha az valójában nem tartozik oda.
 * Sorozatos: ez a kialakítás több képi egyezést kínál, de a szerkesztő egyenként nézi meg őket, rögzíti az ítéletét, majd a végén kiválasztja a legjobbat, ha jelezte, hogy egynél több egyezés lehetséges. Ez segíthet a szerkesztőnek, hogy egyszerre egy képre koncentráljon, de a végén egy plusz lépést tesz hozzá.



Szerkesztői tesztek 2020. december
Háttér

2020 decemberében a usertesting.com segítségével 15 tesztet végeztünk a mobil interaktív prototípussal. A prototípus csak kezdetleges dizájnt, kevés kontextust vagy onboardingot tartalmazott, és csak angol nyelven teszteltük olyan szerkesztőkkel, akiknek kevés vagy semmilyen korábbi Wikipédia-szerkesztési tapasztalatuk sem volt. Szándékosan egy kezdetleges kialakítást teszteltünk a folyamat elején, hogy sok tanulságot gyűjthessünk. A teszteléssel elsősorban a funkció egészének megvalósíthatóságát akartuk megvizsgálni, nem pedig a tervezés finomabb részleteit:


 * 1) Are participants able to confidently confirm matches based on the suggestions and data provided?
 * 2) How accurate are participants at evaluating suggestions? And how does the actual aptitude compare to their perceived ability in evaluating suggestions?
 * 3) How do participants feel about the task of adding images to articles this way? Do they find it easy/hard, interesting/boring, rewarding/irrelevant?
 * 4) What metadata do participants find most valuable in helping them evaluate image and article matches?
 * 5) Are participants able to write good captions for images they deem a match using the data provided?

In the test, we asked participants to annotate at least 20 article-image matches while talking out loud. When they tapped yes, the prototype asked them to write a caption to go along with the image in the article. Overall, we gathered 399 annotations.

 Summary 

We think that these user tests confirm that we could successfully build an "add an image" feature, but it will only work if we design it right. Many of the testers understood the task well, took it seriously, and made good decisions -- this gives us confidence that this is an idea worth pursuing. On the other hand, many other users were confused about the point of the task, did not evaluate as critically, and made weak decisions -- but for those confused users, it was easy for us to see ways to improve the design to give them the appropriate context and convey the seriousness of the task.

 Observations 

'' To see the full set of findings, feel free to browse the slides. The most important points are written below the slides. ''




 * General understanding of the task matching images to Wikipedia articles was reasonably good, given the minimal context provided for the tool and limited knowledge of Commons and Wikipedia editing. There are opportunities to boost understanding once the tool is redesigned in a Wikipedia UX.
 * The general pattern we noticed was: a user would look at an article's title and first couple sentences, then look at the image to see if it could plausibly match (e.g. this is an article about a church and this is an image of a church). Then they would look for the article's title somewhere in the image metadata, either in the filename, description, caption, or categories.  If they found it, they would confirm the match.
 * Each image matching task could be done quickly by someone unfamiliar with editing. On average, it took 34 seconds to review an image.
 * All said they would be interested in doing such a task, with a majority rating it as easy or very easy.
 * Perceived quality of the images and suggestions was mixed. Many participants focused on the image composition and other aesthetic factors, which affected their perception of the suggestion accuracy.
 * Only a few pieces of image metadata from Commons were critical for image matching: filename, description, caption, categories.
 * Many participants would, at times, incorrectly try to match an images to its own data, rather than to the article (e.g. "Does this filename seem right for the image?"). Layout and visual hierarchy changes to better focus on the article context for the image suggested should be explored.
 * “Streaks” of good matches made some participants more complacent with accepting more images -- if many in a row were "Yes", they stopped evaluating as critically.
 * Users did a poor job of adding captions. They frequently would write their explanation for why they matched the image, e.g. "This is a high quality photo of the guy in the article." This is something we believe can be improved with design and explanation for the user.

 Metrics 


 * Members of our team annotated all the image matches that were shown to users in the test, and we recorded the answers the users gave. In this way, we developed some statistics on how good of a job the users did.
 * Of the 399 suggestions users encountered, they tapped "Yes" 192 times (48%).
 * Of those, 33 were not good matches, and might be reverted were they to be added to articles in reality. This is 17%, and we call this the "likely revert rate".

 Takeaways 


 * The "likely revert rate" of 17% is a really important number, and we want this to be as low as possible. On the one hand, this number is close to or lower than the average revert rate for newcomer edits in Wikipedia (English is 36%, Arabic is 26%, French is 22%, Vietnamese is 11%).  On the other hand, images are higher impact and higher visibility than small changes or words in an article.  Taking into account the kinds of changes we would make to the workflow we tested (which was optimized for volume, not quality), we think that this revert rate would come down significantly.
 * We think that this task would work much better in a workflow that takes the user to the full article, as opposed to quickly shows them one suggestion after another in the feed. By taking them to the full article, the user would see much more context to decide if the image matches and see where it would go in the article.  We think they would absorb the importance of the task: that they will actually be adding an image to a Wikipedia article.  Rather than going for speed, we think the user would be more careful when adding images.  This is the same decision we came to for "add a link" when we decided to build the "Concept A" workflow.
 * We also think outcomes will be improved with onboarding, explanation, and examples. This is especially true for captions.  We think if we show users some examples of good captions, they'll realize how to write them appropriately.  We could also prompt them to use the Commons description or caption as a starting point.
 * Our team has lately been discussing whether it would be better to adopt a "collaborative decision" framework, in which an image would not be added to an article until two users confirm it, rather than just one. This would increase the accuracy, but raises questions around whether such a workflow aligns with Wikipedia values, and which user gets credit for the edit.

Metadata
The user tests showed us that image metadata from Commons (e.g. filename, description, caption, etc.) is critical for a user to confidently make a match. For instance, though the user can see that the article is about a church, and that the photo is of a church, the metadata allowed them to tell if it is the church discussed in the article. In the user tests, we saw that these items of metadata were most important: filename, description, caption, categories. Items that were not useful included size, upload date, and uploading username.

Given that metadata is a critical part of making a strong decision, we have been thinking about whether users will need to be have metadata in their own language in order to do this task, especially in light of the fact that the majority of Commons metadata is in English. For 22 wikis, we looked at the percentage of the image matches from the algorithm that have metadata elements in the local language. In other words, for the images that can be matched to unillustrated articles in Arabic Wikipedia, how many of them have Arabic descriptions, captions, and depicts? The table is below these summary points:


 * In general, local language metadata coverage is very low. English is the exception.
 * For all wikis except English, fewer than 7% of image matches have local language descriptions (English is at 52%).
 * For all wikis except English, fewer than 0.5% of image matches have local language captions (English is at 3.6%).
 * For depicts statements, the wikis range between 3% (Serbian) and 10% (Swedish) coverage for their image matches.
 * The low coverage of local language descriptions and captions means that in most wikis, there are very few images we could suggest to users with local language metadata. Some of the larger wikis have a few thousand candidates with local language descriptions.  But no non-English wikis have over 1,000 candidates with local language captions.
 * Though depicts coverage is higher, we expect that depicts statements don’t usually contain sufficient detail to positively make a match. For instance, a depicts statement applied to a photo of St. Paul’s Church in Chicago is much more likely to be “church”, than “St. Paul’s Church in Chicago”.
 * We may want to prioritize image suggestions with local language metadata in our user interfaces, but until other features are built to increase the coverage, relying on local languages is not a viable option for these features in non-English wikis.

Given that local-language metadata has low coverage, our current idea is to offer the image matching task to just those users who can read English, which we could ask the user as a quick question before beginning the task. This unfortunately limits how many users could participate. It's a similar situation to the Content Translation tool, in that users need to know the language of the source wiki and the destination wiki in order to move content from one wiki to another. We also believe there will be sufficient numbers of these users based on results from the Growth team's welcome survey, which asks newcomers which languages they know. Depending on the wiki, between 20% and 50% of newcomers select English.

Android MVP
'' See this page for the details on the Android MVP. ''

Background
After lots of community discussion, many internal discussions, and the user test results from above, we believe that this "add an image" idea has enough potential to continue to pursue. Community members have been generally positive, but also cautionary -- we also know that there are still many concerns and reasons the idea might not work as expected. The next step we want to in order to learn more is to build a "minimum viable product" (MVP) for the Wikipedia Android app. The most important thing about this MVP is that it will not save any edits to Wikipedia. Rather, it will only be used to gather data, improve our algorithm, and improve our design.

The Android app is where "suggested edits" originated, and that team has a framework to build new task types easily. These are the main pieces:


 * The app will have a new task type that users know is only for helping us improve our algorithms and designs.
 * It will show users image matches, and they will select "Yes", "No", or "Skip".
 * We'll record the data on their selections to improve the algorithm, determine how to improve the interface, and think about what might be appropriate for the Growth team to build for the web platform later on.
 * No edits will happen to Wikipedia, making this a very low-risk project.

Results
The Android team released the app in May 2021, and over several weeks, thousands of users evaluated tens of thousands of image matches from the image matching algorithm. The resulting data allowed the Growth team to decide to proceed with Iteration 1 of the "add an image" task. In looking at the data, we were trying to answer two important questions around "Engagement" and "Efficacy".

Engagement: do users of all languages like this task and want to do it?
 * On average, users in the Android MVP did about 11 annotations each. While this is less than image descriptions and description translations, it is greater than the other four kinds of Android tasks.
 * Image matching edits showed a substantially lower retention rate than other kinds of Android suggested edits, but there are concerns that it’s not possible to calculate an apples-to-apples comparison. Further, we think that the fact that the edits from this MVP do not actually change the wikis would lead to lower retention, because users would be less motivated to return and do more.
 * With respect to language, data was collected for users in English Wikipedia as well as from users who exclusively use non-English Wikipedia, including large numbers of evaluations from German, Turkish, French, Portuguese, and Spanish Wikipedias. We expected English and non-English users to have quite different experiences, because the majority of metadata on images in Commons is in English. But metrics were remarkably similar across the two groups, including number of tasks completed, time spent on task, retention, and judgment. This bodes well for this task being usable across wikis, although it's likely that many of the non-English Android users are actually bilingual.

Efficacy: will resulting edits be of sufficient quality?
 * 80% of the matches for which newcomers said "yes" are actually good matches according to experts. This is an improvement of about 5 percentage points over the algorithm alone.
 * This number goes up to 82-83% when we remove newcomers who have very low median time for evaluations.
 * Experts tend to agree with each other only about 85% of the time.
 * Because newcomer accuracy goes up when certain kinds of newcomers are removed (those who evaluate too quickly or who accept too many suggestions), we think that automated “quality gates” could boost newcomer performance to levels acceptable by communities.

See the full results are here.

Engineering
This section contains links on how to follow along with technical aspects of this project:


 * Work on the "proof of concept" API by the Platform Engineering team, built to back the Android MVP
 * Phabricator tasks around the Android team's MVP
 * Phabricator tasks and evaluations of the image matching algorithm

Iteration 1
In July 2021, the Growth team decided to move forward with building a first iteration of an "add an image" task for the web. This was a difficult decision, because of the many open questions and risks around encouraging newcomers to add images to Wikipedia articles. But after going through a year of idea validation, and looking through the resulting community discussions, evaluations, tests, and proofs-of-concepts around this idea, we decided to build a first iteration so that we could continue learning. These are the main findings from the idea validation phase that led us to move forward:


 * Cautious community support: community members are cautiously optimistic about this task, agreeing that it would be valuable, but pointing out many risks and pitfalls that we think we can address with good design.
 * Accurate algorithm: the image matching algorithm has shown to be 65-80% accurate through multiple different tests, and we have been able to refine it over time.
 * User tests: many newcomers who experienced prototypes found the task fun and engaging.
 * Android MVP: the results from the Android MVP showed that newcomers generally applied good judgment to the suggestions, but more importantly, gave us clues about how to improve their results in our designs. The results also hinted that the task could work well across languages.
 * Overall learnings: having bumped into many pitfalls through our various validation steps, we'll be able to guard against them in our upcoming designs. This background work has given us lots of ideas on how to lead newcomers to good judgment, and how to avoid damaging edits.

Hypotheses
We're not certain that this task will work well -- that's why we plan to build it in small iterations, learning along the way. We do think that we can make a good attempt using our learnings so far to build a lightweight first iteration. One way to think about what we're doing with our iterations is hypothesis testing. Below are five optimistic hypotheses we have about the "add an image" task. Our aim in Iteration 1 will be to see if these hypotheses are correct.


 * 1) Captions: users can write satisfactory captions. This is our biggest open question, since images that get placed into Wikipedia articles generally require captions, but the Android MVP did not test the ability of newcomers to write them well.
 * 2) Efficacy: newcomers will have strong enough judgment that their edits will be accepted by the communities.
 * 3) Engagement: users like to do this task on mobile, do many, and return to do more.
 * 4) Languages: users who don’t know English will be able to do this task. This is an important question, since the majority of metadata on Commons is in English, and it is critical for users to read the filename, description, and caption from Commons in order to confidently confirm a match.
 * 5) Paradigm: the design paradigm we built for "the add a link structured task" will extend to images.

Scope
Because our main objective with Iteration 1 is learning, we want to get an experience in front of users as soon as we can. This means we want to limit the scope of what we build so that we can release it quickly. Below are the most important scope limitations we think we should impose on Iteration 1.


 * Mobile only: while many experienced Wikimedians do most of the wiki work from their desktop/laptop, the newcomers who are struggling to contribute to Wikipedia are largely using mobile devices, and they are the more important audience for the Growth team's work. If we build Iteration 1 only for mobile, we'll concentrate on that audience while saving the time it would take to additionally design and build the same workflow for desktop/laptop.
 * Static suggestions: rather than building a backend service to continuously run and update the available image matches using the image matching algorithm, we'll run the algorithm once and use the static set of suggestions for Iteration 1. While this won't make the newest images and freshest data available, we think it will be sufficient for our learning.
 * Add a link paradigm: our design will generally follow the same patterns as the design for our previous structured task, "add a link".
 * Unillustrated articles: we'll limit our suggestions only to articles that have no illustrations in them at all, as opposed to including articles that have some already, but could use more. This will mean that our workflow will not need to include steps for the newcomer to choose where in the article to place the image. Since it will be the only image, it can be assumed to be the lead image at the top of the article.
 * No infoboxes: we'll limit our suggestions only to articles that have no infoboxes. That's because if an unillustrated article has an infobox, its first image should usually be placed in the infobox. But it is a major technical challenge to make sure we can identify the correct image and image caption fields in all infoboxes in many languages. This also avoids articles that have Wikidata infoboxes.
 * Single image: although the image matching algorithm can propose multiple image candidates for a single unillustrated article, we'll limit Iteration 1 to only proposing the highest-confidence candidate. This will make for a simpler experience for the newcomer, and for a simpler design and engineering effort for the team.
 * Quality gates: we think we should include some sort of automatic mechanism to stop a user from making a large number of bad edits in a short time. Ideas around this include (a) limiting users to a certain number of "add an image" edits per day, (b) giving users additional instructions if they spend too little time on each suggestions, (c) giving users additional instructions if they seem are accepting too many images. This idea was inspired by English Wikipedia's 2021 experience with the Wikipedia Pages Wanting Photos campaign.
 * Pilot wikis: as with all new Growth developments, we will deploy first only to our four pilot wikis, which are Arabic, Vietnamese, Bengali, and Czech Wikipedias. These are communities who follow along with the Growth work closely and are aware that they are part of experiments. The Growth team employs community ambassadors to help us correspond quickly with those communities. We may add Spanish and Portuguese Wikipedias to the list in the coming year.

We're interested to hear community members' opinions on if these scoping choices sound good, or if any sound like they would greatly limit our learnings in Iteration 1.

Mockups and prototypes
Building on designs from our previous user tests and on the Android MVP, we are considering multiple design concepts for Iteration 1. For each of five parts of the user flow, we have two alternatives. We'll user test both to gain information from newcomers. Our user tests will take place in English and Spanish -- our team's first time testing in a non-English language. We also hope community members can consider the designs and provide their thoughts on the talk page.

 Prototypes for user testing 

The easiest way to experience what we're considering to build is through the interactive prototypes. We've built prototypes for both the "Concept A" and "Concept B" designs, and they are available in both English and Spanish. These are not actual wiki software, but rather a simulation of it. That means that no edits are actually saved, and not all the buttons and interactions work -- but the most important ones relevant to the "add an image" project do work.


 * Concept A (English)
 * Concept B (English)
 * Concept A (Spanish)
 * Concept B (Spanish)

 Mockups for user testing 

Below are static images of the mockups that we're using for user testing in August 2021. Community members are welcome to explore the Growth team designer's Figma file, which contains the mockups below in the lower right of the canvas, as well as the various pieces of inspiration and notes that led to them.

Feed

These designs refer to the very first part of the workflow, in which the user chooses an article to work on from the suggested edits feed. We want the card to be attractive, but also not confuse the user.

 Final designs for Iteration 1 

Based on the user test findings above, we created the set of designs that we are implementing for Iteration 1. The best way to explore those designs is here in the Figma file, which always contains the latest version.

Leading indicators
Whenever we deploy new features, we define a set of "leading indicators" that we will keep track of during the early stages of the experiment. These help us quickly identify if the feature is generally behaving as expected and allow us to notice if it is causing any damage to the wikis. Each leading indicator comes with a plan of action in case the defined threshold is reached, so that the team knows what to do.

We collected data on usage of "add an image" from deployment on November 29, 2021 until December 14, 2021. "Add an image" has only been made available on the mobile website, and is given to a random 50% of registrations on that platform (excluding our 20% overall control group). We therefore focus on mobile users registered after deployment. This dataset excluded known test accounts, and does not contain data from users who block event logging (e.g. through their ad blocker).

Overall: The most notable thing about the leading indicator data is how few edits have been completed so far: only 89 edits over the first two weeks. Over the first two weeks of "add a link", almost 300 edits were made. That feature was deployed to both desktop and mobile users, but that alone is not enough to make up the difference. The leading indicators below give some clues. For instance, task completion rate is notably low. We also notice that people do not do many of these tasks in a row, whereas with "add a link", users do dozens in a row. This is a prime area for future investigation.

Revert rate: We use edit tags to identify edits and reverts, and reverts have to be done within 48 hours of the edit. The latter is in line with common practices for reverts.

The "add an image" revert rate is comparable to the copyedit revert rate, and it’s significantly higher than "add a link" (using a test of proportions). Because "add an image" has a comparable revert rate to unstructured tasks, the threshold described in the leading indicator table is not met, and we do not have cause for alarm. That said, we are still looking into why reverts are occurring in order to make improvements. One issue we've noticed so far is a large number of users saving edits from outside the "add an image" workflow. They can do this by toggling to the visual editor, but it is happening so much more often than for "add a link" that we think there s something confusing about the "caption" step that is causing users to wander outside of it.

Rejection rate: We define an edit “session” as reaching the edit summary dialogue or the skip dialogue, at which point we count whether the recommended image was accepted, rejected, or skipped. Users can reach this dialogue multiple times, because we think that choosing to go back and review an image or edit the caption is a reasonable choice.

The threshold in the leading indicator table was a rejection rate of 40%, and this threshold has not been met. This means that users are rejecting suggestions at about the same rate as we expected, and we don't have reason to believe the algorithm is underperforming.

Over-acceptance rate: We reuse the concept of an "edit session" from the rejection rate analysis, and count the number of users who only have sessions where they accepted the image. In order to understand whether these users make many edits, we measure this for all users as well as for those with multiple edit sessionsfive or more edit sessions. In the table below, the "N total" column shows the total number of users with that number of edit sessions, and "N accepted all" the number of users who only have edit sessions where they accepted all suggested links.

It is clear that over-acceptance is not an issue in this dataset, because there are no users who have 5 or more completed image edits, and for those who have more than one, 38% of the users accepted all their suggestions. This is in the expected range, given that the algorithm is expected usually to make good suggestions.

Task completion rate: We define "starting a task" as having an impression of "machine suggestions mode". In other words, the user is loading the editor with an "add an image" task. Completing a task is defined as clicking to save the edit, or confirming that you skipped the suggested image.

The threshold defined in the leading indicator table is "lower than 55%", and this threshold has been met. This means we are concerned about why users do not make their way through the whole workflow, and we want to understand where they get stuck or drop out.