Growth/Personalized first day/Structured tasks/Add an image/cs

Tato stránka popisuje práci týmu Growth na jedné z strukturovaných editaci: "přidání obrázku", která bude nováčkům nabízena skrz jejich Domovskou stránku. Android tým rovněž přemýšlí o podobném úkolu, který by implementovali do aplikace Wikipedie pro Android, založené na stejných komponentech. Informace uvedené na této stránce jsou důležité pro oba dva týmy.

Tato stránka obsahuje nejdůležitější informace, otevřené otázky a rozhodnutí.

Více novinek týkající se práce týmu Growth najdete na všeobecné stránce s aktualizacemi. Závažné a větší aktuality budou pak vloženy i sem.

Současný stav

 * 2020-06-22: přemýšlení o nápadech, jak by mohl fungovat algoritmus pro doporučování obrázků
 * 2020-09-08: vyhodnocení první verze algoritmu na anglické, francouzské, arabské, korejské, české a vietnamské Wikipedii
 * 2020-09-30: vyhodnocení druhé verze algoritmu na anglické, francouzské, arabské, korejské, české a vietnamské Wikipedii
 * 2020-10-26: interní diskuse mezi softwarovými inženýry ohledně možné realizace služby pro doporučování obrázků
 * 2020-12-15: první série uživatelského testování, abychom pochopili, zda by nováčci tento typ úkolu ocenili

Shrnutí
Strukturované úkoly mají rozdělit existující editační činnosti do jednoduchého vícekrokového workflow, který by nováčkům dával smysl, a bylo ho možné použít na mobilních zařízeních. Tým Growth věří v to, že zavedení těchto nových editačních workflow umožní více lidem zapojit se do tvorby Wikipedie. Někteří z těchto lidí se postupně naučí jak na složitější editace, a více se zapojí do komunitního života. Poté, co jsme prodiskutovali strukturované editace s komunitou, rozhodli jsme se vytvořit první strukturovanou editaci: přidání odkazu.

Even as we build that first task, we have been thinking about what a next structured task could be, and we think that adding images could be a good fit for newcomers. The idea is that a simple algorithm would recommend images from Commons to be placed on articles that have no images. To start with, it would use only existing connections that can be found in Wikidata, and newcomers would use their judgment to place the image on the article or not.

Víme, že kolem této funkcionality existuje mnoho otevřených otázek, a mnoho možných příčin, proč by její zavedení nemuselo dobře dopadnout. Proto doufáme, že se do diskuse zapojí mnoho členů komunity, a poradí nám, jak tuto funkci nejlépe implementovat.

Proč zrovna obrázky?
Hledáme podstatné příspěvky

Když jsme poprvé diskutovali strukturované editace s komunitou, mnoho členů komunity zmínilo, že přidání wikiodkazů není zrovna ceněná činnost. Členové komunity zmínili několik možností, jak by nováčci mohli ukládat editace s větším dopadem, než přidání odkazů. Jedním z těchto nápadů bylo přidání obrázků. Wikimedia Commons obsahuje přes 65 milionů obrázků, ale v mnoha jazykových verzích Wikipedie nemá polovina článků žádný obrázek. Věříme, že mnoho obrázků z Commons by mohlo pomoci článkům na Wikipedii k větší proilustrovanosti.

Zájem ze strany nováčků

Víme, že mnoho nováčků chce obrázky do Wikipedie přidat. Odpověď „abych přidal obrázky“ je jednou z častých odpovědí na otázku „Proč si vytváříte účet“ v uvítacím dotazníku. Je to také jedna z častých otázek v panelu Potřebuji pomoc, a to na všech projektech. Ačkoli většina nováčků pravděpodobně chce přidat vlastní obázky, tato fakta ukazují na to, že obrázky nováčky zajímají. Dává nám to smysl, jelikož na obrázcích jsou založené i další internetové projekty, které nováčci mohou znát – například Instagram či Facebook.

Práce s obrázky je obtížná

Mnoho otázek na stránce Potřebuji pomoc se týkají právě přidávání obrázků a obtížnosti tohoto procesu. Pro nováčky je obtížné pochopit rozdíl mezi Wikipedií a Commons, pravidly ohledně autorských práv, a poměrně složitý postup, který je nutné následovat, aby obrázek do článku vložit. Nalezení vhodného obrázku na Commons navíc vyžaduje ještě více dovedností, například znalosti ohledně Wikidat či kategorií.

Úspěch kampaně "Wikipedia Pages Wanting Photos"

The Wikipedia Pages Wanting Photos campaign (WPWP) was a surprising success: 600 users added images to 85,000 pages. They did this with the assistance of a couple of community tools that identified pages that have no images, and which suggest possible images through Wikidata. This gives us confidence that users can be enthusiastic about adding images and that they can be assisted by tools.

Když vše dohromady uvážíme...

Thinking about all this information together, we think that it could be possible to build an "add an image" structured task that is both fun for newcomers and productive for Wikipedias.

Algoritmus
Our ability to make a structured task for adding images depends on whether we can create an algorithm that generates sufficiently good recommendations. We definitely do not want to urge newcomers to add the wrong images to articles, which would cause work for patrollers to clean up after them. Therefore, trying to see if we could make a good algorithm is one of the first things we've worked on.

Logika
Na algoritmu jsme pracovali ve spolupráci s výzkumným týmem Wikimedia. Náš algoritmus by měl být co nejpřesnější, a upřednostňovat předchozí rozhodnutí člověka. Namísto využívání technologie počítačového vidění, což může vyústit v nečekané výsledky, by algoritmus měl agregovat existující informace např. z Wikidat, a využívat data uložená zkušenými wikipedisty. Algoritmus využívá tři způsoby, jak doporučit obrázky k neilustrovaným článkům:


 * Podívej se na Wikidata položku k danému článku. Pokud je v ní nějaký obrázek (P18), použij ten.
 * Podívej se na Wikidata položku pro daný článek. Pokud je k ní přiřazená kategorie na Commons (P373), vyber některý z obrázků v této kategorii.
 * Podívej se na ten samý článek v jiných jazykových verzích Wikipedie. Vyber obrázek z některého z těchto článků.

Algoritmus také obsahuje logiku pro vynechání obrázků, které jsou pravděpodobně použity jako ikonka, nebo jako součást navboxu.

Výkon algoritmu
K prosinci 2020 máme za sebou dvě kola vyhodnocování algoritmu, pokaždé jsme jeho funkčnost vyhodnocovali v šesti jazycích: angličtině, francozuštině, arabštině, vietnamštině, češtině a korejštině. Vyhodnocení algoritmu provedli ambasadoři našeho týmu, kteří jsou rodilými mluvčími každého z těchto jazyků. Vyhodnocení proběhlo na padesáti náhodně vybraných článcích, ke kterým algoritmus nalezl nějaký obrázek. Tyto doporučené obrázky jsme ručně prošli, a zařadili do jedné z následujících skupin

Během práce na algoritmu jsme se sami sebe ptali: jak přesný algoritmus musí být? Stačí 75% přesnost? Nebo musí být přesnost 90%? Anebo může být přesnost dokonce jen 50%? Správná odpověď závisí na úsudku nováčků a jejich trpělivosti s nekvalitními tipy. Více informací se dozvíme při uživatelském testování, kde pracujeme s reálnými nováčky.

In the first evaluation, the most important thing is that we found a lot of easy improvements to make to the algorithm, including types of articles and images to exclude. Even without those improvements, about 20-40% of matches were "2s", meaning great matches for the article (depending on the wiki). You can see the full results and notes from the first evaluation here.

For the second evaluation, many improvements were incorporated, and the accuracy increased. Between 50-70% of matches were "2s" (depending on the wiki). But increasing the accuracy can decrease the coverage, i.e. the number of articles for which we can make matches. Using conservative criteria, the algorithm may only be able to suggest tens of thousands of matches in a given wiki, even if that wikis has hundreds of thousands or millions of articles. We believe that that kind of volume would be sufficient to build an initial version of this feature. You can see the full results and notes from the second evaluation here.

We are continuing to make improvements to the algorithm, and in December 2020, we are trying a third evaluation, which you can follow along with here.

Otevřené otázky
Obázky jsou důležitou a viditelnou součástí Wikipedie. Je důležité, abychom funkci umožňující snadné přidávání obrázků do detailu promysleli, včetně možného dopadu na členy komunity. K tomu potřebujeme znát odpovědi na následující otevřené otázky. Zajímá nás také cokoli dalšího, co na toto téma napadne členy komunity.


 * Bude náš algoritmus dostatečně přesný, aby poskytl dostatek dobrých tipů?
 * Jaké metadata o obrázku či ilustrovaném článku nováček potřebuje, aby mohl udělat kvalifikované rozhodnutí o tom, zda je obrázek pro daný článek vhodný?
 * Budou nováčci mít dostatečně dobrý úsudek při práci s tipy vygenerovanými algoritmem?
 * Budou s algoritmem moci pracovat i nováčci, kteří neumí anglicky, jelikož většina metadat na Commons je v angličtině?
 * Budou nováčci schopní napsat dostatečně kvalitní popisek k obrázkům, které do článku vkládají?
 * Bude tento úkol pro nováčky zajímavý? Bude je bavit? Bude složitý, nebo naopak jednoduchý?
 * How exactly should we determine which articles have no images?
 * Where in the unillustrated article should the image be placed? Is it sufficient to put it at the top of the article?
 * How can we be mindful of potential bias in the recommendations, i.e. perhaps the algorithm will make many more matches for topics in Europe and North America.
 * Will such a workflow be a vector for vandalism? How can this be prevented?

Ověřování myšlenky


Thinking about the open questions above, in addition to community input, we want to generate some quantitative and qualitative information to help us evaluate the feasibility of building an "add an image" feature. Though we have been evaluating the algorithm amongst staff and Wikimedians, it is important to see how newcomers react to it, and to see how they use their judgment when deciding on whether an image belongs in an article.

To that end, we are going to run tests with usertesting.com, in which people new to Wikipedia editing can go through potential image matches in a prototype and respond "Yes", "No", or "Unsure". We built a quick prototype for the test, backed with real matches from the current algorithm. The prototype just shows one match after another, all in a feed. The images are shown along with all the relevant metadata from Commons:


 * Název souboru
 * Velikost souboru
 * Datum nahrání
 * Uživatel
 * Description
 * Caption
 * Categories
 * Tags

Though this may not be what the workflow would be like for real users in the future, the prototype was made so that testers could go through lots of potential matches quickly, generating lots of information.

To try out the interactive prototype, use this link. Note that this prototype is primarily for viewing the matches from the algorithm -- we have not yet thought hard about the actual user experience. It does not actually create any edits. It contains 60 real matches proposed by the algorithm.

Here's what we'll be looking for in the test:


 * 1) Are participants able to confidently confirm matches based on the suggestions and data provided?
 * 2) How accurate are participants at evaluating suggestions? Do they think they are doing a better or worse job than they are actually doing?
 * 3) How do participants feel about the task of adding images to articles this way? Do they find it easy/hard, interesting/boring, rewarding/irrelevant?
 * 4) What information do participants find most valuable in helping them evaluate image and article matches?
 * 5) Are participants able to write good captions for images they deem a match using the data provided?