Jump to content

Růst/Personalizovaný první den/Strukturované úkoly/Přidávání obrázku/Ověření nápadu

From mediawiki.org
This page is a translated version of the page Growth/Personalized first day/Structured tasks/Add an image/Idea validation and the translation is 100% complete.
Outdated translations are marked like this.

Od června 2020 do července 2021 tým Growth pracoval na diskuzích komunity, průzkumu pozadí, hodnocení a ověřování konceptů kolem úkolu "přidat obrázek". To vedlo k rozhodnutí začít budovat naši první iteraci v srpnu 2021 (viz Iterace 1). Tato část obsahuje veškerou práci na pozadí vedoucí k Iteraci 1.

Algoritmus

Naše schopnost vytvořit strukturovaný úkol pro přidávání obrázků závisí na tom, zda dokážeme vytvořit algoritmus, který generuje dostatečně dobrá doporučení. Rozhodně nechceme nabádat nováčky, aby do článků přidávali špatné obrázky, což by dalo práci pochůzkářům po nich uklízet. Proto pokus zjistit, zda bychom mohli vytvořit dobrý algoritmus, je jednou z prvních věcí, na kterých jsme pracovali.

Logika

Spolupracujeme s týmem Wikimedia Research a zatím jsme testovali algoritmus, který upřednostňuje přesnost a lidský úsudek. Namísto použití jakéhokoli počítačového vidění, které může generovat neočekávané výsledky, jednoduše agreguje existující informace ve Wikidatech a čerpá ze spojení vytvořených zkušenými přispěvateli. Toto jsou tři hlavní způsoby, jak navrhuje shody s neilustrovanými články:

  • Podívejte se na položku Wikidata k článku. Pokud má obrázek (P18), vyberte tento obrázek.
  • Podívejte se na položku Wikidata k článku. Pokud má přidruženou kategorii Commons (1 $), vyberte obrázek z kategorie.
  • Podívejte se na články na stejné téma na Wikipedii v jiných jazycích. Vyberte si hlavní obrázek z těchto článků.

Algoritmus také obsahuje logiku pro vynechání obrázků, které jsou pravděpodobně použity jako ikonka nebo jako součást navigačního boxu (navbox).

Přesnost

Od srpna 2021 jsme prošli třemi koly testování algoritmu, pokaždé jsme sledovali shodu článků v šesti jazycích: angličtině, francouzštině, arabštině, vietnamštině, češtině a korejštině. Hodnocení provedli ambasadoři našeho týmu a další experti z Wikimedie, kteří jsou rodilými mluvčími testovaných jazyků.

První dvě vyhodnocení

Prošli jsme 50 náhodně navržených obrázků v každém z jazyků a návrhy jsme umístili do jedné z následujících skupin:

Klasifikace Vysvětlení Příklad
2 Výborný obrázek pro daný článek, ilustrující věc uvedenou v názvu článku. Článek je "Butterfly" a je to obrázek motýla.
1 Dobrá shoda, ale pro článek je těžké ji potvrdit, pokud uživatel nemá nějaký kontext a potřeboval by dobrý popisek. Článek se jmenuje "Motýl" a obrázek zobrazuje významného vědce zabývajícího se motýly.
0 Obrázek se do článku nehodí. Článek je "Motýl" a obrázek je automobil.
-1 Obrázek zobrazuje předmět v článku, ale není vhodný pro místní kulturu. Článek je "Motýl" a na obrázku je konkrétní motýl z části světa, který má jiné motýly než místní druh.
-2 Zavádějící obrázek, o kterém by si nováček mohl omylem myslet, že je správný. Článek se jmenuje "Motýl", ale na obrázku je můra.
-3 Stránka by neměla obsahovat obrázek. Rozcestníky, seznamy, či články "o křestních jménech".

Otázka, která probíhá celou prací na algoritmu, jako je tento, zní: Jak přesný musí být? Pokud je 75 % zápasů dobrých, stačí to? Musí to být 90% přesné? Nebo by to mohlo být tak nízké, jak 50% přesnost? To záleží na tom, jak dobrý je úsudek nováčků, kteří to používají, a jak velkou trpělivost mají na slabé zápasy. Více se o tom dozvíme, když uživatelský algoritmus otestujeme se skutečnými nováčky.

V prvním hodnocení je nejdůležitější, že jsme našli mnoho jednoduchých vylepšení algoritmu, včetně typů článků a obrázků, které je třeba vyloučit. I bez těchto vylepšení bylo asi 20-40 % shod "2“, což znamená skvělé shody pro článek (v závislosti na wiki). Kompletní výsledky a poznámky z prvního hodnocení si můžete prohlédnout zde.

Pro druhé hodnocení bylo zapracováno mnoho vylepšení a přesnost se zvýšila. Mezi 50-70% shod byly "2" (v závislosti na wiki). Zvýšení přesnosti však může snížit pokrytí, tj. počet článků, pro které můžeme vytvořit shody. Při použití konzervativních kritérií může být algoritmus schopen navrhnout pouze desítky tisíc shod v dané wiki, i když tato wiki obsahuje stovky tisíc nebo miliony článků. Domníváme se, že tento druh objemu by byl dostatečný k vytvoření počáteční verze této funkce. Kompletní výsledky a poznámky z druhého hodnocení si můžete prohlédnout zde.

Třetí vyhodnocení

V květnu 2021 provedl tým pro strukturovaná data mnohem rozsáhlejší test algoritmu pro shodu obrázků (a algoritmu MediaSearch) v arabštině, cebuánštině, angličtině, vietnamštině, bengálštině a české Wikipedii. V tomto testu bylo odborníky v každém jazyce vyhodnoceno asi 500 shod z algoritmu pro shodu obrázků a MediaSearch, kteří je mohli klasifikovat jako " dobré", "uspokojivé" nebo "špatné". Níže uvedené výsledky ukazují tyto věci:

  • Algoritmus porovnávání obrázků se pohybuje od 65 do 80 % přesnosti v závislosti na tom, zda počítáte "dobré" nebo "dobré + uspokojivé" a v závislosti na wiki/hodnotiteli. Zajímavé je, že podle našich zkušeností s vyhodnocováním shody obrázků spolu experti na wikimediány často nesouhlasí, protože každý má svá vlastní měřítka, zda obrázky patří do článků.
  • Wikidata P18 ("Wikidata") jsou nejsilnějším zdrojem shody s přesností 85 % až 95 %. Obrázky z jiných Wikipedií ("Cross-wiki") a z kategorií Commons připojených k položkám Wikidata ("kategorie Commons") jsou v podobné míře méně přesné.
  • Nejběžnějším zdrojem shody jsou obrázky z jiných Wikipedií (!napříč wikinami"). Jinými slovy, algoritmus jich má k dispozici více než zbylé dva zdroje.
Zdroj Přesnost (dobré) Přesnost (dobré+uspokojivé) Podíl na pokrytí
Wikidata 85% 93% 7%
Napříč wikinami 56% 76% 80%
Kategorie Commons 51% 76% 13%
Vše 63% 80% 100%

Kompletní datovou sadu výsledků naleznete zde.


Pokrytí

Přesnost algoritmu je jednoznačně velmi důležitou složkou. Neméně důležité je jeho "pokrytí" – to se týká kolik shod obrázků dokáže vytvořit. Přesnost a pokrytí bývají nepřímo úměrné: Čím přesnější je algoritmus, tím méně návrhů poskytne (protože návrhy dává pouze tehdy, když si je jistý). Musíme si odpovědět na tyto otázky: Je algoritmus schopen poskytnout dostatek shod, že stojí za to s ním sestavit funkci? Mohlo by to mít zásadní dopad na wiki? Podívali jsme se na 22 Wikipedií, abychom získali představu o odpovědích. Tabulka je pod těmito souhrnnými body:

  • Čísla pokrytí uvedená v tabulce se zdají být dostatečná pro první verzi funkce "přidat obrázek". Na každé wiki je dostatek shodných kandidátů, takže (a) uživatelé nevyčerpají a (b) funkce by mohla mít podstatný vliv na to, jak je wiki ilustrovaná.
  • Na jednotlivých projektech je mezi 20 % (srbská Wikipedie) a 69 % (vietnamská Wikipedie) neilustrovaných článků.
  • Najdeme mezi 7 000 (bengálština) a 155 000 (anglicky) neilustrovaných článků s kandidáty na shodu. Obecně se jedná o dostatečný objem pro první verzi úlohy, takže uživatelé mají spoustu shod. Na některých řidších wikinách, jako je bengálština, se může dostat do malého počtu, jakmile se uživatelé zúží na témata zájmu. To znamená, že bengálština má celkem jen asi 100 000 článků, takže bychom navrhovali shody pro 7 % z nich, což je podstatné.
  • Pokud jde o to, jak velké zlepšení v ilustracích bychom mohli s tímto algoritmem udělat na wiki, strop se pohybuje od 1 % (cebwiki) do 9 % (trwiki). To je celkové procento dalších článků, které by skončily s ilustracemi, pokud by byla každá shoda dobrá a byla přidána na wiki.
  • Wikiny s nejnižším procentem neilustrovaných článků, pro které můžeme najít shodu, jsou arzwiki a cebwiki, které obě mají vysoký objem článků vytvořených roboty. To dává smysl, protože mnoho z těchto článků se týká konkrétních měst nebo druhů, které by neměly obrázky v Commons. Ale protože tyto wikiny mají tolik článků, stále existují desítky tisíc, pro které má algoritmus shody.
  • Doufáme, že ve vzdálenější budoucnosti vylepšení algoritmu pro shodu obrázků nebo MediaSearch nebo pracovních postupů pro nahrávání/titulky/označování obrázků přinesou více kandidátských shod.
Wiki Celkem článků Neilustrovaných článků % neilustrovaných Mají návrh obrázku % neilustrovaných článků s návrhem
enwiki 6 199 587 2 932 613 47% 154 508 5%
trwiki 382 825 151 620 40% 35 561 23%
bnwiki 99 172 33 642 34% 6 921 21%
frwiki 2 273 610 952 994 42% 94 594 10%
ruwiki 1 680 385 584 290 35% 60 415 10%
fawiki 755 709 304 253 40% 55 382 18%
arwiki 1 080 564 581 710 54% 59 551 10%
dewiki 2 506 229 1 190 517 48% 110 771 9%
ptwiki 1 048 255 388 605 37% 79 483 20%
hewiki 282 232 73 261 26% 14 453 20%
cswiki 467 573 182 177 39% 37 300 20%
kowiki 526 990 274 338 52% 48 417 18%
plwiki 1 441 429 560 334 39% 71 456 13%
ukwiki 1 058 563 365 209 35% 51 154 14%
svwiki 3 514 965 1 686 664 48% 91 337 5%
huwiki 479 215 170 936 36% 26 559 16%
euwiki 364 458 105 412 29% 21 481 20%
hywiki 278 487 96 729 35% 13 531 14%
arzwiki 1 171 440 759 418 65% 32 956 4%
srwiki 640 678 126 102 20% 27 326 22%
viwiki 1 259 538 867 672 69% 83 785 10%
cebwiki 5 377 763 1 357 405 25% 61 839 5%

MediaSearch

Jak bylo uvedeno výše, tým Structured Data zkoumá pomocí algoritmu MediaSearch, jak zvýšit pokrytí a získat více kandidátů.

MediaSearch funguje tak, že kombinuje tradiční textové vyhledávání a strukturovaná data, aby poskytoval relevantní výsledky pro vyhledávání jazykově agnostickým způsobem. Použitím prohlášení Wikidata přidaných k obrázkům jako součást Structured Data on Commons jako vstupního hodnocení pro vyhledávání může MediaSearch využít aliasy, související koncepty a štítky ve více jazycích ke zvýšení relevance obrázku. zápasy. Další informace o tom, jak MediaSearch funguje najdete zde.

Od února 2021 tým v současné době experimentuje s tím, jak poskytnout skóre spolehlivosti pro shody MediaSearch, které může algoritmus pro doporučení obrázků použít a použít k určení, zda je shoda z MediaSearch dostatečně kvalitní pro použití v úlohách shody obrázků. Chceme se ujistit, že si uživatelé budou jisti doporučeními, která MediaSearch poskytuje, než je začlení do funkce.

Tým pro strukturovaná data také zkoumá a prototypuje způsob, jak by roboti generovaní uživateli mohli používat výsledky generované algoritmem pro doporučení obrázků a MediaSearch k automatickému přidávání obrázků do článků. Toto bude experiment na wikinách náročných na roboty ve spolupráci s komunitními autory robotů. Můžete se o tomto úsilí dozvědět více nebo vyjádřit zájem zúčastnit se na úkolu výrobce.

V květnu 2021 bylo ve stejném hodnocení uvedeném v části "Přesnost" výše zjištěno, že MediaSearch je mnohem méně přesný než algoritmus pro shodu obrázků. Tam, kde byl algoritmus pro shodu obrázků přibližně 78% přesný, shody z MediaSearch byly přibližně 38% přesné. Proto tým Growth neplánuje použít MediaSearch ve své první iteraci úlohy „přidat obrázek“.

Otázky a diskuse

Otevřené otázky

Obrázky jsou tak důležitou a viditelnou součástí prostředí Wikipedie. Je důležité, abychom důkladně přemýšleli o tom, jak by funkce umožňující snadné přidávání obrázků fungovala, jaká by mohla být potenciální úskalí a jaké by to mělo důsledky pro členy komunity. Za tímto účelem máme mnoho otevřených otázek a chceme slyšet o dalších, které mohou členové komunity přinést.

  • Bude náš algoritmus dostatečně přesný, aby poskytl dostatek dobrých návrhů?
  • Jaká metadata z Commons a neilustrovaného článku potřebují nováčci, aby se mohli rozhodnout, zda přidat obrázek?
  • Budou mít nováčci dostatečně dobrý úsudek při práci s návrhy algoritmu?
  • Budou nováčci, kteří nečtou anglicky, stejně schopni činit dobrá rozhodnutí, vzhledem k tomu, že velká část metadat Commons je v angličtině?
  • Budou nováčci schopni napsat dobré titulky, které se hodí k obrázkům, které umístí do článků?
  • Jak moc by měli nováčci posuzovat obrázky na základě jejich "kvality" a nikoli na základě jejich "významu"?
  • Bude tento úkol pro nováčky zajímavý? Bude je bavit? Bude složitý nebo naopak jednoduchý?
  • Jak přesně bychom měli určit, které články nemají žádné obrázky?
  • Kde v neilustrovaném článku má být obrázek umístěn? Stačí to dát na začátek článku?
  • Jak můžeme pamatovat na potenciální zkreslení v doporučeních, tj. možná, že algoritmus vytvoří mnohem více shod pro témata v Evropě a Severní Americe.
  • Zvýší tato funkcionalita riziko vandalismu? Jak můžeme toto riziko snížit?

Poznámky z diskusí komunity 2021-02-04

Od prosince 2020 jsme pozvali členy komunity, aby hovořili o myšlence "přidat obrázek" v pěti jazycích (angličtina, bengálština, arabština, vietnamština, čeština). Anglická diskuse se většinou odehrávala na diskusní stránce zde, konverzace v místním jazyce na dalších čtyřech Wikipediích. Slyšeli jsme od 28 členů komunity a tato část shrnuje některé z nejčastějších a nejzajímavějších myšlenek. Tyto diskuse silně ovlivňují naši další sadu návrhů.

  • Souhrn - členové komunity jsou obecně ohledně této myšlenky opatrně optimističtí. Jinými slovy, zdá se, že lidé souhlasí s tím, že by bylo užitečné používat algoritmy pro přidávání obrázků na Wikipedii, ale že existuje mnoho potenciálních úskalí a způsobů, jak se to může pokazit, zejména u nováčků.
  • Algoritmus
    • Zdá se, že členové komunity mají v algoritmus důvěru, protože čerpá pouze z představ zakódovaných do Wikidat zkušenými uživateli, spíše než z jakési nepředvídatelné umělé inteligence.
    • Ze tří zdrojů pro algoritmus (Wikidata P18, interwiki odkazy a kategorie Commons) se lidé shodli, že kategorie Commons jsou nejslabší (a že Wikidata jsou nejsilnější). To se potvrdilo v našem testování a můžeme vyloučit kategorie Commons z budoucích iterací.
    • Dostali jsme dobrou radu, jak z funkce vyloučit určité druhy stránek: jednoznačné výrazy, seznamy, roky, dobré a doporučené články. Můžeme také chtít vyloučit biografie žijících osob.
    • Měli bychom také vyloučit obrázky, které mají na Commons šablonu pro mazání a které byly již dříve odstraněny ze stránek Wikipedie.
  • Úsudek nováčků
    • Členové komunity se obecně obávali, že nováčci budou uplatňovat špatný úsudek a dát algoritmu výhodu pochybností. Z našich uživatelských testů víme, že nováčci jsou schopni používat dobrý úsudek, a věříme, že správný design to povzbudí.
    • Při diskuzi o kampani Wikipedia Pages Wanting Photos (WPWP) jsme se dozvěděli, že zatímco mnoho nováčků bylo schopno prokázat dobrý úsudek, někteří příliš horliví uživatelé mohou rychle vytvořit mnoho špatných zápasů, což hlídkujícím způsobí spoustu práce. Možná budeme chtít přidat nějaký druh ověření, abychom uživatelům zabránili přidávat obrázky příliš rychle nebo aby pokračovali v přidávání obrázků poté, co byly opakovaně vráceny.
    • Většina členů komunity potvrdila, že "relevantnost" je důležitější než "kvalita", pokud jde o to, zda obrázek patří. Jinými slovy, pokud je jediná fotografie osoby rozmazaná, je to obvykle stále lepší, než nemít žádnou fotografii. Nováčci musí být této normě při plnění tohoto úkolu učeni.
    • Naše nápověda by měla říkat, že uživatelé by vše měli řešit zvolna a být opatrní a ne se snažit udělat za každou cenu co nejvíce zásahů.
    • Měli bychom uživatele naučit, že obrázky by měly být poučné a nejen dekorativní.
  • Uživatelské rozhraní
    • Několik lidí navrhlo, abychom uživatelům místo jednoho ukázali několik kandidátů na obrázky, ze kterých si mohou vybrat. To by zvýšilo pravděpodobnost, že k článkům budou připojeny dobré obrázky.
    • Mnoho členů komunity doporučilo, abychom nováčkům umožnili vybrat si tématické oblasti zájmu (zejména zeměpisné oblasti), se kterými budou články pracovat. Pokud si nováčci vyberou oblasti, kde mají určité znalosti, mohou být schopni učinit silnější rozhodnutí. Naštěstí by to bylo automaticky součástí jakékoli funkce, kterou tým Growth vytvoří, protože uživatelům již umožňujeme vybrat si mezi 64 tematickými oblastmi při výběru navrhovaných úkolů úprav.
    • Členové komunity doporučují, aby nováčci viděli co nejvíce kontextu článku, nikoli pouze náhled. To jim pomůže pochopit závažnost úkolu a mít spoustu informací, které mohou použít při rozhodování.
  • Vložení obrázku do článku
    • Dozvěděli jsme se o infoboxech Wikidata. Dozvěděli jsme se, že pro wikiny, které je používají, je preferováno, aby se obrázky přidávaly do Wikidat namísto do článku, aby se mohly zobrazit prostřednictvím informačního pole Wikidata. V tomto duchu budeme zjišťovat, jak časté jsou tyto infoboxy na různých wikinách.
    • Obecně to zní tak, že pravidlo "umístit obrázek pod šablony a nad obsah" v článku bude fungovat většinu času.
    • Někteří členové komunity nám radili, že i když umístění v článku není dokonalé, ostatní uživatelé umístění rádi opraví, protože tvrdá práce s nalezením správného obrázku již bude hotová.
  • Neanglicky mluvící uživatelé
    • Členové komunity nám připomněli, že některé prvky metadat Commons mohou být jazykové agnostické, jako jsou titulky a zobrazující prohlášení. Podívali jsme se, jak přesně to bylo běžné v této sekci.
    • Slyšeli jsme návrh, že i když uživatelé neovládají angličtinu, možná budou moci používat metadata, pokud umí číst latinské znaky. Je to proto, že k vytvoření mnoha shod uživatel v podstatě jen hledá název článku někde v metadatech obrázku.
    • Někdo také navrhl myšlenku použití strojového překladu (např. Překladač Google) k překladu metadat do místního jazyka pro účely této funkce.
  • Popisky
    • Členové komunity (spolu s členy týmu Growth) jsou skeptičtí ke schopnosti nováčků psát dobré popisky.
    • Bylo nám doporučeno ukazovat uživatelům příklad správných popisků spolu s vodítky přizpůsobenými konkrétnímu typu článku, ve kterém by popisek měl být.

Plán uživatelského testování

Snímek obrazovky z prototypu potenciálního pracovního postupu pro porovnávání obrázků, který se používá při uživatelském testování. Uživatel se může posouvat dolů a zobrazit další metadata o obrázku z Commons.

Když přemýšlíme o otevřených otázkách výše, chceme kromě příspěvku komunity generovat nějaké kvantitativní a kvalitativní informace, které nám pomohou vyhodnotit proveditelnost vytvoření funkce "přidat obrázek". Přestože jsme algoritmus vyhodnocovali mezi zaměstnanci a wikimediány, je důležité vidět, jak na něj nováčci reagují, a vidět, jak používají svůj úsudek, když se rozhodují, zda obrázek patří do článku.

Za tímto účelem provedeme testy s usertesting.com, ve kterých mohou lidé, kteří začínají s editací Wikipedie, projít potenciální shody obrázků v prototypu a odpovědět "Ano", "Ne" nebo "Nezjištěno". Postavili jsme rychlý prototyp pro test podpořený skutečnými shodami ze současného algoritmu. Prototyp pouze ukazuje jednu shodu za druhou, vše ve zdroji. Obrázky jsou zobrazeny spolu se všemi relevantními metadaty z Commons:

  • Název souboru
  • Velikost
  • Datum
  • Uživatel
  • Popis
  • Popisek
  • Kategorie
  • Tagy

Ačkoli to nemusí být pracovní postup pro skutečné uživatele do budoucna, prototyp byl vytvořen tak, aby testeři mohli rychle projít množstvím potenciálních návrhů a generovat mnoho informací.

Chcete-li vyzkoušet interaktivní prototyp, použijte tento odkaz. Všimněte si, že tento prototyp je primárně určen pro prohlížení zápasů z algoritmu – o skutečném uživatelském zážitku jsme zatím moc nepřemýšleli. Ve skutečnosti nevytváří žádné úpravy. Obsahuje 60 skutečných shod navržených algoritmem.

Otázky, na které budeme během testování hledat odpovědi:

  1. Jsou účastníci schopni s jistotou potvrdit návrh algoritmu na základě poskytnutých informací?
  2. S jakou přesností jsou účastníci schopni vyhodnotit návrhy? Nepřeceňují (či nepodceňují) své schopnosti?
  3. Jak vnímají účastníci úkol přidávat obrázky do článků tímto způsobem? Považují to za snadné nebo těžké, zajímavé či nudné, obohacující nebo nevýznamné?
  4. Jaké informace při vyhodnocování návrhů algoritmu považují účastníci za nejcennější?
  5. Jsou účastníci schopni napsat dobré popisky pro obrázky, které považují za vhodné k vložení do daného článku?


Vývoj

Koncept A vs. B

Při přemýšlení o vývoji pro tento úkol máme podobnou otázku, jakou jsme čelili pro "přidat odkaz" s ohledem na koncept A a koncept B. V konceptu A by uživatelé dokončili úpravy u článku, zatímco v konceptu B by provedli mnoho úprav za sebou, všechny z kanálu. Koncept A poskytuje uživateli více kontextu pro článek a úpravy, zatímco koncept B upřednostňuje efektivitu.

Ve výše uvedeném interaktivním prototypu jsme použili koncept B, ve kterém uživatelé postupují prostřednictvím zdroje návrhů. Udělali jsme to, protože v našich uživatelských testech jsme chtěli vidět mnoho příkladů uživatelů interagujících s návrhy. To je druh vývoje, který by mohl nejlépe fungovat pro platformu, jako je aplikace Wikipedia pro Android. V kontextu týmu Growth uvažujeme více v souladu s konceptem A, ve kterém uživatel provádí úpravy v článku. To je směr, který jsme zvolili pro "přidat odkaz" a myslíme si, že by ze stejných důvodů mohl být vhodný pro "přidat obrázek".

Jeden versus více

Další důležitou otázkou návrhu je, zda uživateli ukázat "jeden" navrhovaný obrázek, nebo mu dát na výběr z více shodných obrázků. Když dáváte více návrhů, je větší šance, že jeden ze návrhů je dobrý. Ale také to může uživatele přimět, aby si mysleli, že by si měli vybrat jeden z nich, i když žádný z nich není dobrý. Bude také složitější navrhovat a stavět, zejména pro mobilní zařízení. Vyzkoušeli jsme tři potenciální pracovní postupy:

  • Jediný: V tomto návrhu uživatelům ukazujeme pouze jeden obrázek, ten uživatel může buď akceptovat nebo odmítnout. Pro uživatele je to jednoduché.
  • Více: Tento návrh ukazuje uživateli více potenciálních doporučení k porovnání a výběru toho nejlepšího nebo odmítnutí všech. Problémem by bylo, kdyby měl uživatel pocit, že by měl do článku přidat to nejlepší, i když to ve skutečnosti nepatří.
  • Za sebou: Tento design nabízí více shodných obrázků, ale uživatel se na ně dívá jeden po druhém, zaznamená úsudek a na konci vybere ten nejlepší, pokud uvedl, že by se mohlo shodovat více než jeden. To může uživateli pomoci zaměřit se na jeden obrázek najednou, ale na konci přidá další krok.
Jediný: V tomto návrhu uživatelům ukazujeme pouze jeden obrázek, ten uživatel může buď akceptovat nebo odmítnout.
Více: Tento vývoj ukazuje uživateli několik potenciálních shod a může je porovnat a vybrat tu nejlepší, nebo všechny odmítnout.
Za sebou: Tento design nabízí více shodných obrázků, ale uživatel se na ně dívá jeden po druhém, zaznamená úsudek a na konci vybere ten nejlepší, pokud uvedl, že by se mohlo shodovat více než jeden.

Uživatelské testy prosinec 2020

Podklady

Během prosince 2020 jsme použili web usertesting.com k provedení 15 testů mobilního interaktivního prototypu. Prototyp obsahoval pouze základní vývoj, malý kontext nebo onboarding a byl testován pouze v angličtině s uživateli, kteří měli malé nebo žádné předchozí zkušenosti s editací Wikipedie. Záměrně jsme dříve v procesu testovali základní vývoj, abychom mohli shromáždit spoustu poznatků. Primární otázky, které jsme chtěli řešit tímto testem, se týkaly proveditelnosti funkce jako celku, nikoli jemnějších bodů vývoje:

  1. Jsou účastníci schopni s jistotou potvrdit návrh algoritmu na základě poskytnutých informací?
  2. Jak přesní jsou účastníci při hodnocení návrhů? A jak se skutečná schopnost srovnává s jimi vnímanou schopností při hodnocení návrhů?
  3. Jak vnímají účastníci úkol přidávat obrázky do článků tímto způsobem? Považují to za snadné nebo těžké, zajímavé či nudné, obohacující nebo nevýznamné?
  4. Jaká metadata považují účastníci za nejcennější při vyhodnocování navržených obrázků?
  5. Jsou účastníci schopni napsat dobré popisky pro obrázky, které považují za vhodné k vložení do daného článku?

V testu jsme účastníky požádali, aby opatřili poznámkami alespoň 20 zápisů v článku s obrázky. Když klepli na ano, prototyp je požádal, aby napsali popisek, který by odpovídal obrázku v článku. Celkově jsme shromáždili 399 anotací.

Souhrn

Myslíme si, že tyto uživatelské testy potvrzují, že bychom mohli úspěšně vytvořit funkci "přidat obrázek", ale bude fungovat pouze tehdy, pokud ji správně navrhneme. Mnoho testerů úkolu dobře rozumělo, brali ho vážně a dělali dobrá rozhodnutí – to nám dává jistotu, že je to nápad, který stojí za to pokračovat. Na druhou stranu, mnoho dalších uživatelů bylo zmatených ohledně smyslu úkolu, nehodnotili ho kriticky a činili slabá rozhodnutí – ale pro tyto zmatené uživatele bylo pro nás snadné najít způsoby, jak zlepšit vývoj, aby jim vhodný kontext a vyjadřují závažnost úkolu.

Sledování

Chcete-li vidět úplný soubor zjištění, můžete si procházet snímky. Nejdůležitější body jsou napsány pod snímky.

Prezentace obsahující kompletní výsledky uživatelského testování
  • Obecné porozumění úkolu přiřazování obrázků k článkům Wikipedie bylo poměrně dobré, vzhledem k minimálnímu kontextu poskytnutému nástroji a omezeným znalostem Commons a úprav Wikipedie. Jakmile bude nástroj přepracován v uživatelském rozhraní Wikipedie, existují příležitosti k posílení porozumění.
  • Obecný vzorec, který jsme zaznamenali, byl: Uživatel se podíval na název článku a prvních pár vět, pak se podíval na obrázek, aby zjistil, zda by se mohl věrohodně shodovat (např. toto je článek o kostele a toto je obrázek kostela) . Pak by hledali název článku někde v metadatech obrázku, buď v názvu souboru, popisu, titulku nebo kategoriích. Pokud by to našli, potvrdili by zápas.
  • Každý úkol shody obrázků by mohl rychle provést někdo, kdo není obeznámen s úpravami. Kontrola snímku trvala v průměru 34 sekund.
  • Všichni uvedli, že by měli zájem takový úkol provést, přičemž většina jej hodnotí jako snadný nebo velmi snadný.
  • Vnímaná kvalita obrázků a návrhů byla smíšená. Mnoho účastníků se zaměřilo na kompozici obrazu a další estetické faktory, které ovlivnily jejich ovlivňování myšlení.
  • Pro párování obrázků bylo rozhodujících pouze několik metadat obrázku od Commons: název souboru, popis, titulek, kategorie.
  • Mnoho účastníků by se občas nesprávně pokusilo přiřadit obrázky k jejich "vlastním" datům, spíše než k článku (např. "Zdá se tento název souboru vhodný pro obrázek?"). Měly by být prozkoumány změny rozvržení a vizuální hierarchie pro lepší zaměření na kontext článku pro navrhovaný obrázek.
  • "Řada" dobrých zápisů přiměla některé účastníky k většímu zájmu s přijetím dalších obrázků - pokud bylo hodně "Ano", přestali hodnotit zadání kriticky.
  • Uživatelé odvedli špatnou práci při přidávání titulků. Často napsali své vysvětlení, proč se shodují s obrázkem, např. "Toto je vysoce kvalitní fotka toho chlapa v článku." To je něco, o čem věříme, že lze zlepšit vývojem a vysvětlením pro uživatele.

Metriky

  • Členové našeho týmu anotovali všechny shody obrázků, které se uživatelům v testu zobrazily, a zaznamenali jsme odpovědi, které uživatelé poskytli. Tímto způsobem jsme vytvořili některé statistiky o tom, jak dobrou práci uživatelé odvedli.
  • Z 399 návrhů, se kterými se uživatelé setkali, klikli na "Ano" 192krát (48 %).
  • 33 z nich nebyly dobré shody a mohly by být vráceny, pokud by byly přidány do článků ve skutečnosti. To je 17 % a říkáme tomu "pravděpodobná návratnost".

Nabídky

  • "Pravděpodobná míra návratu" ve výši 17 % je opravdu důležité číslo a my chceme, aby bylo co nejnižší. Na jedné straně je toto číslo blízké nebo "nižší" než průměrná míra vracení nových úprav na Wikipedii (angličtina je 36 %, arabština 26 %, francouzština 22 %, vietnamština 11 %). Na druhou stranu mají obrázky větší dopad a větší viditelnost než malé změny nebo slova v článku. Vezmeme-li v úvahu druhy změn, které bychom provedli v pracovním postupu, který jsme testovali (který byl optimalizován pro objem, nikoli kvalitu), domníváme se, že by se tato míra návratnosti výrazně snížila.
  • Myslíme si, že tento úkol by fungoval mnohem lépe v pracovním postupu, který uživatele zavede na celý článek, než aby mu ve zdroji rychle ukazoval jeden návrh za druhým. Když je vezmete na celý článek, uživatel uvidí mnohem více kontextu, aby se mohl rozhodnout, zda se obrázek shoduje, a zjistit, kam by se v článku dostal. Myslíme si, že by absorbovali důležitost úkolu: Že ve skutečnosti přidají obrázek do článku na Wikipedii. Spíše než na rychlost si myslíme, že uživatel by byl při přidávání obrázků opatrnější. Toto je stejné rozhodnutí, ke kterému jsme dospěli pro "přidat odkaz", když jsme se rozhodli vytvořit pracovní postup "Koncept A".
  • Také si myslíme, že výsledky se zlepší díky onboardingu, vysvětlení a příkladům. To platí zejména pro titulky. Myslíme si, že když uživatelům ukážeme příklady dobrých titulků, uvědomí si, jak je správně napsat. Mohli bychom je také vyzvat, aby jako výchozí bod použili popis nebo titulek Commons.
  • Náš tým v poslední době diskutuje o tom, zda by nebylo lepší přijmout rámec "rozhodování o spolupráci", ve kterém by obrázek nebyl přidán do článku, dokud to nepotvrdí dva uživatelé, spíše než jen jeden. To by zvýšilo přesnost, ale vyvolává otázky ohledně toho, zda je takový pracovní postup v souladu s hodnotami Wikipedie a který uživatel získá uznání za úpravu.


Metadata

Uživatelské testy nám ukázaly, že metadata obrázků z Commons (např. název souboru, popis, titulek atd.) jsou pro uživatele kritická, aby s jistotou vytvořil shodu. Například, ačkoli uživatel vidí, že článek je o kostele a že fotografie je kostel, metadata mu umožnila zjistit, zda se jedná o ten kostel, o kterém se v článku mluví. V uživatelských testech jsme viděli, že nejdůležitější byly tyto položky metadat: název souboru, popis, popisek, kategorie. Položky, které nebyly užitečné, zahrnovaly velikost, datum nahrání a uživatelské jméno nahrání.

Vzhledem k tomu, že metadata jsou kritickou součástí silného rozhodnutí, přemýšleli jsme o tom, zda uživatelé budou muset mít metadata ve svém vlastním jazyce, aby mohli tento úkol provést, zejména s ohledem na skutečnost, že většina metadat Commons je v angličtině. U 22 wikin jsme se podívali na procento shod obrázků z algoritmu, které mají prvky metadat v místním jazyce. Jinými slovy, kolik z obrázků, které lze přiřadit k neilustrovaným článkům v arabské Wikipedii, má arabské popisy, popisky a vyobrazení? Tabulka je pod těmito souhrnnými body:

  • Všeobecně řečeno, metadata nebývají přeložena do místních jazyků. Výjimkou je angličtina.
  • U všech wikin kromě angličtiny má popis místního jazyka méně než 7 % návrhů obrázků (angličtina je na 52 %).
  • U všech wikin kromě angličtiny má méně než 0,5 % návrhů obrázků místní popisy v angličtině (angličtina je 3,6 %).
  • U článků s obrázkem se wikiny pohybují mezi 3 % (srbské) a 10 % (švédské) popisy obrázků.
  • Nízké pokrytí popisů a titulků v místním jazyce znamená, že na většině wikin existuje jen velmi málo obrázků, které bychom mohli navrhnout uživatelům s metadaty v místním jazyce. Některé z větších wikin mají několik tisíc kandidátů s popisy v místním jazyce. Žádná neanglická wiki však nemá více než 1 000 kandidátů s titulky v místním jazyce.
  • I když je pokrytí vyobrazení vyšší, očekáváme, že prohlášení s vyobrazením obvykle neobsahují dostatečné podrobnosti, aby se dosáhlo pozitivní shody. Například, vyobrazující prohlášení aplikované na fotografii kostela sv. Pavla v Chicagu je mnohem pravděpodobnější jako „kostel“ než "sv. Paul’s Church v Chicagu".
  • Možná budeme muset upřednostňovat takové návrhy, ke kterým existují místní metadata. Dokud ale nebudou existovat funkce, které zvýší pokrytí souborů metadaty v místních jazycích, spoléhání se na přeložená metadata není pro neanglické projekty vhodná cesta.
Wiki Popis v místním jazyce Popisek v místním jazyce Zobrazuje
enwiki 51.71% 3.65% 6.20%
trwiki 1.91% 1.32% 4.33%
bnwiki 0.51% 1.08% 5.74%
frwiki 5.95% 0.66% 8.52%
ruwiki 4.05% 0.61% 6.73%
fawiki 0.58% 0.59% 4.06%
arwiki 0.97% 0.59% 7.00%
dewiki 6.11% 0.49% 5.16%
ptwiki 1.38% 0.34% 4.27%
hewiki 1.20% 0.30% 6.18%
cswiki 1.82% 0.23% 5.71%
kowiki 0.97% 0.19% 4.80%
plwiki 1.82% 0.17% 5.93%
ukwiki 1.04% 0.12% 5.95%
svwiki 0.90% 0.07% 10.10%
huwiki 2.28% 0.03% 5.96%
euwiki 0.27% 0.03% 6.20%
hywiki 0.69% 0.03% 5.39%
arzwiki 0.02% 0.01% 6.84%
srwiki 0.36% 0.01% 3.46%
viwiki 0.08% 0.00% 6.63%
cebwiki 0.00% 0.00% 9.93%

Vzhledem k tomu, že metadata v místním jazyce mají nízké pokrytí, je naší současnou myšlenkou nabídnout úlohu porovnávání obrázků pouze těm uživatelům, kteří umí číst anglicky, což bychom mohli uživateli položit jako rychlou otázku před zahájením úlohy. To bohužel omezuje počet uživatelů, kteří se mohou zúčastnit. Je to podobná situace jako u Nástrojů pro překlad obsahu, protože uživatelé potřebují znát jazyk zdrojové wiki a cílové wiki, aby mohli přesouvat obsah z jedné wiki do druhé. Také věříme, že bude dostatečný počet těchto uživatelů na základě výsledků uvítacího průzkumu týmu Growth, který se nováčků ptá, jaké jazyky znají. V závislosti na wiki si 20 % až 50 % nově příchozích vybere angličtinu.

Android MVP

Podrobnosti o Android MVP najdete na této stránce.

Pozadí

Po spoustě komunitních diskusí, mnoha interních diskusích a výsledcích uživatelských testů shora věříme, že tato myšlenka "přidat obrázek" má dostatečný potenciál k pokračování. Členové komunity byli vesměs pozitivní, ale také varující – víme také, že stále existuje mnoho obav a důvodů, proč tento nápad nemusí fungovat podle očekávání. Dalším krokem, který chceme udělat, abychom se dozvěděli více, je vytvořit "minimální životaschopný produkt" (MVP) pro aplikaci Wikipedia pro Android. Nejdůležitější na tomto MVP je, že neuloží žádné úpravy na Wikipedii. Spíše bude sloužit pouze ke shromažďování dat, zlepšování našeho algoritmu a zlepšování našeho návrhu.

Aplikace pro Android je místem, kde editační tipy začaly a tým starající se o tuto aplikaci má strukturu, která jim umožňuje snadno přidávat další druhy editačních tipů. Toto jsou nejdůležitější informace:

  • Aplikace bude mít nový typ úkolu, o kterém uživatelé vědí, že nám pomůže pouze vylepšit naše algoritmy a návrhy.
  • Zobrazí uživatelům shodu obrázků a vyberou "Ano", "Ne" nebo "Přeskočit".
  • Údaje o jejich výběru zaznamenáme, abychom vylepšili algoritmus, určíme, jak zlepšit rozhraní, a přemýšlíme o tom, co by mohlo být vhodné pro tým Growth vytvořit pro webovou platformu později.
  • Na Wikipedii nedojde k žádným úpravám, takže jde o projekt s velmi nízkým rizikem.

Výsledky

Tým pro Android vydal aplikaci v květnu 2021 a během několika týdnů tisíce uživatelů vyhodnotily desítky tisíc shod obrázků z algoritmu porovnávání obrázků. Výsledná data umožnila týmu Growth rozhodnout se pokračovat v iteraci 1 úkolu "přidat obrázek". Při pohledu na data jsme se snažili odpovědět na dvě důležité otázky týkající se "Zapojení" a "Účinnosti".

Zapojení: Líbí se uživatelům všech jazyků tento úkol a chtějí ho dělat?

  • Každý uživatel v Android MVP v průměru udělal asi 11 anotací. I když je to méně než u popisů obrázků a překladů popisů, je to větší než u ostatních čtyř druhů úloh systému Android.
  • Úpravy shody obrázků vykazovaly podstatně nižší míru zachování než jiné druhy úprav navrhovaných systémem Android, existují však obavy, že není možné vypočítat srovnání jablek s jablky. Dále si myslíme, že skutečnost, že úpravy z tohoto MVP ve skutečnosti nemění wikiny, by vedla k nižšímu udržení, protože uživatelé by byli méně motivováni se vracet a dělat více.
  • Pokud jde o jazyk, data byla shromážděna pro uživatele v anglické Wikipedii i od uživatelů, kteří používají výhradně neanglickou Wikipedii, včetně velkého počtu hodnocení z německé, turecké, francouzské, portugalské a španělské Wikipedie. Očekávali jsme, že angličtí a neangličtí uživatelé budou mít zcela odlišné zkušenosti, protože většina metadat na obrázcích v Commons je v angličtině. Ale metriky byly v obou skupinách pozoruhodně podobné, včetně počtu dokončených úkolů, času stráveného na úkolu, udržení a úsudku. To je dobrým znamením pro to, aby byl tento úkol použitelný napříč wikinami, ačkoli je pravděpodobné, že mnoho neanglických uživatelů Androidu je ve skutečnosti dvojjazyčných.

Účinnost: Budou výsledné úpravy dostatečně kvalitní?

  • 80 % zápasů, u kterých nováčci řekli "ano", jsou podle odborníků ve skutečnosti dobré návrhy. To je zlepšení asi o 5 procentních bodů oproti samotnému algoritmu.
  • Toto číslo se zvedne na 82-83 %, když odebereme nováčky, kteří posuzováním obrázku stráví minimum času.
  • Experti se spolu shodnou pouze v 85 % případů.
  • Protože přesnost nově příchozích stoupá, když jsou odstraněny určité druhy nově příchozích (ti, kteří hodnotí příliš rychle nebo přijímají příliš mnoho návrhů), domníváme se, že automatizované "brány kvality" by mohly zvýšit výkon nováčků na úroveň přijatelnou komunitami.

Podívejte se na kompletní výsledky zde.

Řízení

Tato část obsahuje odkazy, jak postupovat, spolu s technickými aspekty tohoto projektu: