Growth/Analytics updates/Welcome survey initial report/cs

Jako součást projektu týmu Growth Personalized first day jsme 19. listopadu 2018 něco málo po dvacáté hodině nasadili uvítací dotazník na českou a korejskou Wikipedii. Účelem tohoto dotazníku je získání nějakých informací o nováčcích, abychom jim mohli personalizoat jejich zážitek na wiki a mohli jim usnadnit dosáhnout jejich cílů. Před zobrazením jsme publikovali Personalized first day experiment plan|plán experimentu, ve kterém jsme detailně popsali, co budeme měřit a proč. Tato stránka je prvotním reportem výsledků dotazníku. Publikujeme i více detailní analýzu, která zodpovídá na mnohé otázky z plánu experimentu.

In this report, we give a quick overview of the survey and its responses based on accounts registered between deployment and end of day (UTC) on December 17, 2018. We have calculated neither confidence intervals nor statistical significance of these results, and are not making claims about there being significant differences (e.g. between the two Wikipedias, or between groups of users). We have also not yet crosstabbed survey questions against each other or analyzed them alongside the EditorJourney data. Instead, we present these as preliminary findings and discuss some potential steps these findings might suggest, and will be doing a more thorough analysis in the upcoming quarter.

Nejdůležitější poznatky

 * Většina nováčků na dotazník odpovídá, návratnos dotazníku je 67 % a 62 % na české, respektive korejské Wikipedii.
 * Nedomníváme se, že dotazník zapříčiňuje odchod některých nováčků.
 * Nejčastějším důvodem, proč si korejští nováčci zakládají účet, je čtení článků - ne editování (29 %). V české Wikipedii tuto odpověď zvolilo 18 % lidí. Tento vysoký počet může znamenat příležitost sdělit těmto lidem, že je možné a snadné Wikipedii editovat.
 * Většina respondentů v obou jazycích nikdy Wikipedii needitovala (51 % českých a 63 % korejských). Tato čísla ale také znamenají, že velká část nováčků již v minulosti editovala (ať už anonymně nebo s jiným účtem), a mají tedy určité znalosti o tom, jak Wikipedie funguje.
 * Korejští respondenti vyplňovali vlastní témata namísto používání jen těch předvyplněných častěji, než čeští. 28 % korejských respondentů přidalo vlastní témata, a jen 9 % českých.
 * Překvapivě velký počet lidí uvítá, když jsou kontaktováni s nabídkou pomoci - 36 % českých a 53 % korejských. Tohle je silné potvrzení toho, že existuje prostor pro lidskou nápovědu.
 * Několik lidí z těch, co nepřidalo svou e-mailovou adresu v registračním procesu, přidalo svou e-mailovou adresu uvnitř uvítacího dotazníku. Tato čísla jsou dosatečně velká, aby prokázala svůj potenciál (6 % korejských a 7 % českých), ale dostatečně malá, abychom zvažovali lepší způsob, jak nováčky přesvědčit ke sdělení své e-mailové adresy.

Pozadí
Původní motivací pro tento dotazník bylo sesbírat data o uživatelích, abychom jim mohli personalizovat jejich zážitek. O našich myšlenkách, jak tyto data využít si můžete přečíst více zde.

Během čtyř týdnů po nasazení byl dotazník zobrazen náhodně vybrané půlce nově vytvořených účtů (to znamená, že dotazník nebyl zobrazen uživatelům, kteří již účet měli jinde, tzv. "automaticky vytvořené účty"). Toto A/B testování mezi dotazníkovou a kontrolní skupinou bylo implementováno, abychom mohli zjistit, zda dotazník vede k nižšímu počtu nováčků, kteří udělají svou první editaci do 24 hodin od vytvoření účtu (což nazýváme "aktivací nováčka"). Analýza výsledků tohoto experimentu bude teprve vytvořena.

Jak dotazník vypadá si můžete nejrychleji zobrazit v našem grafickém návrhu. Dotazník je zobrazen v češtině, resp. v korejštině.

Počet odpovědí
Na české Wikipedii jsme dotazník ukázali 669 uživatelům, a na korejské 836. V okamžiku, kdy uživatel uvidí dotazník, dostane několik otázek ke zodpovězení. Všechny otázky jsou nepovinné. Poté mohou odeslat dotazník kliknutím na tlačítko "Dokončit" (i když neodpověděli na žádnou otázku), zahodit své odpovědi kliknutím na tlačítko "Přeskočit dotazník" nebo udělat něco jiného, co způsobí odejití ze stránky s dotazníkem (např. kliknutí na odkaz v levém navigačním menu nebo zavření záložky v prohlížeči). To nazýváme "zrušením dotazníku". Rozložení těchto akcí pro posuzované wiki je následující: Tabulka 1 ukazuje, že většina uživatelů dotazník vyplní, což je skvělé! Jak uvidíme níže, uživatelé také na naše otázky odpovídají (namísto toho, aby odeslali dotazník bez odpovědí). Procento uživatelů nedokončující dotazník vypadá, že je vcelku vysoké. Nejprve jsme si mysleli, že to znamená, že dotazník způsobuje, že nováčci Wikipedii zcela opouští, což by bylo kontraproduktivní. Abychom tuto obavu vyřešili, podívali jsme se na data, která náš tým nasbíral v rámci projektu Porozumění prvnímu dnu, který zaznamenává stránky navštívené nováčci v průběhu jejich prvních 24 hodin na Wikipedii. Zjistili jsme, že jen malé procento uživatelů zcela opouští Wikipedii - v češtině jde o pouhých 47 uživatelů (7,0 %), a v korejštině o 99 uživatelů (11,8 %). Obě dvě čísla jsou nižší než práh, který jsme nastavili pro možné změny dotazníku nebo dokonce jeho vyputí. Tato otázka bude odpovězena přesněji, jakmile zanalyzujeme data pro kontrolní skupinu.

Je také možné rozdělit data podle toho, zda byl účet vytvořen na počítači nebo z mobilu, ale zjistili jsme, že v obou dvou případech jsou procenta prakticky stejná

Proč jste si dnes vytvořili účet?
Proč jste si dnes vytvořili účet?


 * Abych opravil(a) chybu v článku na Wikipedii
 * Abych přidal(a) informace do článku na Wikipedii
 * Abych do Wikipedie přidal(a) další článek
 * Abych si mohl(a) Wikipedii číst
 * Jiné (prosím popište)

Naše první otázka se ptá na důvod, proč si uživatel vytvořil účet, a nabízí několik odpovědí, stejně jako možnost "Jiné", která uživateli nabídne textové pole pro bližší vysvětlení. Pro naše dvě cílové Wikipedie platí následující výsledky: První věcí, které si můžete všimnout, asi je, že nejčastěji volená možnost se liší v závislosti na jazykové verzi. Čeští nováčci nejčastěji volí vytvoření nového článku (32,6 %), zatímco pro korejské nováčky je to čtení (28,8 %). V obou dvou jazycích je druhá možnost třetí položkou na seznamu nejčastějších - čtení bylo zvoleno 17,5 % českých respondentů a tvorba nového článku 19,7 % korejských nováčků. Je zajímavé zjistit, že nováčci si často vytvářejí uživatelský účet proto, aby mohli Wikipedii číst - jelikož držení účtu nic na čtení nemění. Toto nám může ukazovat, že nováčci nechápou, proč si na Wikipedii mohou vytvořit uživatelský účet, a také to může být příležitost zaktivizovat uživatele jak jako čtenáře, tak i potenciální autory.

Přidání informace do článku je konzistěntně druhou volenou možností (se srovnatelným množstvím nováčků volících tuto možnost - asi 25 %), a to v obou dvou jazycích. To samé platí o opravování chyby v článcích, což je konzistentně čtvrtou položkou na seznamu s asi 17 % nováčků volících tuto možnost.

Editovali jste již Wikipedii?
Editovali jste někdy Wikipedii?


 * Ano, mockrát
 * Ano, jednou či dvakrát
 * Ne, nevěděl jsem, že to jde
 * Ne, jiné důvody
 * Nepamatuji si

Druhá otázka se ptá na to, zda uživatel někdy Wikipedii editoval, a obsahuje pět možných odpovědí. Někteří respondenti také dotazník potvrzují bez odpovídání na tuto otázku. Tabulka 3 obsahuje přehled odpovědí. Procenta jsou opět založená na celkovém počtu odpovědí. Zjistili jsme, že v obou dvou jazycích je "Ne, nevěděl jsem, že mohu Wikipedii editovat" nejčastější odpovědí, a že většina uživatelů nikdy Wikipedii needitovala (sečtené dvě odpovědi "Ne": čeština 50,5 %, korejština 63,2 %). Vzhledem k tomu, že odpověď "Ne, nevěděl jsem, že mohu Wikipedii editovat" je tak populární dává smysl, že většina nováčků si vytváří účet za účelem čtení. I tak nás ale překvapuje, že jsou tato čísla tak vysoká. Jedna hypotéza je, že tato otázka znamená pro různé respondenty různé věci. Jedna z možných interpretací je, že "Ne, nevěděl jsem, že mohu editovat Wikipedii do doby, než jsem narazil na tento dotazník" a druhá interpretace je "Ne, nevěděl jsem, že mohu Wikipedii editovat až do nedávné doby a jakmile jsem se to dozvěděl, rozhodl jsem se vytvořit tento účet". O tomhle se dozvíme něco více, jakmile zanalyzujeme data více do hloubky a v kontextu s ostatními odpovědmi. Poté se můžeme rozhodnout refrázovat některé otázky.

Je také vhodné zmínit, že pořadí odpovědí je v obou jazycích stejné, a že je rozdílné od pořadí, v jakém jsou odpovědi uživatelům zobrazeny. To znamená, že nováčci prostě nevyberou první možnost ze seznamu, ale namísto toho nám aktivně sdělují, že nikdy Wikipedii needitovali.

Vyberte témata, které byste rádi editovali
''Lidé mohou editovat články na Wikipedii týkající se témat, o která se zajímají. Níže se nachází seznam populárních témat. Vyberte témata, která byste mohli editovat:''

Výslovně vloženo jako zaškrtávající políčka: Umění, Věda, Geografie, Historie, Hudba, Sport, Literatura, Náboženství, Populární kultura.

Available in a typeahead dropdown menu: Entertainment, Food and drink, Biography, Military, Economics, Technology, Film, Philosophy, Business, Politics, Government, Engineering, Crafts and hobbies, Games, Health, Social science, Transportation, Education.

The third part of the survey asks the respondents to select some topics that they may wish to edit. Nine topics are shown as checkboxes, and another eighteen topics show up when the user clicks on or types in the field. The field is free-form, allowing respondents to add additional topic. Respondents may choose and add as many topics as they like.

Tato analýza pokrývá pouze námi poskytnutá témata. Další analýza se bude věnovat tématům poskytnutým uživateli, jelikož to vyžaduje překlad těchto tématů. Níže vám ukážeme jednu tabulku pro každý jazyk. Tabulka uvádí způsob, jak uživatel toto téma může vybrat buď jako "zaškrtávající políčko", což znamená, že je součástí jednoho z devíti zaškrtávacích políček, "předvyplněné", což znamená, že jde o jedno z osmnácti předvyplněných témat k dispozici v políčku pro volný text nebo "jiné", což znamená, že jde o téma přidané respondentem.

We can see that the dominating topics are all the ones listed in the checkboxes. The least frequent checkbox is selected by 20.8% of respondents, while the most frequent topic in the free-form field is only chosen by 3.5% of respondents. It is noteworthy that respondents are selecting multiple topics, as opposed to just one.

Spatřili jsme obdobný trend v korejštině jako v češtině: zaškrtávací políčka jsou více populární, ačkoliv rozdíl mezi nejméně populárním zaškrtávacím políčkem a nejvíce populárním předvyplněným tématem je menší (11,0 %) v korejštině než v češtině (17,3 %).

Chtěli byste být kontaktováni s nabídkou pomoci s editováním?
''Uvažujeme o spuštění projektu, který by umožnil propojit zkušené wikipedisty s nováčky. Chcete, aby vás v takovém případě zkušený wikipedista kontaktoval a pomohl vám s editováním?''

Zjistii jsme, že v obou jazycích by nabídku pomoci s editováním ocenilo překvapivě velké množství nováčků. Jde o 164 uživatelů v češtině (36,4 % ze všech respondentů) a 273 uživatelů v korejštině (52,7 %). To znamená, že velké množství nováčků by ocenilo pomoc s editováním, což je prostor pro intervenci komunity. Jakmile se do dat z dotazníku více ponoříme, porovnáme odpovědí nováčků v závislosti na odpověď na otázku "Editovali jste již někdy Wikipedii?", stejně jako na otázku "Proč jste si vytvořili uživatelský účet?".

Přidání e-mailové adresy
Users who did not add an email address during their initial account creation are given a second opportunity to add their email address in the survey. We find that very few users do so, only 13 on Czech Wikipedia, and 20 on Korean. This corresponds to 6.5% of Czech users who did not already have an email address when shown the survey, and 5.7% of the Korean users.

Znovuzodpovězení dotazníku
Ačkoliv pro to není explicitní postup, uživatelé mohou dotazník vyplnit několikrát pomocí znovunavštívení URL s dotazníkem. Ukládáme pouze nejnovější odpověď, což znamená, že považujeme jejich nejnovější odpovědi za nejpřesnější. Zároveň ukládáme počet vyplnení dotazníku. Tabulka 8 ukazuje příslušná čísla. We can see that it's relatively rare that users take the survey multiple times, and if someone does, it's typically only one more time. This means that we see little reason to discard responses based on users taking the survey multiple times and potentially changing their answers.

Kontrola logické správnosti
We have also run various sanity checks on our data in order to ensure that things are working properly. For example, we have calculated the distribution of users assigned into the survey and control groups, which ideally should be 50/50. This also turns out to be the case, overall on Czech Wikipedia the proportions are 49.7%/50.3% survey/control, and on Korean Wikipedia it is the other way around. We do find some variation when accounts are split into registrations from desktop and mobile (e.g. that it's 47/53 in some cases), but not enough to warrant a concern that the randomization has led to imbalanced or biased groups.

While working on this report, we have not yet dug carefully into the data to determine if the responses appear to be truthful. For example, if a user answers that they did not know they can edit Wikipedia but also says they had edited Wikipedia many times, we should most likely discard their answers to at least both those questions, potentially the entire survey. This is noted and will be done as part of a more thorough examination of the survey results at some point in the near future.

Poznámky pod čarou


Příloha A: E-mailové adresy přidané při registraci
How did we determine how many users had not provided an email address at signup to be able to calculate that proportion? This is not trivial, because the MediaWiki database does not store a timestamp of when a user added their email address, nor is there an EventLogging schema in use for logging that kind of information either. The only piece of information in the database that seemed related is the expiration timestamp of the verification token that is emailed to the user when they enter their email address.

We examined the difference between the timestamps of account registration and verification token expiration for accounts registered between January 1 and July 1 2018 on both Wikipedias and found that it is typically set to slightly more than seven days. How much more is "slightly more"? In the vast majority of cases less than ten seconds, which we think is the delay between the system creating the account and the subsequent emailing of the verification token (at which point the expiration timestamp is set to "seven days from now"). We therefore adopted a simple heuristic for determining if the user supplied an email at registration: it happened if the difference between the two timestamps is less than "one week + ten seconds".

Another thing we have to consider is that we do not have information about whether a user supplied an email address at registration but then decided to delete it. This means that they'll show up in our statistic as "did not supply an email at registration". We decided to assert that this is rarely done based on the fact that as of December 19, 64% of Czech registrations and 75% of Korean registrations between January 1 and July 1 did not have a verified email address. This suggested to us that users most likely either supply an email address that they do not check, or do not really care much about email verification, which we took to mean they are also unlikely to delete their email address.

Lastly, the proportion listed in the "added email" section above was not based on an upper limit for how quickly after registration a user can add their email address. This means that users who took the survey shortly after it was deployed have had more time to provide us with an address. In future calculations we will have a limit (e.g. one week), but in the meantime we will assert that if they have not provided us with an address already it's unlikely that they return to do so (in other words, that it's relatively unlikely that a user adds an email address after registration).