Growth/Analytics updates/Welcome survey initial report/hu

A Növekedés csapat "Személyre szabott első nap" projektjének részeként 2018. november 19-én, nem sokkal 19:00 (UTC) után telepítettük az Üdvözlő felmérést a cseh és a koreai Wikipédiára. A felmérés célja, hogy összegyűjtsünk néhány kezdeti információt az új felhasználókról, hogy személyre szabhassuk az első napjukat a wikin, és segítsük őket céljaik elérésében. A telepítés előtt közzétettünk egy kísérleti tervet, melyben részletezzük, hogy mit és miért fogunk mérni. Ez az oldal a csapatunk első jelentése a felmérés eredményeiről, melyet részletesebb elemzések követnek majd, amik a kísérleti tervben szereplő különböző kérdésekkel foglalkoznak.

Ebben a jelentésben gyors áttekintést adunk a felmérésről és az arra adott válaszokról a 2018. december 17-i telepítés és a nap vége (UTC) között regisztrált fiókok alapján. Nem számoltunk ki sem konfidenciaintervallumokat, sem statisztikai szignifikanciát ezekre az eredményekre vonatkozóan, és nem állítjuk, hogy szignifikáns különbségek lennének (pl. a két Wikipédia vagy a felhasználók csoportjai között). A felmérés kérdéseit sem vetettük még össze egymással, és nem elemeztük őket a EditorJourney-adatokkal együtt. Ehelyett ezeket előzetes eredményekként mutatjuk be, és megvitatunk néhány lehetséges lépést, amit ezek az eredmények sugallhatnak, és a következő negyedévben alaposabb elemzést fogunk végezni.

Fővonalak

 * A legtöbb felhasználó válaszol a felmérésre, így a cseh és a koreai Wikipédiában 67%-os, illetve 62%-os a válaszadási arány.
 * Jelenleg nem aggódunk amiatt, hogy a felmérés hatására új felhasználók hagyják el az oldalt.
 * A koreai Wikipédiában a profil létrehozásának leggyakoribb oka a cikkek olvasása, nem pedig a szerkesztés (29%). Ez eltér a csehországi válaszoktól, ahol 18% adta ezt a választ. A magas számok itt lehetőséget jelenthetnek arra, hogy ezeket a szerkesztőket felvilágosítsák arról, hogy a Wikipédia szerkesztése igenis lehetséges és egyszerű.
 * A válaszadók többsége mindkét nyelven nem szerkesztett még Wikipédiát (51% csehül és 63% koreaiul). Ezek az arányok azonban azt is jelentik, hogy sokan szerkesztettek már korábban (akár névtelenül, akár más fiókkal), és ezért lehet, hogy van némi tudásuk a szerkesztés módjáról.
 * A koreai válaszadók a cseh válaszadóknál sokkal nagyobb valószínűséggel írták be saját, egyéni témáikat, szemben az előre megadott lehetőségek kiválasztásával. A koreai válaszadók 28%-a adott hozzá saját témát, szemben a cseh válaszadók 9%-ával.
 * A válaszadók meglepően nagy számban nyilatkoztak úgy, hogy szívesen veszik fel velük a kapcsolatot, hogy segítséget kapjanak a szerkesztéshez: Csehországban 36%, koreaiul 53%. Ez határozottan megerősíti, hogy létezik az emberenkénti segítség lehetősége és igénye. A válaszadók a felhasználók listája, akiket meg lehet szólítani.
 * Kevés további felhasználó ad hozzá e-mail címet, aki a fiók létrehozása során nem adott hozzá. A számok elég nagyok ahhoz, hogy a lehetőség produktív legyen (6% koreaiul és 7% csehül), de elég kicsik ahhoz, hogy jobb felhívásokat fontolgassunk az e-mail cím hozzáadásának ösztönzésére.

Háttér
A felmérés eredeti motivációja az volt, hogy olyan információkat gyűjtsünk a felhasználókról, melyeket felhasználhatunk a felhasználói élmény személyre szabásához. Itt arról lehet olvasni, hogy mik a gondolataink arról, hogy miként lehet ezeket az adatokat a projekt következő fázisában felhasználni.

A telepítést követő négy hét alatt a felmérést a cél-wikikben új fiókot regisztráló felhasználók véletlenszerűen kiválasztott 50%-ának mutattuk meg (vagyis nem mutattuk meg azoknak a felhasználóknak, akiknek már van fiókjuk egy másik wikin, az úgynevezett "automatikusan létrehozott felhasználóknak"). Ezt a felmérési csoport és a kontrollcsoport közötti A/B tesztet azért választottuk, hogy megállapíthassuk, hogy a felmérés hatására a regisztrációt követő 24 órán belül alacsonyabb lesz-e azoknak a felhasználóknak az aránya, akik az első szerkesztést elvégzik (amit mi "szerkesztő-aktiválásnak" nevezünk). A kísérlet eredményeinek elemzése hamarosan elkészül.

A felmérés kinézetének és a benne szereplő kérdéseknek a gyors áttekintése egy mockup formájában itt érhető el. A felmérés cseh és koreai nyelven jelenik meg az adott wikikben.

Válaszadási arány
A cseh Wikipédián 669 felhasználónak, a koreai Wikipédián pedig 836 felhasználónak mutattuk meg a felmérést. Amikor a felhasználó megkapja a felmérést, egy sor kérdést kell kitöltenie, melyek mindegyike opcionális. Ezt követően a "Befejezés" gombra kattintva elküldhetik a felmérést (még akkor is, ha egyetlen kérdésre sem válaszoltak), a "Hagyd ki ezt a felmérést" gombra kattintva elvethetik válaszaikat, vagy más, az oldalt vagy a webhelyet elhagyó műveletet végezhetnek, például rákattinthatnak egy linkre a bal oldali navigációban vagy bezárhatják a lapjukat. Ez utóbbi műveletet "elhagyásnak" nevezzük. A két wiki esetében az ilyen műveletek közötti megoszlás a következő:

Az 1. táblázat azt mutatja, hogy a legtöbb felhasználó kitöltötte a kérdőívet, ami nagyszerű! Amint alább látni fogjuk, a szerkesztők a kérdéseinkre is válaszoltak (ahelyett, hogy válaszok nélkül küldték volna be a felmérést). Az abbahagyási arány meglehetősen magasnak tűnik, és először aggódtunk, hogy ez azt jelenti, hogy a felmérés miatt a szerkesztők teljesen elhagyják a weboldalt, ami nem lenne célravezető eredmény. Hogy ezt megvizsgáljuk, a csapatunk "Az első nap megértése" projektje által rögzített adatokat vizsgáltuk, mely adatokat gyűjt arról, hogy az új szerkesztők mit néznek meg az első 24 órában. Megállapítottuk, hogy a csehek esetében mindössze 47 felhasználó (7,0%) hagyta el az oldalt, míg a koreaiak esetében ez az arány 99 felhasználó (11,8%) volt. Mindkét arány a küszöbértékek alatt van, melyeket a felmérés megváltoztatására vagy kikapcsolására vonatkozóan határoztunk meg. Erre a kérdésre meggyőzőbb választ kapunk, amikor elemezzük a kontrollcsoportban a fiók létrehozása után az oldal elhagyásának arányát.

A válaszadási arányokat aszerint is fel lehet osztani, hogy a fiókot az asztali vagy a mobil oldalon hozták-e létre, de úgy találjuk, hogy az arányok általában hasonlóak.

Miért regisztráltál ma?
Miért regisztráltál ma?


 * Egy Wikipédia-szócikkben lévő elírás vagy hiba javítása érdekében
 * Információ hozzáadása egy Wikipédia-szócikkhez
 * Új Wikipédia-szócikk létrehozása
 * Wikipédia olvasása
 * Egyéb (kérjük, írd le)

Az első kérdésünk arra kérdez rá, hogy a felhasználó miért regisztrált, és több lehetőséget ad meg, valamint egy "Egyéb" opciót, ahol a szerkesztőnek egy szövegmezőt adunk a további magyarázatra. A két célnyelvi Wikipédia esetében a válaszok a következőképpen alakulnak, az arányok az egyes nyelveken válaszolók számán alapulnak:

Az első dolog, amit talán észre lehet venni, hogy a leggyakoribb opció különbözik a két nyelv között. Cseh nyelven a válaszadók 32,6%-a választja az új szócikk létrehozását, míg Koreában az olvasást (28,8%). Mindkét nyelven a másik lehetőség a harmadik a listán, az olvasást a cseh válaszadók 17,5%-a, az új szócikk létrehozását pedig a koreai válaszadók 19,7%-a választotta. Érdekes tanulság, hogy a Wikipédia olvasása sok szerkesztő regisztrálását motiválja, mivel a fiók megléte nem változtatja meg lényegesen az olvasás élményét. Ez utalhat a profil létrehozásával kapcsolatos téves felfogásra, de egyben lehetőséget is jelenthet a felhasználók, mint olvasók és potenciális szerkesztők bevonására.

Az információ hozzáadása egy szócikkhez mindkét nyelven következetesen a második lehetőség, és hasonló, 25% körüli arányban. Ugyanez vonatkozik a helyesírási hiba vagy elírás kijavítására is, mely a válaszok 17%-ával következetesen a negyedik helyen áll a listán.

Szerkesztetted már valaha a Wikipédiát?
Szerkesztetted már valaha a Wikipédiát?


 * Igen, sokszor
 * Igen, egyszer vagy kétszer
 * Nem, nem tudtam, hogy szerkeszthetem a Wikipédiát
 * Nem, egyéb okok miatt
 * Nem emlékszem

A második kérdés arra kérdez rá, hogy a szerkesztő szerkesztette-e már korábban a Wikipédiát, és öt lehetséges választ sorol fel. Egyes felhasználók a felmérést e kérdés megválaszolása nélkül is elküldik. Az alábbi 3. táblázat áttekintést ad a válaszokról, és az arányok ismét a felmérésre adott válaszok teljes számán alapulnak. Mindkét nyelven azt látjuk, hogy a "Nem, nem tudtam, hogy szerkeszthetem a Wikipédiát" a leggyakoribb válaszlehetőség, és hogy a válaszadók többsége azt mondja, hogy még nem szerkesztette korábban a Wikipédiát (mindkét "nem" opciót kombinálva: cseh: 50,5%; koreai: 63,2%). Ami a "Nem, nem tudtam, hogy szerkeszthetem a Wikipédiát" választ illeti, logikus, hogy sokan ezt a választ adják, tekintve, hogy hányan mondják, hogy olvasás céljából regisztrálnak. De mi is meglepődtünk, hogy ez a szám ilyen magas lett. Az egyik hipotézis az, hogy a kérdést a különböző válaszadók eltérő módon értelmezhetik. Az egyik lehetséges értelmezés a következő: "Nem, nem tudtam, hogy szerkeszthetem a Wikipédiát, amíg ez a felmérési kérdés rá nem mutatott erre", a másik pedig: "Nem, nem tudtam, hogy nemrég még szerkeszthettem a Wikipédiát, de miután rájöttem, hogy igen, úgy döntöttem, hogy regisztrálok". Többet fogunk megtudni erről a kérdésről, amint kereszttáblákat készítünk a többi kérdéssel szemben, és a jövőben fontolóra vehetjük ezeknek a válaszoknak az egyértelműbb megfogalmazását.

Érdemes megjegyezni azt is, hogy a válaszok sorrendje mindkét nyelven ugyanaz, és eltér attól a sorrendtől, ahogyan a lehetőségek a felhasználónak megjelennek. Ez azt jelenti, hogy a válaszadók válaszadáskor nem egyszerűen a lista első válaszát választották, hanem aktívan tudatják velünk, hogy korábban még nem szerkesztették a Wikipédiát.

Jelölj ki néhány témát, melyet szerkeszteni szeretnél
''Az emberek szerkeszthetik a Wikipédia szócikkeit olyan témákban, melyek érdeklik őket. Az alábbiakban felsorolunk néhány olyan témát, melyek szerkesztése népszerű. Válassz ki néhány témát, amit szerkeszteni szeretnél:''

Kifejezetten jelölőnégyzetként szerepel: Művészetek, Tudomány, Földrajz, Történelem, Zene, Sport, Irodalom, Vallás, Népi kultúra.

A legördülő menüből választható: Szórakozás, Ételek és italok, Életrajz, Katonai, Közgazdaságtan, Technológia, Film, Filozófia, Üzlet, Politika, Kormányzat, Mérnöki tudományok, Kézművesség és hobbi, Játékok, Egészségügy, Társadalomtudomány, Közlekedés, Oktatás.

A felmérés harmadik része arra kéri a válaszadókat, hogy válasszanak ki néhány témát, melyet esetleg szerkeszteni szeretnének. Kilenc téma jelölőnégyzetként jelenik meg, további tizennyolc téma pedig akkor jelenik meg, ha a felhasználó rákattint a mezőre vagy beírja azt. A mező szabadon kitölthető, így a válaszadók további témákat adhatnak hozzá. A válaszadók annyi témát választhatnak és adhatnak hozzá, amennyit csak akarnak.

Ez az elemzés csak a javasolt témákra terjed ki. A jövőbeni elemzések a felhasználó által megadott témákkal fognak foglalkozni, melyek elemzéséhez fordításra van szükség. Az alábbiakban nyelvenként egy-egy táblázatot mutatunk be. A táblázat azonosítja, hogy a felhasználó milyen módon választhatja ki a témát: "checkbox", azaz a kilenc jelölőnégyzet egyike; "prefilled", azaz a tizennyolc előre kitöltött téma egyike, ami a szabadon kitölthető mezőben található; vagy "other", azaz a válaszadó által hozzáadott téma.

We can see that the dominating topics are all the ones listed in the checkboxes. The least frequent checkbox is selected by 20.8% of respondents, while the most frequent topic in the free-form field is only chosen by 3.5% of respondents. It is noteworthy that respondents are selecting multiple topics, as opposed to just one.

We see a similar trend in Korean as for Czech: the checkboxes are dominating when it comes to selecting topics, although the difference between the least popular checkbox and the most popular pre-filled topic is smaller (11.0%) in Korean than in Czech (17.3%).

Are you interested in being contacted to get help with editing?
''We are considering starting a program for more experienced editors to help newer users with editing. Are you interested in being contacted to get help with editing?''

We find that in both languages, a surprisingly large number of users are interested in being contacted. 164 users in Czech (36.4% of all survey respondents) and 273 users in Korean (52.7%) answered "yes" to that question. This means that there's clearly interest among new users to get help to edit Wikipedia, and that this is a potential venue for community outreach. When we dig deeper into the survey responses, we will also compare the responses to this question with the answer to the question of whether the user had already edited Wikipedia, as well as why they signed up to create an account.

Adding an email address
Users who did not add an email address during their initial account creation are given a second opportunity to add their email address in the survey. We find that very few users do so, only 13 on Czech Wikipedia, and 20 on Korean. This corresponds to 6.5% of Czech users who did not already have an email address when shown the survey, and 5.7% of the Korean users.

Repeat survey responses
Though there is not an explicit workflow for doing so, users can take the survey multiple times by revisiting the survey URL. We only store their most recent responses, meaning that we regard their most recent answer to accurately reflect their interests and opinions. At the same time, we store a count of how many times they have responded/skipped. Table 8 below shows how the number of responses is distributed, where the proportion is out of all users who either saved or skipped the survey. We can see that it's relatively rare that users take the survey multiple times, and if someone does, it's typically only one more time. This means that we see little reason to discard responses based on users taking the survey multiple times and potentially changing their answers.

Sanity checks
We have also run various sanity checks on our data in order to ensure that things are working properly. For example, we have calculated the distribution of users assigned into the survey and control groups, which ideally should be 50/50. This also turns out to be the case, overall on Czech Wikipedia the proportions are 49.7%/50.3% survey/control, and on Korean Wikipedia it is the other way around. We do find some variation when accounts are split into registrations from desktop and mobile (e.g. that it's 47/53 in some cases), but not enough to warrant a concern that the randomization has led to imbalanced or biased groups.

While working on this report, we have not yet dug carefully into the data to determine if the responses appear to be truthful. For example, if a user answers that they did not know they can edit Wikipedia but also says they had edited Wikipedia many times, we should most likely discard their answers to at least both those questions, potentially the entire survey. This is noted and will be done as part of a more thorough examination of the survey results at some point in the near future.

Appendix A: Email added at registration
How did we determine how many users had not provided an email address at signup to be able to calculate that proportion? This is not trivial, because the MediaWiki database does not store a timestamp of when a user added their email address, nor is there an EventLogging schema in use for logging that kind of information either. The only piece of information in the database that seemed related is the expiration timestamp of the verification token that is emailed to the user when they enter their email address.

We examined the difference between the timestamps of account registration and verification token expiration for accounts registered between January 1 and July 1 2018 on both Wikipedias and found that it is typically set to slightly more than seven days. How much more is "slightly more"? In the vast majority of cases less than ten seconds, which we think is the delay between the system creating the account and the subsequent emailing of the verification token (at which point the expiration timestamp is set to "seven days from now"). We therefore adopted a simple heuristic for determining if the user supplied an email at registration: it happened if the difference between the two timestamps is less than "one week + ten seconds".

Another thing we have to consider is that we do not have information about whether a user supplied an email address at registration but then decided to delete it. This means that they'll show up in our statistic as "did not supply an email at registration". We decided to assert that this is rarely done based on the fact that as of December 19, 64% of Czech registrations and 75% of Korean registrations between January 1 and July 1 did not have a verified email address. This suggested to us that users most likely either supply an email address that they do not check, or do not really care much about email verification, which we took to mean they are also unlikely to delete their email address.

Lastly, the proportion listed in the "added email" section above was not based on an upper limit for how quickly after registration a user can add their email address. This means that users who took the survey shortly after it was deployed have had more time to provide us with an address. In future calculations we will have a limit (e.g. one week), but in the meantime we will assert that if they have not provided us with an address already it's unlikely that they return to do so (in other words, that it's relatively unlikely that a user adds an email address after registration).