Growth/Personalized first day/Newcomer tasks/Experiment analysis, November 2020/tr

Kasım 2019'da, Büyüme ekibi "yeni gelen görevler" özelliğini yeni gelen ana sayfasına ekledi. Yeni gelen görevleri, yeni gelenlerin ilgi alanlarına göre düzenlenmiş, düzenlenecek önerilen maddelerin bir beslemesini sağlar. Amaç, yeni gelenlere vikiye ilk geldiklerinde ilgilendikleri kolay düzenlemeler vermekti. Hipotezimiz, araçların yeni gelenlerin düzenlemeye başlamasını, düzenleme becerilerini öğrenmesini, etkilerini görmesini ve ardından düzenlemeye devam etmesini daha olası kılacaktı.

Özelliklerin etkisini öğrenmek için, özellikleri kontrollü bir deneyde devreye aldık: Yeni gelenlerin %76'sı özellikleri aldı ve %24'ü almadı. Deney altı ay sürdü ve Arapça, Vietnamca, Çekçe ve Korece Vikipedi'lerden veri topladık.

Bulguların özeti
Genel olarak analiz, Büyüme özelliklerinin yeni gelenler için sonuçları iyileştirdiğini gösterdi. En önemli noktalar aşağıdadır.


 * Büyüme özelliklerini alan yeni gelenlerin "etkinleştirilme" olasılığı daha yüksektir (yani, ilk madde düzenlemesini yapın).
 * Ayrıca alıkonulma ihtimalinin daha yüksek olduğuna inanıyoruz (yani geri gelin ve farklı bir günde başka bir madde düzenlemesi yapın).
 * Özellikler ayrıca yapıcılığı azaltmadan (yani düzenlemeler geri alınırsa) düzenleme hacmini (yani düzenleme sayısını) artırır.

Bu sonuçların, Büyüme özelliklerinin, özellikle de yeni gelenlerin görevlerinin, yeni gelenleri daha fazla düzenlemeye ve yeni gelenlerin daha uzun süre vikide kalmasına yol açtığını doğruladığına inanıyoruz.

Bu sonuçlar nedeniyle, tüm Vikipedi'lerin bu özellikleri uygulamayı düşünmesi gerektiğini düşünüyoruz.

Ayrıca, bu sonuçların, Büyüme ekibinin yeni gelenler için yeni tür kolay düzenleme iş akışları oluşturmak üzere yapılandırılmış görevler üzerinde çalışmaya devam etmesi gerektiğini doğruladığına da inanıyoruz.

Sözlük

 * Kasım 2020 itibarıyle on yedi viki, Büyüme özelliklerine sahip. Bununla birlikte, deneyimizde dört pilotvikiyi analiz ettik: Arapça, Vietnamca, Çekçe ve Korece Vikipedi'leri.
 * Yeni gelenlerin tümü Büyüme özelliklerini almaz; Bunların %20'si varsayılan deneyimi elde etmek için rastgele seçilir. Özelliklere sahip grup tedavi grubu ve varsayılan deneyime sahip grup kontrol grubudur. Varsayılan deneyimden gelen sayılara temel sayılar denir.
 * Etkinleştirme, yeni gelenlerin ilk düzenlemesini kayıttan sonraki 24 saat içinde yapması olarak tanımlanır. Temel aktivasyon oranı, Büyüme özellikleri değil, varsayılan özelliklerle aktivasyon oranıdır.
 * Yapıcı etkinleştirme, yeni gelenlerin kayıttan sonraki 24 saat içinde ilk düzenlemesini yapan ve bu düzenlemenin 48 saat içinde geri alınmaması olarak tanımlanır. Temel yapıcı oranı, Büyüme özelliklerine değil, varsayılan özelliklere sahip kullanıcıların oranıdır.
 * Saklama, etkinleştirmeden sonraki iki hafta içinde farklı bir günde yeni gelen ve başka bir düzenleme yapan kişi olarak tanımlanır. Temel tutma oranı, Büyüme özelliklerine değil, varsayılan özelliklere sahip kullanıcıların oranıdır.
 * Hacmi düzenleme, bir kullanıcının ilk iki haftasında yapılan düzenlemelerin toplam sayısıdır. Temel düzenleme hacmi, Büyüme özelliklerine değil, varsayılan özelliklere sahip kullanıcıların sayısıdır.

Ayrıntılı bulgular
Aşağıda, kontrollü deneyden tahmin ettiğimiz belirli etkiler bulunmaktadır. Bunların tümü, Kasım 2019 ve Mayıs 2020 arasında pilot vikilerde 97.755 yeni hesabın gözlemlenmesine dayanmaktadır. Metodoloji hakkında daha fazla ayrıntı için aşağıdaki "Metodoloji" bölümüne bakın.



Etkinleştirme
Bu analiz için, Madde ve Madde Tartışma ad alanlarında yapılan düzenlemelere odaklandık.


 * Etkinleştirme: Büyüme özelliklerine sahip yeni gelenlerin ilk makale düzenlemesini yapma olasılığı %11,6 daha yüksek. Dört pilot vikimizde, temel aktivasyon oranı %21,6'dır. Büyüme özelliklerinin aktivasyonu %24,1'e çıkardığı tahmin edilmektedir, bu da taban çizgisine göre %11,6'lık bir artış anlamına gelir.
 * Yapıcı etkinleştirme: yalnızca yapıcı aktivasyona bakıldığında etki daha büyüktür. Büyüme özelliklerine sahip yeni gelenlerin, ilk geri alınmamış madde düzenlemesini yapma olasılığı %26,7 daha yüksektir. Dört pilot vikimizde, temel yapıcı aktivasyon oranı %16,1'dir. Büyüme özelliklerinin bunu, taban çizgisine göre %26,7 artışla %20,4'e çıkaracağı tahmin edilmektedir.



Saklama
Saklama, aktivasyondan çok daha nadir olduğu için, değişiklikleri tespit etmek daha zordur. Bu deneyde, doğrudan herhangi bir değişiklik tespit etmedik. Bunun yerine, tutmanın, aktivasyonun artmasına benzer bir dereceye, yani yaklaşık %11,6 oranında arttığını tahmin ediyoruz. Bu, ilk gündeki aktivitenin sonraki günlerdeki aktiviteyi etkilediği fikrinden gelir ve bu, istatistiksel modellerimizde hesaba kattığımız bir şeydir. Büyüme özelliklerinin, ilk günlerinde aktif olan kullanıcı sayısını artırdığı tespit edildiğinden ve aktif kullanıcıların alıkonma olasılığında değişiklik yok bulduğumuz için, aktivasyondaki artışın tercüme edilmesini bekleyebiliriz. Elde tutmada benzer bir artışa dönüşür. Başka bir deyişle, Büyüme özellikleri, etkinleştirmedeki artışın neden olduğu tutmada artışa yol açıyor gibi görünmektedir: Büyüme özelliklerinin etkinleştirildiği bazı kullanıcılar doğal olarak korunmaya devam edecektir.

Deneydeki dört vikide temel tutma oranı %3,2'dir. Büyüme özelliklerinin bunu %3,6'ya çıkardığını tahmin ediyoruz.



Düzenleme hacmi
Büyüme özellikleri, ilk iki haftada yeni gelenlerin madde düzenlemelerinin sayısında %22'lik bir artış yol açtı. Dört pilot vikimizde, temel tahmini düzenleme hacmi 1,4'tür, bu da ortalama yeni gelen kişinin 1,4 düzenleme yapacağı anlamına gelir. Büyüme özelliklerine sahip yeni gelenlerin ortalama 1,7 madde düzenlemesi yaptığı tahmin edilmektedir.

Diğer bir deyişle:


 * Büyüme özellikleri olmadan 1000 yeni gelen, 1.400 madde düzenlemesi yapacaktır.
 * Büyüme özellikleri olan 1000 yeni gelen, 1.400 madde düzenlemesi yapacaktır.

Bu artış, hem Büyüme özelliklerinin yeni gelenlerin madde düzenlemesi yapma olasılığını artırdığını hem de bazı yeni gelenlerin önerilen birçok düzenlemeyi hızlı bir şekilde yapma olasılığını yansıtır. Hatta bazıları kayıttan sonraki iki hafta içinde 100'ün üzerinde düzenleme yapar.

Diğer ölçümler
We also looked at several other metrics, with less significant findings.


 * Reverts: we looked at whether newcomers with Growth features were more or less likely to have their edits reverted. This analysis did not show large or clear results.
 * Highly active newcomers: our results have shown that Growth features cause more newcomers to become active and to make more edits. We also wanted to see whether the features lead to more newcomers becoming highly active. We defined them as users making 50 edits in their first 30 days. This analysis did not show differences resulting from the Growth features.
 * Thanks: we looked at whether newcomers with Growth features receive more “thanks” than other newcomers. We found similar results to the retention analysis in that we expect that Growth features do lead to more thanks received, but that this is only because they cause more edits. This is not because the features cause newcomers to make edits that are more likely to attract thanks.
 * Differences between wikis and platforms: we compared the wikis and platforms (mobile vs desktop). We did not find significant differences in the effect of the Growth features.

Takeaways

 * The features work: the Growth team features work to increase newcomer engagement. This is especially true for the "newcomer tasks" component, which suggests easy edits.
 * Confidence in building structured tasks: this gives us confidence that our current work to build more kinds of newcomer tasks, such as the "add a link" task, will increase impact.
 * Need for positive reinforcement: the results showed that the Growth features primarily impact activation – getting newcomers to make their first edit – as opposed to retention. The features only seemed to increase retention because they increased activation.  The Growth team should think about what we can add to the features to encourage newcomers to return after making their first edits.  Thus, we are planning work on "positive reinforcement" this year. This will add milestones and statistics, so that newcomers can get excited about their progress and impact.

Next steps

 * Spread the word: we now have increased confidence in the value of the features. Therefore, the Growth team will encourage more wikis to read results, and consider deploying the features.
 * Continue the work: this year, we'll continue to focus on adding new types of tasks and providing positive reinforcement when newcomers complete tasks.
 * Extend the analysis: now that we have completed this analysis, we're able to more easily run it again in the future. We'll be able to look at how the features impact more wikis, and see how improvements alter their impact.

Methodology
The Growth Team deployed the newcomer tasks module to the Homepage on Czech, Korean, Vietnamese, and Arabic Wikipedias on November 21, 2019. During the experiment, users were randomly assigned to either a treatment or control group. In the treatment group, users received all Growth features (homepage, newcomer tasks, help panel, etc.), while users in the control group received none.

From November 21 until December 12, 2019, the chance of being in the treatment group was 50%. This changed to 80% on December 12, when the team started an A/B test of two variants of the newcomer tasks module.

Users can turn the Growth features on or off in their user preferences at any point. If doing so, they are excluded from this analysis. We also exclude known test accounts, users who registered through the API (these are mainly app accounts), and accounts that are autocreated.

The dataset for this analysis contains 97,755 accounts registered between the start of the experiment and May 14, 2020. Of these, 23,529 (24.1%) are in the control group and 74,226 (75.9%) are in the treatment group.

Our analysis makes extensive use of multilevel (hierarchical) regression models, using the wiki as the grouping variable. This allows us to account for differences between the wikis in our analysis. For example, our activation models are multilevel logistic regression models, which means that they account for the inherent differences in activation rate between the wikis. We also know that editing activity follows a long tail distribution, and therefore model number of edits made using a zero-inflated negative binomial distribution (again using a multilevel model).