Growth/Personalized first day/Newcomer tasks/Experiment analysis, November 2020/ja

Growth チーム は2019年11月、「新規登録者向けタスク」機能を新規登録者のホームページに追加しました. この機能は編集の対象としてタスクをお勧めするフィードを発信し、範囲は新人の興味に合わせてあります. その趣旨とは、それぞれのウィキでは到着着後の新人が関心を持てるよう、簡単な編集作業を提供することを目指します. 事前の仮説では、新人にとってこのツールは編集を試してみたくなり、編集技能を習得し自分の編集の影響を理解して、編集をその後も続けるきっかけになると想定しました.

機能の影響度を計測するには、条件付きの実験を実施しています. 新規登録者の 76% に機能を提供、残り 24% は対象外としました. 実験期間は6ヵ月とし、対象としたウィキペディアの言語版はアラビア語、 ベトナム語、チェコ語、朝鮮語です.

わかったことの概要
分析結果の一般的な傾向として、Growth 機能は初学者の成果を向上させました. 重要点を以下にまとめます.


 * 編集初学者のうち Growth 機能を提供した場合、より「活性化する」確率が高まります（最初の編集をする）.
 * 予測としては定着率が向上すると見込んでいます（別の日にウィキペディアを開いて記事の編集を実行すること）.
 * 機能により編集の物理量も増加し（編集の回数）、 建設性は失われていません（編集の巻き戻し）.

We believe that these results confirm that the Growth features, in particular newcomer tasks, lead newcomers to edit more and lead newcomers to stay on the wiki for longer.

'''これらの成果から、ウィキペディアの全言語版でこれら機能の実装を検討するようお勧めします. '''

加えて、これらの結果に基づき Growth チームでは構造化したタスクへの取り組みを続け、編集初学者を対象にした新しい種類の簡単な編集ワークフローを作成する根拠となります.

用語集

 * 2020年11月時点で17言語版のウィキがGrowth 機能を導入しました. However, in our experiment, we analyzed four pilot wikis: Arabic, Vietnamese, Czech, and Korean Wikipedias.
 * Not all newcomers receive Growth features; 20% of them are randomly chosen to get the default experience. The group with the features is the treatment group and the group with the default experience is the control group. Numbers that come from the default experience are called baseline numbers.
 * Activation is defined as a newcomer making their first edit within 24 hours of registration. The baseline activation rate is the activation rate with the default features, not the Growth features.
 * 建設的な活性化とは登録後24時間以内に最初の編集をする初学者が、その編集をしてから48時間以内に差し戻されていないことを目安にします. 建築性の基本線の率とは、既定の機能を使い Growth 機能が備わっていない利用者を対象にします.
 * Retention is defined as a newcomer coming back on a different day in the following two weeks after activation and making another edit. The baseline retention rate is the rate for users with the default features, not the Growth features.
 * Edit volume is the overall count of edits made in a user's first two weeks. The baseline edit volume is the count for users with the default features, not the Growth features.

Detailed findings
Below are the specific impacts we estimated from the controlled experiment. These are all based on observing 97,755 new accounts on the pilot wikis, between November 2019 and May 2020. For more specifics on the methodology, see "Methodology" below.



Activation
この分析に基づき、記事名前空間ならびにトーク名前空間の編集に集中しました.


 * 活性化：初学者で Growth 機能を使えると初回の編集をする率は11.6% 増です. パイロット試験をした4言語版のウィキでは、基本線の活性化は 21.6%でした. これは Growth 機能により 24.1%となり、基本線と比べると 11.6% 増です.
 * 建設的な活性化：建設的な活性化に限定して観察した時よりも、効果は大です. 初学者で Growth 機能を使えると初回の編集が差し戻されない率が26.7% 増です. パイロット試験をした4言語版のウィキでは、基本線の建設的活発化は 16.1%でした. これは Growth 機能により 20.4% 増となり、基本線と比べると 26.7% 増です.



定着率
定着は活性化と比べると数がずっと少なく、値の変化を検出しにくくなります. この実験では直接、これといった変化を析出できませんでした. 代わりに定着率の増加は活性化と同率、つまり11.6%の増加をしたと予測します. この発想は私たちの統計モデルに立脚すると、登録初日の活動がその翌日以降の活動に影響します. Growth 機能は登録初日に活発な利用者を増やす傾向が見られ、それが定着率になんの変化ももたらさず 、そこから活性化の増加が定着率の増加に演繹できると考えます. 言い換えるなら、Growth 機能が定着率の増加を導く要因とは 活性化にあると見られます. Growth 機能によって活性化した利用者の中には、当然ながら定着していきます.

実験をした4件のウィキにおける基本線の定着率は 3.2%です. 私たちは Growth 機能がこれを3.6%に伸ばしたと見積もります.



編集の量
Growth 機能は初学者が登録後の2週間で手がける記事編集を 22% 増に導きました. パイロットケースのウィキペディアの4言語版では、編集量の基本線は1.4回、すなわち平均的な初学者は平均1.4回の編集を実行します. 初学者で Growth 機能を使った人の編集回数は平均で1.7回です.

言い換えると次のようになります.


 * Growth 機能のない 初学者1,000人は編集を1,400回実施.
 * Growth 機能のある 初学者1,000人は編集を1,700回実施.

この増分は Growth 機能により初学者が記事を編集する可能性を増やし、さらに 初学者で短期間に多くのおすすめ編集をこなす人たちがいます. 中には登録後2週間で100回超の編集をした人もいました.

その他の指標
その他の指標も検討し、特段の発見はありませんでした.


 * 差し戻し：Growth 機能を使った初学者でも編集の差し戻しを受けることはあります. この分析から目立つもしくは明確な結果は得られませんでした.
 * 非常に活発な初学者：集計の結果、Growth 機能によりより多くの初学者が活発になり編集回数が増えました. では、この機能は初学者を非常に 活発にさせるかどうか、観察を試みました. 最初の30日間に編集を50回する人を想定しました. この分析は Growth 機能のあるなしで有意な差を見出せませんでした.
 * 感謝：初学者で Growth 機能を使わないよりも使う初学者のほうがより多くの「感謝」を受けるかどうか分析しました. Growth 機能があるほうが 受け取る感謝は多いと予測しましたが、この視点では定着率は両方の群でほぼ同等で、見た目により多いとしてもそれは編集回数が多いからだけ だとわかりました. つまりこの機能を使っても、初学者が感謝される要素にはならないという意味です.
 * Differences between wikis and platforms: we compared the wikis and platforms (mobile vs desktop). We did not find significant differences in the effect of the Growth features.

主な教訓

 * The features work: the Growth team features work to increase newcomer engagement. This is especially true for the "newcomer tasks" component, which suggests easy edits.
 * Confidence in building structured tasks: this gives us confidence that our current work to build more kinds of newcomer tasks, such as the "add a link" task, will increase impact.
 * Need for positive reinforcement: the results showed that the Growth features primarily impact activation – getting newcomers to make their first edit – as opposed to retention. The features only seemed to increase retention because they increased activation.  The Growth team should think about what we can add to the features to encourage newcomers to return after making their first edits.  Thus, we are planning work on "positive reinforcement" this year. This will add milestones and statistics, so that newcomers can get excited about their progress and impact.

次のステップへ

 * もっと広く知ってもらう：機能の価値に自信を深めることができました. そこで Growth チームは、さらに多くのウィキに実験結果を読んでもらい、機能の導入を働きかけていきます.
 * タスクの継続：今年は新しい種類のタスクを増やすことに注力し、編集初学者が編集を完了した時点により積極的な強化を盛り込む予定です.
 * 分析結果の援用：この分析を終え、将来、同じ実験をするときにより円滑に実施する準備ができました. 導入するウィキが増えると、この機能の影響力の分析をして、初期の影響に続く向上を把握できます.

方法論
Growth チームは2019年11月21日、新規登録者タスクのモジュールをウィキペディアの言語版とからチェコ語、朝鮮語、ベトナム語、アラビア語のホームページに導入しました. 実験期間中に利用者を不作為に調査群と対照群に振り分けました. 調査群の使用者にはGrowth 機能をすべて支給し (ホームページ、新規登録者向けタスク、ヘルプパネルなど)、対照群の利用者には何も渡しません.

実験期間は2019年11月21日から同12月12日とし、調査群に入る確率は 50% でした. 次にチームが12月12日に新規登録者向けタスクにふたつの変数を取り入れた A/B テストを開始すると、80% に増加しました.

利用者は時期を選び Growth 機能を個人設定で有効にも無効にもできました. 無効にした利用者はこの調査から除外しました. また除外対象にはテストアカウント、 API 経由で登録した人 (ほとんどはアプリ自体のアカウント) と、自動登録されたアカウントがありました.

今回の分析には登録アカウント 9万7755 件をデータセットとして使用、期間は実験開始日から2020年5月14日までです. そのうちの 2万3529 件 (24.1%) は対照グループとし、実験対象は 7万4226 件 (75.9%) でした.

分析にはmultilevel (hierarchical) regression モデルを多用し、それぞれのウィキを集合変数に設定しました. これにより分析に現れるウィキ間の差異を表現できました. 一例として activation モデルに multilevel logistic regression モデルを適用、ウィキ間に見るactivation 率の差異を構成します. また編集活動は long tail distribution のパターンを辿るとわかっていることから、編集回数のモデル値には zero-inflated negative binomial distribution モデルを採用しています（ここでも multilevel モデルを適用）.