Growth/Positive reinforcement/ja

このページでは Growth 機能セットに含まれる「肯定的な動機づけ」の作業を述べます. 主な利点、設計、未解決の疑問、決定事項を載せます.

進行中の増分更新のほとんどは全般的なGrowthチームの更新ページに投稿されます. このページにはいくつかの大規模または詳細な更新を掲載します.



現状

 * 2021-03-01: 新しく作成したプロジェクトのページ
 * 2022-02-25: チームの協議を経てプロジェクトが発足
 * 2022-03-01: プロジェクトのページを拡充
 * 2022-05-11: コミュニティの議論
 * 2022-08-12: 利用者テスト実施済み
 * 2022-11-24: 現状の設計および実験案と計測計画を追加
 * 2022-12-01: 新機能の影響度モジュールを早期導入ウィキ群に展開
 * 2023-02-07: レベルアップと個人に向けた賞賛の作業開始、コミュニティとの第2回協議始まる
 * 2023-02-14: 初学者向けタスクのマイルストン分析を公表、レベルアップ 作業の指針になると期待
 * Next: 設計の反復作業と試験用影響度モジュールの評価に着手（T327581）

概要
Growth チームでは、新規参加者にはウィキメディアの行動するコミュニティに参加する手助けとなる要素があると考え、それを使う「きっかけ」（access）となる「一連の新規参加者の経験」の設計に注目してきました. 一例として、新規参加者タスクは参加のチャンスが手に入り、指導役のモジュール mentorship module では、指導役との出会いの機会が実現します. また「お勧め編集」は初めての編集作業を完了する新規参加者の数を増やしてきました. これらの成功によって、新規参加者にはもっと編集作業を続けてほしいと願って、力づけるような方策を実施したいと考えます. ここから新規参加者が使いたいのに、まだ十分に開発できていない要素に注目しました. つまり、パフォーマンスの評価です. 当チームではこのプロジェクトを「肯定的な肯定的な動機づけ」“positive reinforcement” と名づけました.

新規参加者にはウィキペディアで投稿を続けること自体に進歩と価値がある点を理解してもらい、編集作業の第一歩を踏み出した利用者の定着率を向上させたいと考えています.

ここで私たちには大きな疑問があります. 私たちのホームページを訪れて新規参加者がその機能をいくつか試してみたとして、もっと編集を続けたり前向きな勢いをつけるにはどのように励ますことができるでしょうか？

背景
新規参加者ホームページは2019年に導入されました. これには新規参加者が編集したページの閲覧数を一覧にする、基礎的な「影響モジュール」が含まれていました. これはGrowth 機能のうち、自分自身がどんな影響を与えたか新規参加者に感じさせる唯一のパーツであり、これを導入して以来、改善していませんでした. ここをスタート地点と考え、肯定的な動機づけに関する重要な学びを以下のように集めてみました.


 * コミュニティの皆さんからモジュールに寄せられた感想は良好で、熟練の編集者からも興味を引かれるし価値を認めるとのご意見でした.
 * 他の利用者から感謝されると定着率が上がる傾向があり、例えば「感謝」ボタン（これやこれ）やドイツ語版ウィキペディアが行った実証実験で見られました. 当チームは実在する人々からこれらの心理的な強化（reinforcements）を受ける方がシステムの自動的な反応よりも効果が高いと考えています.
 * コミュニティの皆さんのご意見では、新規参加者が簡単なタスクから始めた後、もっと価値のあるタスクに移行することの優先順位は高く、いつまでも容易なタスクを続けない方が良いとのことです.
 * 他のプラットフォーム、例えば Google（グーグル）、Duolingo（デュオリンゴ）、Github（ギットハブ）などでは、バッジや中間ゴールなど、肯定的な動機づけのためにいくつもの仕組みを採用しています.
 * 不健全な編集に報償を与えるようではいけないとコミュニティでは心配しています. 編集コンテストで賞金がもらえるとき、あるいは「拡張承認された利用者」のような有用な役割が編集回数に依拠しているとき、多くの問題のある編集を行う動機となりうることをこれまで見てきました.



利用者の人物像
初学者が進む道のりには、定着率の向上を試せそうな場面がたくさんあります. 着目するなら1回前後で編集をやめてしまった初学者にするか、もっと先へ進んだ初学者で数週間後に編集をやめてしまった人を選ぶか. 当プロジェクトでは1回目の編集一式を完了した人の中から、また戻ってきて2回目に進んでほしいと当方が期待する人に焦点を当てました. 以下の図式では、矢印と黄色い星印で示してあります.

注目点はこの段階の初学者であり、そこは編集者定着率向上の取り組みにとって一つの通過点だと考えます. また現状でここは離脱率がとても大きい場所でもあるので、この段階で新規参加者の活動を維持できれば、長い目で見て編集者の成長は有意義に増すと見込まれます.



調査と設計
Research was conducted on the various mechanisms that have been employed to encourage people to contribute content to both on and off-wiki products. The following are some of the key findings from the research:


 * Motivations for Wikipedia editors are multifaceted, and shift over time and experience. New editors are often driven more by curiosity and social connection than ideology.
 * Internal projects focus on intrinsic incentives, appeal to altruistic motivations, and are not systematically applied.
 * Broadening the appeal beyond ideological motivations may improve diversity of retained editors on Wikipedia.
 * Positive messages from experienced users and mentors is proven effective in short-term retention.

現状で集まった肯定的な動機づけに関する設計案の概要は、この設計のまとめ Design Brief をご参照ください. Our designs will evolve further through community feedback and several rounds of user testing.

アイデア類
肯定的な動機づけには主に3つの発想があります. このプロジェクトの進行につれて、複数案を念頭に置くかもしれません.

影響

 * Impact: An overhaul of the Impact module based on incorporating stats, graphs, and other contribution information. The revised impact module would provide new editors more context about their impact, as well as encourages them to continue contributing. Areas of exploration include:
 * Suggested edits milestone, to nudge users to try suggested edits.
 * Statistics on how much the user has edited over time (similar to what is in X Tools).
 * “Thanks received” count, to highlight the ability to receive community recognition.
 * Recent editing activity - including days in a row newcomers have edited (“streaks”) to encourage continued engagement or remind people to restart their contributions.
 * View reading activity on articles newcomers have edited over time (similar to info on en:Wikipedia:Pageview_statistics).



レベルを上げる

 * Leveling up: It is important to communities that newcomers progress to more valuable tasks. For those who do many easy tasks, we want to nudge them toward trying more difficult tasks. This could happen after they complete a certain number of easy tasks, or by encouragement on their homepage. Areas of exploration include:
 * The newcomer will see success messages post-editing that motivate them to do more edits of the same or different levels of difficulty.
 * In the Suggested Edits module, provide opportunities to do more difficult edits, so that newcomers can become more skilled editors.
 * In the Impact module, include a milestone counter or award area.
 * On the Homepage, add a new module with set challenges to attain some reward (badge/certificate).
 * Add notifications to prompt newcomers to try a more difficult task.



個人からの賞賛

 * Personalized praise: research shows that praise and encouragement from other users increases newcomer retention. We want to think about how to encourage experienced users to thank and award newcomers for good contributions. Perhaps mentors could be encouraged to do this on their mentor dashboards or through notifications. これまでの調査研究で、肯定的な効果がある程度はあるとされた既存の意思疎通の仕組みを利用できます. 今後の探究の対象分野は以下の通り.
 * 新規参加者のメンターから、個人用ホームページに個別にメッセージが届く.
 * メンターまたはウィキメディア Growth チーム発の利用者ページへの通知.
 * 特定の編集に「お礼」する
 * バッジを新設、特定の編集を行うと、そのマイルストン到達に対してメンター（指導役）もしくはウィキメディア財団 Growth チームからデジタルのバッジを進呈.



コミュニティの議論
ar:ويكيبيديا:مشروع فريق النمو (التعزيز الإيجابي)bn:উইকিপিডিয়া:আলোচনাসভাcs:Diskuse k Wikipedii:Zkušenosti nových wikipedistů/Pozitivní posílenífr:Discussion Projet:Aide et accueil/Volontaires コミュニティの皆さんと肯定的な動機づけプロジェクトをめぐり、このページならびにmediawiki.orgで話し合ってきました.

3つの主要な発想には直接、フィードバックを受け付け、新規参加者の定着率向上に関するたくさんのアイデアを加えました.

以下にフィードバックの概要をまとめてあり、それぞれにフィードバックに基づく繰り返し開発の方向性を示しました.

影響


個人からの賞賛


その他の発想：
参加者の新規登録や定着について、コミュニティの参加者からその他の発想がいくつか寄せられました. どれも価値のある発想であり（すでに当チームで進行中もしくは将来の採用検討中の案を含む）、それでも以下の発案はプロジェクトの現状の視点には適合しないようです.
 * 新規参加者に勧誘と歓迎メッセージをメールで送信（現状で当 Growth チームはマーケティング部門と募金活動部門と連携して参加のお願いメールの可能性を探索中です. ）
 * 新規参加者の興味に合わせて、ウィキプロジェクトを紹介.
 * 新規参加者向けホームページには、カスタマイズ可能なウィジェットが設定してあり、それぞれのウィキはこれを利用すると、新規参加者対象のタスクやイベントの呼びかけができます.
 * 新規参加者が特定のマイルストンに到達するたび、その人を歓迎した利用者に向けて通知を送る（それをきっかけに、感謝ボタンやWikiloveボタンをもう一度、押してもらう）



第2回コミュニティの聞き取り調査
2023年2月にコミュニティ聞き取り調査が完了、Growth 早期導入ウィキで試した直近のレベルアップ用設計を評価してもらいました. This consultation was completed in English on Mediawiki, and at Arabic Wikipedia, Bengali Wikipedia, Czech Wikipedia, and Spanish Wikipedia (T328356). In general, feedback was quite positive. These two tasks help address feedback mentioned by those that responded to our questions:


 * レベルアップ：コミュニティ単位の設定 (T328386)
 * レベルアップ： 「新しいタスクに挑戦」ダイアログの2番目の設計作業 (T330543)

In March 2023, we completed a community consultation in which we reviewed the most recent Personalized praise designs with the Growth Pilot wikis. This consultation was completed on English Wikipedia, Arabic Wikipedia, Bengali Wikipedia, Czech Wikipedia, French Wikipedia, Spanish Wikipedia, and at Mediawiki in English (T328356). Most feedback was supportive of Personalized praise features, but several further improvements were requested. We've created Phabricator tasks to address these further improvements.


 * アラビア語ウィキペディアと、フラッグ付き改版のあるウィキでは、特定の編集者が完了した編集の回数に加えて、編集の評価状況の詳細が参考になる (T333035)
 * メンターは指導相手の編集のうち差し戻しの回数または割合の参照、編集初学者の差し戻し回数をカスタム化して上達を認める閾値としたい (T333036)
 * 指導相手のどの編集が感謝を贈られたかメンターの参考になる (T51087)



ユーザー テスト
コミュニティの合意形成と並行して、仮説として評価し初期の設計案に盛り込めないか、読者と編集者を対象に複数の国でテストを実施できないか検討しました. 設計調査担当では、この肯定的な動機づけプロジェクトが新人編集者の投稿にどう影響するか把握するため、複数言語で利用者テストを実施しました.

肯定的な動機づけの設計案を統計的にテストし、対象はウィキペディアの読者と編集者、言語はアラビア語版、スペイン語版、英語版としました. Along with testing Positive Reinforcement designs we introduced data visualizations from xtools as a way to better understand how these data visualizations are perceived by newcomers.





ユーザーテストの結果

 * Make impact data actionable: Impact data was a compelling feature for participants with more experience editing, which several related to their interest in data—an unsurprising quality for a Wikipedian. For those new to editing, impact data, beyond views and basic editing activity, may be more compelling if linked to goal-setting and optimizing impact.
 * Evaluate the ideal editing interval: Across features, daily intervals seemed likely to be overly ambitious for new and casual editors. Participants also reflected on ignoring similar mechanisms on other platforms when they were unrealistic. Consider consulting usage analytics to identify “natural” intervals for new and casual editors to make goals more attainable.
 * Ensure credibility of assessments: Novice editor participants were interested in the assurance of their skills and progress the quality score, article assessment, and badges offer. Some hoped that badges could lend credibility to their work reviewed by more experienced editors. With that potential, it could be valuable to evaluate that the assessments are meaningful measures of skill and further explore how best to leverage them to garner community trust of newcomers.
 * Reward quality and collaboration over quantity: Both editor and reader participants from esWiki were more interested in recognition of their knowledge or expertise (quality) than the number of edits they have made (quantity). Similarly, some Arabic and English editors are motivated by their professional interests and skill development to edit. Orienting goals and rewards to other indicators of skilled edits, such as adding references or topical contributions, and collaboration or community involvement may also help mitigate concerns about competition overtaking collaboration.
 * Prioritize human recognition: While scores and badges via Growth tasks is potentially valued, recognition from other editors appears to be more motivational. Features which promote giving, receiving, and revisiting thanks seemed most compelling, and editors may benefit from selecting impact data which demonstrates engagement with readers or editors most compelling to them.
 * Experiment with playfulness of designs: While some positive reinforcement features can be seen as the product of “gamification”, some participants (primarily from EsWiki) felt that simple, fun designs were overly childish or playful for the seriousness of Wikipedia. Consider experimenting with visual designs that vary in levels of playfulness to evaluate broader reactions to “fun” on Wikipedia.

設計
以下に、「肯定的な動機づけ」に関する現行の設計をご紹介します. 上記の主要な発想3件を改良したものの、試案の視点と実際の設計はコミュニティの皆さんが議論したフィードバックとユーザテストを基準にしました.

影響
影響評価のモジュールを改訂、編集初学者が自分の与えた影響をより文脈から知ることができるようにします. 旧来と比較すると、新しい設計は個人化された情報を増やしデータを視覚化しました. （訳注：今回の版は）コミュニティとの協議によりこれまでに共有した設計と類似しています. ベータウィキで技術面の進捗状況をご確認いただけますし、Growth の早期導入ウィキ群には早晩、展開できる見通しです.



レベルを上げる
レベルアップ機能の焦点は初学者を励まして、もっと有意義なタスクに進んでもらう点にあります. おすすめ編集に取り組むように初学者を励ます発案もあり、構成化タスクは初学者の活動率と定着率の向上を示しているからです.
 * 後編集のダイアログのメッセージを「レベルアップ」：初学者の皆さんが以前と異なるタイプの作業をはじめる契機として、後編集のダイアログにメッセージを追加しました. これを受けた利用者の中から別の編集技能も習得する人が増え、タスクの幅を広げて難易度を上げてもらいたいと期待しています.
 * おすすめ編集以外の後編集のダイアログ：初学者で「通常の」編集を完了した人に、おすすめ編集をご紹介. 実験案では初学者が通算3回目と7回目の編集を保存したとき、通知を表示します. デスクトップ版利用者なら、おすすめ編集を試して画面を遷移すると、各人の影響度モジュールが表示される仕様で、これにより初学者の皆さんに参加を続けてもらうこと、自動化とは言え肯定的な動機付けを多少なりとも提供できることを期待しています. この実験は慎重に評価して、意図せずになにがしかの否定的な効果を及ぼさないようにします.
 * 新しい通知：かつて「エコー echo」と呼んだ通知で、新規参加者にお薦め編集を始めたり続けるよう伝えていました. このプロキシは通知を受けた人、つまりメールアドレスを登録していて通知受信を設定した人が、その後、メールが「必ず返ってくる」と確認するチャンスにもなります.



個人からの賞賛
この機能は調査結果に基づいており、他の利用者から激励されたり感謝された編集者は、引き続き活動を続けることがわかりました. 新規参加者が「賞賛に値する」かどうか表面化する条件は、メンターの皆さんに決めて管理してもらうつもりです.
 * メンターから激励を受ける：新規のモジュールをメンター用ダッシュボードに追加、新規参加者が一定のカテゴリに該当した場合、メンターの人に個人的な賞賛を贈ってくれるように呼びかけます.
 * ウィキのあちこちで感謝を増やす: コミュニティ要望調査に上がった「ウォッチリストページと最近の更新ページで感謝ボタンを既定で表示する」 (T51541, T90404) という要望を実現します. ウィキ群で感謝の回数が増え、肯定的な気持ちを膨らませること、かなうことなら新規参加者に間接的、直接的に良い影響が及ぶよう望んでいます.



Hypotheses
The Positive Reinforcement features aim to provide or improve the tools available to newcomers and mentors in three specific areas that will be described in more detail below. Our hypothesis is that once a newcomer has made a contribution (say by making a structured task edit), these features will help create a positive feedback cycle that increases newcomer motivation.

Below are the specific hypotheses that we seek to validate across the newcomer population. We will also have hypotheses for each of the three sets of features that the team plans to develop. These hypotheses drive the specifics for what data we will collect and how we will analyse that data.


 * 1) The Positive Reinforcement features increase our core metrics of retention and productivity.
 * 2) Since the Positive Reinforcement features do not feature a call to action that asks newcomers to make edits, we will see no difference in our activation core metric.
 * 3) Newcomers who get the Positive Reinforcement features are able to determine that making un-reverted edits is desirable, and we will see a decrease in the proportion of reverted edits.
 * 4) The positive feedback cycle created by the Positive Reinforcement features will lead to a significantly higher proportion of "highly active" newcomers.
 * 5) The Positive Reinforcement features increase the number of Daily Active Users of Suggested edits.
 * 6) The average number of edit sessions during the newcomer period (first 15 days) increases.
 * 7) "Personalized praise" will increase mentor’s proactive communication with their mentees, which will lead to increase in retention and productivity.

Experiment plan
Similarly as we have done for previous Growth team projects, we want to test our hypotheses through controlled experiments (also called "A/B tests"). This will allow us to establish a causal relationship (e.g. "The Leveling Up features cause an increase in retention of xx%"), and it will allow us to detect smaller effects than if we were to give it to everyone and analyze the effects pre/post deployment.

In this controlled experiment, a randomly selected half of users will get access to Positive Reinforcement features (the "treatment" group), and the other randomly selected half will instead get the current (September 2022) Growth feature experience (the "control" group). In previous experiments, the control group has not gotten access to the Growth features. The team has decided to move away from that (T320876), which means that the current set of features is the new baseline for a control group.

The Personalized Praise feature is focused on mentors. There is a limited number of mentors on every wiki, whereas when it comes to newcomers the number increases steadily every day as new users register on the wikis. While we could run experiments with the mentors, we are likely to run into two key challenges. First, the limited number of mentors could mean that the experiments would need to run for a long time. Second, and more importantly, mentors are well integrated into the community and communicate with each other, meaning they are likely to figure out if some have access to features that others do not. We will therefore give the Personalized Praise features to all mentors and examine activity and effects on newcomers pre/post deployment in order to understand the feature’s effectiveness.

In summary, this means we are looking to run two consecutive experiments with the Impact and Leveling up features, followed by a deployment of the Personalized Praise features to all mentors. These experiments will first run on the pilot wikis. We can extend this to additional wikis if we find a need to do that, but it would only happen after we have analyzed the leading indicators and found no concerns.

Each experiment will run for approximately one month, and for each experiment we will have an accompanying set of leading indicators that we will analyze two weeks after deployment. The list below shows what the planned experiments will be:


 * 1) Impact: treatment group gets the updated Impact module.
 * 2) Leveling up: treatment group gets both the updated Impact module and the Leveling up features.
 * 3) Personalized praise: all mentors get the Personalized praise features.

Leading indicators and plan of action
While we believe that the features we develop are not detrimental to the wiki communities, we want to make sure we are careful when experimenting with them. It is good practice to define a set of leading indicators together with plans of what action to take based if a leading indicator suggests something isn't going the way it should. We have done this for all our past experiments and do so again for the experiments we plan to run as part of this project.

Impact
Impact module interactions: We find that the proportion of newcomers who interact with the old module (6.1%) is significantly higher than for the new module (5%): $$\chi^2 = 17.5, df = 1, p \ll 0.001$$ This difference showed up early on in the experiment, and we have examined the data more closely understand what is happening. One issue we identified early on was that not all interaction events were instrumented, which we subsequently resolved. Examining further, we find that many of those who get the old module click on links to the articles or the pageviews. In the new module, a graph of the pageviews is available, thus removing some of the need for visiting the pageview tool. As a result, we decided that no changes were needed.

Mentor module interactions: We find no significant difference in the proportion of newcomers who interact with the Mentor module. The proportion for newcomers who get the old module is 2.4%, for those who get the new module it's 2.2%. A Chi-square test finds this difference not significant: $$\chi^2 = 1.5, df = 1, p = 0.219$$

Mentor module questions: We do not see a substantial difference in the number of questions asked between the old module (269 edits) and the new module (281 edits). The proportion of newcomers who asks their mentor a question is also the same for both groups, at 1.5%.

Edits and revert rate: We do not see a substantial difference in the number of edits nor in the revert rate between the two groups measured on a per-user average basis. There are differences between the groups, but these are driven by some highly prolific editors, particularly on the mobile platform.