Tăng trưởng/Cập nhật phân tích/Báo cáo ban đầu về khảo sát

From mediawiki.org
This page is a translated version of the page Growth/Analytics updates/Welcome survey initial report and the translation is 89% complete.

As part of the Growth team's "Personalized first day" project, we deployed the Welcome Survey to Czech and Korean Wikipedias on November 19, 2018, shortly after 19:00 UTC. The objective of the survey is to gather some initial information about new users so that we can personalize their first day on the wiki and help them achieve their goals. Before deploying, we published an experiment plan detailing what we will measure and why. This page is our team's initial report on survey results, and will be followed with more detailed analyses that address the various questions from the experiment plan.

Trong báo cáo này, chúng tôi cung cấp tổng quan nhanh về khảo sát và các phản hồi của nó dựa trên các tài khoản được đăng ký giữa triển khai và cuối ngày (UTC) vào ngày 17 tháng 12 năm 2018. Chúng tôi đã tính cả khoảng tin cậy và ý nghĩa thống kê của các kết quả này và không đưa ra tuyên bố về việc có sự khác biệt đáng kể (ví dụ giữa hai Wikipedias hoặc giữa các nhóm người dùng). Chúng tôi cũng chưa có câu hỏi khảo sát chéo với nhau hoặc phân tích chúng cùng với dữ liệu EditorJourney. Thay vào đó, chúng tôi trình bày những điều này như những phát hiện sơ bộ và thảo luận về một số bước tiềm năng mà những phát hiện này có thể gợi ý, và sẽ thực hiện một phân tích kỹ lưỡng hơn trong quý tới.

Chủ đề

  • Hầu hết người dùng trả lời khảo sát, cho tỷ lệ phản hồi cao lần lượt là 67% và 62% ở Wikipedias của Séc và Hàn Quốc.
  • Chúng tôi hiện không lo ngại rằng cuộc khảo sát đang khiến người dùng mới rời khỏi trang web.
  • Lý do phổ biến nhất để tạo tài khoản trong Wikipedia tiếng Hàn là để đọc các bài viết mà không phải để chỉnh sửa (29%). Điều này khác với ở Séc, nơi 18% đưa ra phản hồi đó. Những con số cao ở đây có thể là cơ hội để giáo dục những người dùng đó rằng có thể và dễ dàng chỉnh sửa Wikipedia.
  • Phần lớn người được hỏi ở cả hai ngôn ngữ chưa chỉnh sửa Wikipedia trước đó (51% bằng tiếng Séc và 63% bằng tiếng Hàn). Nhưng các tỷ lệ phần trăm này cũng có nghĩa là một số lượng lớn người 'đã' chỉnh sửa trước đó (ẩn danh hoặc với một tài khoản khác), và do đó có thể có một số kiến ​​thức về cách chỉnh sửa.
  • Người trả lời Hàn Quốc có nhiều khả năng hơn người trả lời Séc nhập các chủ đề tùy chỉnh của riêng họ, trái ngược với việc chỉ chọn các tùy chọn được điền trước. 28% số người được hỏi ở Hàn Quốc đã thêm chủ đề của riêng họ, so với 9% số người được hỏi ở Séc.
  • Đáng ngạc nhiên là số lượng lớn người được hỏi cho biết họ quan tâm đến việc được liên hệ để nhận trợ giúp chỉnh sửa: 36% bằng tiếng Séc và 53% bằng tiếng Hàn. Đây là một sự khẳng định mạnh mẽ rằng tiềm năng và mong muốn giúp đỡ từ người sang người tồn tại. Những người được hỏi là một danh sách hành động của người dùng để tiếp cận.
  • Rất ít người thêm địa chỉ email không thêm địa chỉ trong khi tạo tài khoản. Các con số đủ lớn để tùy chọn có hiệu quả (6% bằng tiếng Hàn và 7% bằng tiếng Séc), nhưng đủ nhỏ để chúng tôi có thể xem xét các kháng cáo tốt hơn để khuyến khích thêm địa chỉ email.

Bối cảnh

Động lực ban đầu cho khảo sát này là thu thập thông tin về người dùng mà chúng ta có thể sử dụng để cá nhân hóa trải nghiệm của họ. Đọc tại đây về suy nghĩ của chúng tôi về cách thực hiện hành động đối với dữ liệu này trong giai đoạn tiếp theo của dự án này.

Trong bốn tuần sau khi triển khai, cuộc khảo sát đã được hiển thị cho 50% những người đăng ký tài khoản mới trên wiki mục tiêu (có nghĩa là nó không được hiển thị cho người dùng đã có tài khoản trên wiki khác, nên được gọi là "Người dùng tự động điều trị"). Thử nghiệm A / B này giữa nhóm khảo sát và kiểm soát đã được chọn để chúng tôi có thể xác định xem cuộc khảo sát có dẫn đến tỷ lệ người dùng thực hiện chỉnh sửa đầu tiên trong vòng 24 giờ sau khi đăng ký hay không (chúng tôi gọi là "kích hoạt trình chỉnh sửa"). Một phân tích về kết quả của thí nghiệm đó đang sắp tới.

Một tài liệu tham khảo nhanh về nội dung của cuộc khảo sát và các câu hỏi mà nó chứa trong [https: //wikidia.invisionapp.com/share/PBOLQ4KX479#/sc Greens/285834566 bản mockup tại đây]. Khảo sát được hiển thị bằng tiếng Séc và tiếng Hàn trên các wiki tương ứng.

Tỷ lệ phản hồi

Trên Wikipedia tiếng Séc, chúng tôi đã hiển thị khảo sát tới 669 người dùng và trên Wikipedia tiếng Hàn cho 836 người dùng. Khi người dùng xem khảo sát, họ có một loạt câu hỏi để điền vào, tất cả đều là tùy chọn. Sau đó, họ có thể gửi bản khảo sát bằng cách nhấp vào "Kết thúc" (ngay cả khi họ chưa trả lời bất kỳ câu hỏi nào), loại bỏ câu trả lời của họ bằng cách nhấp vào "Bỏ qua khảo sát này" hoặc thực hiện một số hành động khác rời khỏi trang hoặc trang web, chẳng hạn như nhấp vào một liên kết trong điều hướng bên trái hoặc đóng tab của họ. Chúng tôi gọi hành động sau này là "từ bỏ". Phân phối giữa các hành động này cho hai wiki như sau:

Bảng 1: Tổng quan về tỷ lệ phản hồi
Tiếng Séc Tiếng Hàn
Hành động N Prop. N Prop.
Đã nhập 451 67.4% 518 62.0%
Bỏ qua 81 12.1% 99 11.8%
Từ bỏ 137 20.5% 219 26.2%

Bảng 1 cho thấy hầu hết người dùng đã gửi khảo sát, điều này thật tuyệt! Như chúng ta sẽ thấy bên dưới, người dùng cũng trả lời các câu hỏi của chúng tôi (thay vì gửi khảo sát mà không có câu trả lời). Tỷ lệ bỏ qua dường như khá cao, và lúc đầu chúng tôi lo ngại điều này có nghĩa là cuộc khảo sát đã khiến người dùng rời khỏi trang web hoàn toàn, đây sẽ là một kết quả phản tác dụng. Để xem xét vấn đề này, chúng tôi đã đào sâu vào dữ liệu được thu thập thông qua dự án "Hiểu ngày đầu tiên" của nhóm chúng tôi, tập hợp dữ liệu về những gì người dùng mới xem trong 24 giờ đầu tiên. Chúng tôi thấy rằng ở Séc, chỉ có 47 người dùng (7,0%) rời khỏi trang web, trong khi ở Hàn Quốc chỉ có 99 người dùng (11,8%). Cả hai tỷ lệ này đều nằm dưới ngưỡng chúng tôi đã đặt ra để thay đổi khảo sát hoặc tắt. Câu hỏi này sẽ được trả lời cụ thể hơn khi chúng tôi phân tích tỷ lệ từ bỏ trang web của nhóm kiểm soát sau khi tạo tài khoản.

Cũng có thể phân chia tỷ lệ phản hồi bằng cách tài khoản được tạo trên máy tính để bàn hay trang di động, nhưng chúng tôi thấy rằng tỷ lệ này thường tương tự nhau.

Tại sao bạn tạo tài khoản của bạn ngày hôm nay?

Tại sao bạn tạo tài khoản của bạn ngày hôm nay?

  • Để sửa lỗi chính tả hoặc lỗi trong bài viết Wikipedia
  • Để thêm thông tin vào bài viết Wikipedia
  • Để tạo một bài viết Wikipedia mới
  • Để đọc Wikipedia
  • Khác (vui lòng mô tả)

Câu hỏi đầu tiên của chúng tôi hỏi tại sao người dùng tạo tài khoản và cung cấp một số tùy chọn, cũng như tùy chọn "Khác" trong đó người dùng được cung cấp trường văn bản để giải thích thêm. Đối với hai Wikipedias mục tiêu của chúng tôi, các câu trả lời được đưa ra như sau, với tỷ lệ dựa trên số người trả lời trong mỗi ngôn ngữ:

Bảng 2: Tại sao bạn tạo một tài khoản ngày hôm nay?
Tiếng Séc Tiếng Hàn
Lý do N Prop. N Prop.
Tạo một bài viết mới 147 32.6% 102 19.7%
Thêm thông tin vào một bài viết 110 24.4% 131 25.3%
Để đọc Wikipedia 79 17.5% 149 28.8%
Sửa lỗi chính tả hoặc lỗi trong bài viết 76 16.9% 90 17.4%
Không trả lời 21 4.7% 23 4.4%
Khác 18 4.0% 23 4.4%

Điều đầu tiên cần lưu ý có lẽ là tùy chọn thường xuyên nhất là khác nhau giữa hai ngôn ngữ. Trong tiếng Séc, nó đang tạo ra một bài viết mới được lựa chọn bởi 32,6% số người được hỏi, trong khi bằng tiếng Hàn, nó đang đọc (28,8%). Trong cả hai ngôn ngữ, tùy chọn khác là thứ ba trong danh sách, việc đọc được lựa chọn bởi 17,5% số người trả lời tiếng Séc và tạo ra một bài viết mới bằng 19,7% bằng tiếng Hàn. Thật thú vị khi biết rằng việc đọc Wikipedia thúc đẩy rất nhiều việc tạo tài khoản, vì việc có một tài khoản không thay đổi đáng kể trải nghiệm đọc. Điều đó có thể chỉ ra một sự hiểu lầm xung quanh việc tạo tài khoản, nhưng cũng có thể là một cơ hội để thu hút người dùng cả với tư cách là độc giả và biên tập viên tiềm năng.

Thêm thông tin vào một bài viết luôn là lựa chọn thứ hai trong cả hai ngôn ngữ và có tỷ lệ tương đương khoảng 25%. Điều tương tự cũng xảy ra đối với việc sửa lỗi chính tả hoặc lỗi, luôn đứng thứ tư trong danh sách với khoảng 17% phản hồi.

Bạn đã bao giờ chỉnh sửa Wikipedia chưa?

Bạn đã bao giờ chỉnh sửa Wikipedia chưa?

  • Có, nhiều lần
  • Có, một hoặc hai lần
  • Không, tôi không biết mình có thể chỉnh sửa Wikipedia
  • Không, lý do khác
  • Tôi không nhớ

Câu hỏi thứ hai hỏi liệu người dùng đã chỉnh sửa Wikipedia trước đó chưa và liệt kê năm câu trả lời tiềm năng. Một số người dùng cũng gửi khảo sát mà không trả lời câu hỏi này. Bảng 3 dưới đây đưa ra tổng quan về các câu trả lời và tỷ lệ lại dựa trên tổng số câu trả lời khảo sát.

Bảng 3: Bạn đã từng sửa đổi Wikipedia bao giờ chưa?
Tiếng Séc Tiếng Hàn
Phản hồi N Prop. N Prop.
Không, tôi không biết tôi có thể sửa Wikipedia 125 27.7% 191 36.9%
Không, vì lý do khác 103 22.8% 136 26.3%
Có, một hoặc hai lần 94 20.8% 62 12.0%
Tôi không nhớ 52 11.5% 54 10.4%
Có, nhiều lần 50 11.1% 44 8.5%
Không phản hồi 27 6.0% 31 6.0%

In both languages we find "No, I didn't know I could edit Wikipedia" is the most frequent option, and that a majority of respondents say they had not edited Wikipedia before (combining both "no" options: Czech: 50.5%; Korean: 63.2%). Regarding the "No, I didn't know I could edit Wikipedia" response, it makes sense that many people would give this answer given how many say they are creating their account for the purpose of reading. Nhưng chúng tôi vẫn rất ngạc nhiên vì con số đó rất lớn. One hypothesis is that the question might be interpreted to mean different things by different respondents. One possible interpretation is "No, I didn't know I could edit Wikipedia until this survey question pointed it out", and another is "No, I didn't know I could edit Wikipedia until recently, but once I discovered that I could, I decided to create this account." We will learn some more about this question once we make cross-tabulations against the other questions, and we can consider clearer phrasings of these responses in the future.

It is also worth noting that the order of the responses is the same across both languages, and that it is different from the order the options are shown to the user. This means that the respondents did not simply choose the first answer in the list when responding, but are instead actively letting us know that they haven't edited Wikipedia before.

Chọn vài chủ đề bạn muốn sửa đổi

People can edit Wikipedia articles on topics that they care about. We've listed a few topics below that are popular for editing. Select some topics that you may wish to edit:

Explicitly listed as checkboxes: Arts, Science, Geography, History, Music, Sports, Literature, Religion, Popular culture.

Available in a typeahead dropdown menu: Entertainment, Food and drink, Biography, Military, Economics, Technology, Film, Philosophy, Business, Politics, Government, Engineering, Crafts and hobbies, Games, Health, Social science, Transportation, Education.

The third part of the survey asks the respondents to select some topics that they may wish to edit. Nine topics are shown as checkboxes, and another eighteen topics show up when the user clicks on or types in the field. The field is free-form, allowing respondents to add additional topic. Respondents may choose and add as many topics as they like.

This analysis only covers the suggested topics. Future analyses will address the user-supplied topics, which require translation before they can be analyzed. We show one table below for each language. The table identifies the way a user can select a topic as either "checkbox", meaning it is one of the nine checkboxes; "prefilled", meaning it is one of the eighteen pre-filled topics found in the free-form field; or "other", meaning it is a topic added by the respondent.

Bảng 4: Chủ đề về Séc
Nguồn Đề tài N Prop.
hộp kiểm khoa học 198 43.9%
hộp kiểm lịch sử 187 41.5%
hộp kiểm mỹ thuật 152 33.7%
hộp kiểm âm nhạc 146 32.4%
hộp kiểm thể thao 144 31.9%
hộp kiểm văn hóa phổ biến 132 29.3%
hộp kiểm địa lý 130 28.8%
hộp kiểm văn học 123 27.3%
hộp kiểm tôn giáo 94 20.8%
điền từ giải trí 16 3.5%
điền từ trò chơi 16 3.5%
điền từ chính trị 13 2.9%
điền từ phim 13 2.9%
điền từ kinh tế 10 2.2%
lấp đầy đồ ăn và thức uống 8 1.8%
điền từ khoa học xã hội 8 1.8%
điền từ tiểu sử 7 1.6%
điền từ giáo dục 6 1.3%
điền từ đồ thủ công và sở thích 6 1.3%
điền từ công nghệ 6 1.3%
điền từ quân sự 4 0.9%
điền từ triết học 4 0.9%
điền từ kinh doanh 3 0.7%
điền từ chính phủ 2 0.4%
điền từ sức khỏe 2 0.4%
điền từ giao thông 2 0.4%
khác khác 41 9.1%

We can see that the dominating topics are all the ones listed in the checkboxes. The least frequent checkbox is selected by 20.8% of respondents, while the most frequent topic in the free-form field is only chosen by 3.5% of respondents. It is noteworthy that respondents are selecting multiple topics, as opposed to just one.

Bảng 5: Chủ đề về Hàn Quốc
Nguồn Chủ đề N Prop.
hộp kiểm mỹ thuật 218 42.1%
hộp kiểm văn hóa phổ biến 205 39.6%
hộp kiểm khoa học 197 38.0%
hộp kiểm lịch sử 179 34.6%
hộp kiểm âm nhạc 158 30.5%
hộp kiểm thể thao 114 22.0%
hộp kiểm văn học 96 18.5%
hộp kiểm tôn giáo 84 16.2%
hộp kiểm địa lý 78 15.1%
điền từ trò chơi 21 4.1%
điền từ giải trí 13 2.5%
điền từ kinh doanh 10 1.9%
điền từ kinh tế 10 1.9%
điền từ công nghệ 9 1.7%
điền từ giáo dục 9 1.7%
điền từ phim 8 1.5%
điền từ sức khỏe 8 1.5%
điền từ triết học 8 1.5%
điền từ kỹ thuật 7 1.4%
điền từ đồ thủ công và sở thích 7 1.4%
điền từ chính trị 7 1.4%
điền từ đồ ăn và thức uống 6 1.2%
điền từ quân sự 6 1.2%
điền từ khoa học xã hội 6 1.2%
điền từ tiểu sử 6 1.2%
điền từ chính phủ 4 0.8%
điền từ giao thông 2 0.4%
khác khác 145 28.0%

We see a similar trend in Korean as for Czech: the checkboxes are dominating when it comes to selecting topics, although the difference between the least popular checkbox and the most popular pre-filled topic is smaller (11.0%) in Korean than in Czech (17.3%).

Are you interested in being contacted to get help with editing?

We are considering starting a program for more experienced editors to help newer users with editing. Are you interested in being contacted to get help with editing?

We find that in both languages, a surprisingly large number of users are interested in being contacted. 164 users in Czech (36.4% of all survey respondents) and 273 users in Korean (52.7%) answered "yes" to that question. This means that there's clearly interest among new users to get help to edit Wikipedia, and that this is a potential venue for community outreach. When we dig deeper into the survey responses, we will also compare the responses to this question with the answer to the question of whether the user had already edited Wikipedia, as well as why they signed up to create an account.

Thêm địa chỉ email

Users who did not add an email address during their initial account creation are given a second opportunity to add their email address in the survey. We find that very few users do so, only 13 on Czech Wikipedia, and 20 on Korean. This corresponds to 6.5% of Czech users who did not already have an email address[footnotes 1] when shown the survey, and 5.7% of the Korean users.

Lặp lại kết quả khảo sát

Though there is not an explicit workflow for doing so, users can take the survey multiple times by revisiting the survey URL. We only store their most recent responses, meaning that we regard their most recent answer to accurately reflect their interests and opinions. At the same time, we store a count of how many times they have responded/skipped. Table 8 below shows how the number of responses is distributed, where the proportion is out of all users who either saved or skipped the survey.

Bảng 8: Số lần khảo sát được thực hiện
Tiếng Séc Tiếng Hàn
Số phản hồi N Prop. N Prop.
1 512 96.2% 593 96.1%
2 14 2.6% 23 3.7%
3 4 0.8% 1 0.2%
4 2 0.4%

We can see that it's relatively rare that users take the survey multiple times, and if someone does, it's typically only one more time. This means that we see little reason to discard responses based on users taking the survey multiple times and potentially changing their answers.

Sanity checks

We have also run various sanity checks on our data in order to ensure that things are working properly. For example, we have calculated the distribution of users assigned into the survey and control groups, which ideally should be 50/50. This also turns out to be the case, overall on Czech Wikipedia the proportions are 49.7%/50.3% survey/control, and on Korean Wikipedia it is the other way around. We do find some variation when accounts are split into registrations from desktop and mobile (e.g. that it's 47/53 in some cases), but not enough to warrant a concern that the randomization has led to imbalanced or biased groups.

While working on this report, we have not yet dug carefully into the data to determine if the responses appear to be truthful. For example, if a user answers that they did not know they can edit Wikipedia but also says they had edited Wikipedia many times, we should most likely discard their answers to at least both those questions, potentially the entire survey. This is noted and will be done as part of a more thorough examination of the survey results at some point in the near future.

Chú thích

  1. For more information about our methodology for determining if a user supplied an email address at registration, see our appendix below.

Appendix A: Email added at registration

How did we determine how many users had not provided an email address at signup to be able to calculate that proportion? This is not trivial, because the MediaWiki database does not store a timestamp of when a user added their email address, nor is there an EventLogging schema in use for logging that kind of information either. The only piece of information in the database that seemed related is the expiration timestamp of the verification token that is emailed to the user when they enter their email address.

We examined the difference between the timestamps of account registration and verification token expiration for accounts registered between January 1 and July 1 2018 on both Wikipedias and found that it is typically set to slightly more than seven days. How much more is "slightly more"? In the vast majority of cases less than ten seconds, which we think is the delay between the system creating the account and the subsequent emailing of the verification token (at which point the expiration timestamp is set to "seven days from now"). We therefore adopted a simple heuristic for determining if the user supplied an email at registration: it happened if the difference between the two timestamps is less than "one week + ten seconds".

Another thing we have to consider is that we do not have information about whether a user supplied an email address at registration but then decided to delete it. This means that they'll show up in our statistic as "did not supply an email at registration". We decided to assert that this is rarely done based on the fact that as of December 19, 64% of Czech registrations and 75% of Korean registrations between January 1 and July 1 did not have a verified email address. This suggested to us that users most likely either supply an email address that they do not check, or do not really care much about email verification, which we took to mean they are also unlikely to delete their email address.

Lastly, the proportion listed in the "added email" section above was not based on an upper limit for how quickly after registration a user can add their email address. This means that users who took the survey shortly after it was deployed have had more time to provide us with an address. In future calculations we will have a limit (e.g. one week), but in the meantime we will assert that if they have not provided us with an address already it's unlikely that they return to do so (in other words, that it's relatively unlikely that a user adds an email address after registration).