Growth/Personalized first day/Structured tasks/Copyedit/ar

تُترجم هذه الصفحة العمل على المهمّة المهيكلة «تحرير النسخ»، التي هي نوع من المهام المهيكلة التي ربما سيُوفرها فريق النمو عبر لوحة المستخدمين الخاصة بالوافدين الجدد. تحتوي الصفحة على أهداف رئيسة وتصاميم وأسئلة مفتوحة وقرارات. سيتم نشر معظم الأخبار الخاصة بتدرّج العمل في الصفحة العامة لـأخبار فريق النمو، مع نشر بعض الأخبار الهامّة أو المفصّلة هنا.

الوضع الحالي

 * 2021-07-19: إنشاء صفحة المشروع والشروع في البحوث الخلفيّة.
 * Next: مواصلة البحوث الخلفيّة

ملخص
الهدف من المهام المهيكلة هو تفصيل مهام التعديل إلى مسارات عمل خطوة بخطوة من شأنها أن تناسب الوافدين الجدد وأن تناسب الأجهزة النقالة. يعتقد فريق النموّ أنّ إدراج هذه الأنماط الجديدة من مسارات التعديل من شأنه أن يتيح لعدد أكبر من المستخدمين الجدد أن يبدؤوا في بالمساهمة في ويكيبيديا، بعضهم سيتعلّم كيفية القيام بتعديلات مهمّة ويكون فاعلا في مجتمعاتهم. بعد مناقشات داخل المجتمعات حول المهام المهيكلة، قرّرنا إنشاء المهمّة المهيكلة الأولى: «إضافة رابط».

حتى عندما قمنا ببناء هذه المهمة الأولى، كنا نفكر في ماهية المهام المهيكلة اللاحقة؛ نريد أن يكون لدى الوافدين الجدد أنواع متعددة من المهام للاختيار من بينها حتى يتمكنوا من العثور على الأنواع التي يرغبون في القيام بها، ويتمكّنوا من المرور إلى تعديلات أصعب أثناء زيادة تعلّمهم. المهمّة الثانية التي بدأنا العمل عليها كانت «إضافة صورة». But in our initial community discussions of the idea of structured tasks, the task type that communities desired most was a task around copyediting -- something related to spelling, grammar, punctuation, tone, etc. Here are our initial notes from looking into this and discussing with community members.

We know that there are many open questions around how this would work, many potential reasons that it might not go right: what kind of copyediting are we talking about? Just spelling, or something more? Is there any sort of algorithm that will work well across all languages? These questions are why we are hoping to hear from lots of community members and have an ongoing discussion as we decide how to proceed.

البحث الخلفي

مخطط البحث

الأهداف
 * We want to understand the types of copyediting tasks it might be possible to assist with algorithms.
 * We want to use an algorithm that can suggest tasks for a type of copyediting in articles across different languages.
 * We want to know how good the algorithm works (e.g. know which model works best from a set of existing models).

Literature review

 * What different subtasks are considered copyediting?
 * Identify different aspects of copyediting across the spectrum: typo/spelling to grammar to style/tone
 * What are existing approaches to copyediting in Wikipedia?
 * Communities such as Guild of Copy Editors or the Typo Team.
 * Maintenance-templates such as the copyedit-template.
 * Tools such as the moss-tool to identify typos (also JarBot in Arabic Wikipedia)
 * What are existing public commonly-used tools for spell-checking/grammar etc such as hunspell, LanguageTool, or Grammarly?
 * We know that our communities prefer transparent algorithms, so it is easy for everyone to understand where suggestions come from.
 * What are available models from research in NLP and ML, for example for the task of Grammatical Error Correction.

Defining the task

 * Which aspect of copyediting will we model for the structured task?
 * Type of task: spelling, grammar, tone/style
 * For example: What can browser-spellcheckers do?
 * Granularity -- highlighting task on the level of: article, section, paragraph, sentence, word, sub-word
 * Depends on the task
 * Surface known items (e.g. from templates) or predict new ones?
 * Only suggest that improvement is needed, or suggest how to improve?
 * Suggesting improvement is easier for simpler tasks.
 * Simply highlighting that work is needed is easier for more complex tasks (e.g. style or tone)
 * Language support: how many languages do we aim to support?
 * Include Spanish and Portuguese as target languages alongside Arabic, Vietnamese, Bengali, Czech.
 * We ideally want to cover all languages, but will realistically need to evaluate solutions based on the depth of their language coverage.

Building a dataset for evaluation

 * Generate a test-dataset (ideally in multiple languages) for the task for which we can compare different algorithms. This can be achieved in different ways
 * An existing benchmark dataset, such as CoNLL-2014 Shared Task on Grammatical Error Correction, or approaches for corpora generation (from Wikipedia)
 * Generate our own dataset from revision history using templates (copyedit) or edit summaries (typo)
 * Manual evaluation of output of models run on a set of sentences from Wikipedia.