Growth/Personalized first day/Structured tasks/Copyedit/ja

このページで解説する「文の編集」タスクとは、Growth チームが編集初学者のホームページに提供する予定の構造化タスクのひとつです. このページでは主要なアセット、設計、未決の課題、意思決定について述べます. 進捗状況で増えた更新のほとんどは一般向けのGrowthチームの更新ページに、このページには特定の大規模または詳細な更新をそれぞれ掲載します.

現状

 * 2021-07-19: プロジェクトページを開設して背景調査を開始.
 * Next: 背景調査を続ける

要約
構造化タスクの目的は、編集作業（タスク）を細かな段階に分解し、それぞれのワークフロー単位を新規参加者にわかりやすく、モバイル環境に適した形にまとめることです. Growth チームではこれらの新しいタイプの編集ワークフローを導入するとウィキペディアに新規に参加しようとする人がもっと増えて、より複雑な編集を覚えるきっかけ作りとコミュニティへの参加の糸口になると期待しています. 構造化タスクの発案をさまざまなコミュニティと協議したのち、チームでは1番目の構造化タスクのビルドは「リンクの追加」に決まりました.

その1番目のタスクを作成する段階さえ、次にどんな構造化タスクを設けるか考えていました. 新規編集者には複数の種類のタスクから選べるようにして、それぞれがおもしろそうだと感じるタスクを見つけること、またどんどん難易度の高いものに挑戦できるようにしたいと考えました. 作業中のタスクの2番目は、「画像の追加」です. しかしながら、構造化タスクに関するコミュニティとの初期の協議では、コミュニティがもっとも 要望するタスクとは文の編集 -- スペルや用字、文法や句読点、文の口調などでした. この件を検討した当初、コミュニティの皆さんとの協議をこちらの初期のメモにまとめてあります.

これがどのように有効になるか、まだ未対応の質問がたくさんあること、うまくいかないという予測には複数の理由があることを承知しています. では、ここで言う文の編集とは、具体的にどんなものでしょうか？ 訳 スペルや用字のエラーか、それ以上か？ 対象言語が何でもうまく作動するアルゴリズムは既にあるかどうか？ これらの質問があるからこそ、広くコミュニティの皆さんから意見をお聞きして、プロセスの決定段階と並行して協議を 続けたいと考えます.

目標

 * アルゴリズムで補佐できるタスクとして、どのような文の編集があるか知ることが課題です.
 * 特定の種類の文の編集を記事内で提案するアルゴリズムで、さまざまな言語で有効なものを求めます.
 * アルゴリズムの性能を調べたいです（例＝既存のモデルを比較すると最良のものはどれか）.

文意の評価

 * 文の編集と言っても、さらに分解すると何があるか？
 * 変動範囲を許容すると文の編集とはどんな要素で成り立つか. 誤字脱字、スペルや用語、文法、記述法、語調
 * ウィキペディアでは現状、どのようなアプローチで文を編集しているか？
 * コミュニティとしては原稿編集集団Guild of Copy Editors あるいは誤字対策チーム Typo Team などが活動中.
 * 管理用テンプレートの例として文の編集用テンプレート copyedit-template
 * 誤字検出に使う moss-tool などのツール（アラビア語版ウィキペディアには JarBot あり）
 * 公開のツールで、誤字脱字やスペル間違いなどの対策用に人気があるのはどんなものか、たとえばハンスペル hunspell、言語ツール LanguageTool あるいはグラマリー Grammarly など？
 * We know that our communities prefer transparent algorithms, so it is easy for everyone to understand where suggestions come from.
 * What are available models from research in NLP and ML, for example for the task of Grammatical Error Correction.

タスクの定義

 * 文の編集のうち、どの要素を構造化タスクのモデルに採用するか？
 * タスクの種類とは、スペルや誤字脱字、文法、語調や文体
 * 例を考える：ブラウザ内蔵のスペルチェッカーの機能とは？
 * 粒度 -- タスクをどの段階に落とし込むか：単位は記事全体か、見出しごとか、段落か、単文か、単語か、複合語の要素ごとか
 * タスクごとに幅を持たせる
 * Surface known items (e.g. from templates) or predict new ones?
 * Only suggest that improvement is needed, or suggest how to improve?
 * Suggesting improvement is easier for simpler tasks.
 * Simply highlighting that work is needed is easier for more complex tasks (e.g. style or tone)
 * Language support: how many languages do we aim to support?
 * Include Spanish and Portuguese as target languages alongside Arabic, Vietnamese, Bengali, Czech.
 * We ideally want to cover all languages, but will realistically need to evaluate solutions based on the depth of their language coverage.

評価用のデータセットを構築

 * 特定のタスクについてテスト用データセットの構築（できるだけ複数言語で実施）により、異なるアルゴリズムの比較対照に使えるようにします. さまざまな実践の取り組み方
 * 既存のベンチマーク用のデータセット、たとえばCoNLL-2014 文法エラー修正の共同タスクまたはコーパス集作成という取り組み（対象はウィキペディア）
 * 変更履歴から独自のデータセットを作成するには、テンプレート（文の編集）または編集要約（誤字）を使う
 * ウィキペディアから抽出した文章を使って実施し、出力モデルケースを手動で評価した結果