Structured Data Across Wikimedia/ja

ウィキメディアの一貫した構造化データ (SDAW＝Structured Data Across Wikimedia) というプロジェクトは、ウィキ文で記したページのコンテンツを構造化する役に立ち、機械認識の対象として関連付けをもたらして（機械可読）、同時に閲読、編集、検索の利便性を高め、インターネット環境において、またウィキメディアのプロジェクト相互で便利にしようとするものです.

利用者にとってはウィキメディアのプロジェクト間でコンテンツのつながりを把握する手段であり、閲読者はウィキメディアの知識の生態系に踏みこむ深さが増え、寄稿者にはまるでウィキデータ式の汎用性を得たように情報を複数のプロジェクトに広めることができます. 当プロジェクトはまた試行の場であり、コンピュータ援用の編集ツールを使って世界のどこにいる編集者の誰もが、より簡便に、また支障なく編集活動ができることを目指します.

背景
このプロジェクトは、以前のStructured Data on Commons (SDC) の助成金の一部として、コモンズ上で完了した同様の開発のフォローアップであり、Sloan Foundation からの3年間の助成金が一部提供される予定です. SDC に取り組む中で、すべてのコンテンツに対してより高度なメタデータと、よりよい検索結果を提供するための API が必要であることを認識しました.

このプロジェクトは、3 つの高い目標を掲げています:


 * 1) ウィキメディアのコンテンツを機械に認識させ、ウィキメディアの他のコンテンツとの連携をお奨めしてもらう.  この取り組みはまず最初に、画像のお奨めプロジェクトという形で道を探っています.
 * 2) 記事やページの構造化の方法を設計し、コンテンツに新しいフォーマットを導入する – 例えばコンテンツをもっと軽くて簡単に把握できる要素に分解し、読者が楽に使ったり共有できるようにするなど.
 * 3)  ウィキメディアの利用者向けにコンテンツ検索とヒットをもっと親しみやすく効率の良い方法を提供するため、MediaSearchを基盤として構築し、また構造化データを使ってより良い検索をウィキペディアのどの言語版にも提供します.

何が変わったか
当プロジェクトの目的は柔軟な新システムを設計して試作版を作ることで、近い将来、メタデータをサポートする需要ができたとき、必要なものをすべて受け入れるように目指します.

この作業にあたり、開発の主眼となる以下のプロジェクト3件を識別しました.


 * 1) 画像の提案 の対象は経験を積んだ編集者で、ウィキペディアの記事に挿絵を加えやすくする機能です.
 * 2) 見出し単位のメタデータ は別称見出し単位の主題 といい、ウィキペディアの特定の記事にある見出しの内容を説明する機能です.
 * 3) 検索の改善 では構造化したコンテンツを利用して、ウィキペディアでコンテンツを探そうとする利用者に向けて、親しみやすく効率の良い方法の提供を目指します.

画像の提案
画像のお奨めUIの趣旨とは、ウィキメディアの全プロジェクトを横断する構造化データのシステム開発にあります.

この作業の下敷きには、既に始動した 構造化タスクの「画像を追加」プロジェクトの一部を使います. しかしながら、焦点を当てる範囲は経験を積んだ寄稿者向きのプロセス改善へと移行すると予測されます. 具体的には、固有の記事もしくは記事群を編集したりウォッチリストに入れている編集者を選ぶことにしており、それらの人々はその主題に精通している、当該の記事の改善にきっと関心があると予測されるからです.

見出し単位の主題
節の主題プロジェクトとは、個別の記事にある節を検出し、当該の節に対する主題を創造するため、以下に挙げるさまざまな要素を援用します.


 * ウィキデータ項目の検知アルゴリズムは、当該の節にある青リンクを基準にします（共同開発は構造化データ班、研究開発班、データプラットフォーム班と連携の予定. ）
 * 特定の記事内で、どこが節か自動で判別する能力（共同開発に構造化データ班、データプラットフォーム班が参加予定. ）

節単位の主題に関して、使用事例の最初の一つに、節のレベルで画像をお奨めする点を予測しており、これには上記で説明した青リンクのアルゴリズム、節の検知構造を応用することになり、初学者の体験プログラム、経験を積んだ寄稿者には通知を使って提供していく予定です. この基盤として画像のお奨め機能に施した作業があり、共同作業は構造化データ、データプラットフォーム、調査研究、アンドロイド、Growth の各担当チームと連携して進めます.

これらの要素も、利用者の現状の編集体験を変えないし、影響も及ぼさない見込みです. これらの活動は全て自動処理であり、編集者の手助けを必要としません. 現状では、当プロジェクトは開発段階にあり、まだ今後、よく検討するべき要素に加えて／あるいはフィードバックを利用者の皆さんにお願いすることになります.

検索の改善
検索の改善プロジェクトは利用者がもっと親しみやすく効率の良い検索方法でウィキペディアのコンテンツを探せるように、構造化コンテンツを用います. 特別:検索の改善とは、利用者が探している情報をきちんと得るように、あるいはそれまで見落としていたり、もしかして従来の検索で見過ごされた情報を拾えるように目指していきます.

構造化したコンテンツを利用して「特化した検索」の改善点は何でそれを段階的にどう定義するか、利用者が見つけたいコンテンツの検索をどう補佐するか、特に記事総数が少なめの言語版ウィキについて取り組む所存です.

私たちが 避けたい こととは？

 * 1) 利用者を置き去りにして進む
 * 2) 新しいコンテンツをあれもこれも渡して点検してくれと頼み、利用者をうんざりさせる
 * 3) ウィキメディアってやっぱりアレだよねというバイアス（判断の歪み）を増やす
 * 4) 不正行為を助ける針路を増やす
 * 5) 各種システムにいたずらに複雑さを取り込む

2022

 * 画像のおすすめテスト段階はウィキペディアの次の言語版で始まりました. カタロニア語版、フィンランド語版、ハンガリー語版、ノルウェー語版. （Image Suggestions）

2022

 * 初回の画像のお奨めテストはウィキペディアのポルトガル語版、ロシア語版、インドネシア語版で実施し、成功のうちに終了しました.
 * プロジェクト：ページを更新して、イニシアチブの現状を反映させた.

2022

 * ウィキメディアの一貫した構造化について、2年次の報告書を発行しました.
 * DPLA には SDAW 助成金がつき、画像のうち説明文がついて継承を明示したものの再利用を促進します. 詳細は DPLA のページ2022年SDAW プロジェクト告知をご参照ください. （2022 SDAW project announcement）
 * 検索の改善に関して、広く聞き取り調査を始めました（Search improvements）.

2022

 * イニシアチブの刷新、また開発の主軸となるプロジェクト3件の決定に照らし、関連のページ類を更新しました.
 * テスト対象コミュニティとして、インドネシア語版ウィキペディアが参加しました.

2022

 * 画像の提案に関した最初の試験コミュニティとなるポルトガル語版、ロシア語版のウィキペディアのコミュニティとコンタクトを確立. （Image Suggestions）

2021

 * プロジェクトは初めて試験ステージに進み、ウィキペディアの利用者に使えるかもしれない画像群をお知らせする実験として、通知機能の応用に取り組んでいます.

2021年5月 - 8月

 * 画像提案プロジェクトに関してフィードバック募集中（Image Suggestions）、個別の聞き取りとコメント募集月間 month-long RfC 実施のウィキペディア + コモンズ 4 件

2021

 * これらの発想にフィードバックを募集.
 * この発想を伸ばすため、ワイヤフレーム素案と試作版作りに取り組む.
 * この作業に適したインフラを技術意思決定フォーラム（Technical Decision Making Forum）の場で検討. をご参照ください.

2020年後半

 * MediaSearchをコモンズに組み込むには.
 * MediaSearch A/B 試験 - 2020年9月10日より同17日に実施

フィードバック
プロジェクト：フィードバックは現在も今後もいつでも喜んでお受けします. 特に関心があるのは皆さんの考えで、主題単位のメタデータ生成のプロセスにおいて「一連の和の中に人間が関与し続ける」べきかどうかという点です. 以下の各質問に関して、皆さんから忌憚のないご意見を募集中です.


 * 1) プロジェクトに期待されることとは
 * 2) このプロジェクトに利用者が寄せる期待とは？ こういうアクションを実行しますよと表明するとして、欠かせないのは？
 * 3) これらメタデータの使い道として、どんな想定をしていますか？ 皆さん自身のワークフローに照らして、具体的にどう役立つと予測しますか？
 * 4) メタデータの調整
 * 5) 荒しおよび／または偏向を予防するには、調整が必要でしょうか？
 * 6) 調整が必要な場合、効果的に管理する方法とは？
 * 7) メタデータの追加と検証
 * 8) 自動化されたシステムがメタデータをお奨めすると、利用者は承認か取り下げか 選びたいと考えているでしょうか？
 * 9) 自動化されたシステムが提供するものに上乗せして、利用者は''その他のメタデータの追加' を希望しているでしょうか？
 * 10) 必要に応じてですが、機械生成のメタデータをどう改善するか、フィードバックのチャンスを利用者に与えたら、それで対策は十分だと考えていませんか？
 * 11) 視覚化が編集にもたらす恩恵
 * 12) メタデータは誰にでも可視化する のか、それとも特定のクラスに分類される人々に限定しますか？
 * 13) メタデータの編集が可能 なのは全ての利用者が対象か、それとも特定のクラスに分類される一部の人々だけでしょうか？

さらにまた、関連のプロジェクトに関して特定の課題を述べたフィードバックは、通常はプロジェクトのトークページに投稿をお奨めしています.
 * コモンズと検索機能 MediaSearch
 * 画像の提案

資金計画
この作業には資金の一部を アルフレッド・P・スローン財団よりとして受けており、助成対象事業「コモンズの構造化データ」の第1段階の満了後にさらに作業を充実させました.