Structured Data Across Wikimedia/ja

ウィキメディアの一貫した構造化データ (SDAW＝Structured Data Across Wikimedia) というプロジェクトは、ウィキ文で記したページのコンテンツを構造化する役に立ち、機械認識の対象として関連付けをもたらして（機械可読）、同時に閲読、編集、検索の利便性を高め、インターネット環境において、またウィキメディアのプロジェクト相互で便利にしようとするものです.

利用者にとってはウィキメディアのプロジェクト間でコンテンツのつながりを把握する手段であり、閲読者はウィキメディアの知識の生態系に踏みこむ深さが増え、寄稿者にはまるでウィキデータ式の汎用性を得たように情報を複数のプロジェクトに広めることができます. 当プロジェクトはまた試行の場であり、コンピュータ援用の編集ツールを使って世界のどこにいる編集者の誰もが、より簡便に、また支障なく編集活動ができることを目指します.

背景
このプロジェクトは、以前のStructured Data on Commons (SDC) の助成金の一部として、コモンズ上で完了した同様の開発のフォローアップであり、Sloan Foundation からの3年間の助成金が一部提供される予定です. SDC に取り組む中で、すべてのコンテンツに対してより高度なメタデータと、よりよい検索結果を提供するための API が必要であることを認識しました.

このプロジェクトは、3 つの高い目標を掲げています:


 * 1) To allow machines to recognize Wikimedia content and to suggest relationships to other Wikimedia content. We are exploring this first via the image suggestion project.
 * 2) To design a way to structure articles and pages to enable new content formats – such as content served in smaller, easily digestible pieces that is more accessible for readers to use and share.
 * 3) To give Wikimedia users a more inviting, more efficient way to search and find content, building on MediaSearch, and exploring new ways to improve search across Wikipedias using Structured Data.

何が変わったか
当プロジェクトの目的は柔軟な新システムを設計して試作版を作ることで、近い将来、メタデータをサポートする需要ができたとき、必要なものをすべて受け入れるように目指します.

この作業にあたり、開発の主眼となる以下のプロジェクト3件を識別しました.


 * 1) 画像の提案 の対象は経験を積んだ編集者で、ウィキペディアの記事に挿絵を加えやすくする機能です.
 * 2) 見出し単位のメタデータ は別称見出し単位の主題 といい、ウィキペディアの特定の記事にある見出しの内容を説明する機能です.
 * 3) 検索の改善 では構造化したコンテンツを利用して、ウィキペディアでコンテンツを探そうとする利用者に向けて、親しみやすく効率の良い方法の提供を目指します.

画像の提案
The Image Suggestion UI aims at developing systems for structured data across all Wikimedia projects.

This work will build on the work already begun as part of the “Add an image” structured task project. However, its focus will be shifted towards improving the processes for experienced contributors. In particular, we will target users who have edited or watched a particular article or set of articles, since they are likely to be experts in the topic and to have interest in seeing that article(s) improve.

見出し単位の主題
節の主題プロジェクトとは、個別の記事にある節を検出し、当該の節に対する主題を創造するため、以下に挙げるさまざまな要素を援用します.


 * ウィキデータ項目の検知アルゴリズムは、当該の節にある青リンクを基準にします（共同開発は構造化データ班、研究開発班、データプラットフォーム班と連携の予定. ）
 * 特定の記事内で、どこが節か自動で判別する能力（共同開発に構造化データ班、データプラットフォーム班が参加予定. ）

節単位の主題に関して、使用事例の最初の一つに、節のレベルで画像をお奨めする点を予測しており、これには上記で説明した青リンクのアルゴリズム、節の検知構造を応用することになり、初学者の体験プログラム、経験を積んだ寄稿者には通知を使って提供していく予定です. この基盤として画像のお奨め機能に施した作業があり、共同作業は構造化データ、データプラットフォーム、調査研究、アンドロイド、Growth の各担当チームと連携して進めます.

これらの要素も、利用者の現状の編集体験を変えないし、影響も及ぼさない見込みです. これらの活動は全て自動処理であり、編集者の手助けを必要としません. 現状では、当プロジェクトは開発段階にあり、まだ今後、よく検討するべき要素に加えて／あるいはフィードバックを利用者の皆さんにお願いすることになります.

検索の改善
検索の改善プロジェクトは利用者がもっと親しみやすく効率の良い検索方法でウィキペディアのコンテンツを探せるように、構造化コンテンツを用います. 特別:検索の改善とは、利用者が探している情報をきちんと得るように、あるいはそれまで見落としていたり、もしかして従来の検索で見過ごされた情報を拾えるように目指していきます.

構造化したコンテンツを利用して「特化した検索」の改善点は何でそれを段階的にどう定義するか、利用者が見つけたいコンテンツの検索をどう補佐するか、特に記事総数が少なめの言語版ウィキについて取り組む所存です.

私たちが 避けたい こととは？

 * 1) 利用者を置き去りにして進む
 * 2) 新しいコンテンツをあれもこれも渡して点検してくれと頼み、利用者をうんざりさせる
 * 3) ウィキメディアってやっぱりアレだよねというバイアス（判断の歪み）を増やす
 * 4) 不正行為を助ける針路を増やす
 * 5) 各種システムにいたずらに複雑さを取り込む

2022

 * 初回の画像のお奨めテストはウィキペディアのポルトガル語版、ロシア語版、インドネシア語版で実施し、成功のうちに終了しました.
 * プロジェクト：ページを更新して、イニシアチブの現状を反映させた.

2022

 * ウィキメディアの一貫した構造化について、2年次の報告書を発行しました.
 * DPLA には SDAW 助成金がつき、画像のうち説明文がついて継承を明示したものの再利用を促進します. 詳細は DPLA のページ2022年SDAW プロジェクト告知をご参照ください. （2022 SDAW project announcement）
 * 検索の改善に関して、広く聞き取り調査を始めました（Search improvements）.

2022

 * イニシアチブの刷新、また開発の主軸となるプロジェクト3件の決定に照らし、関連のページ類を更新しました.
 * テスト対象コミュニティとして、インドネシア語版ウィキペディアが参加しました.

2022

 * 画像の提案に関した最初の試験コミュニティとなるポルトガル語版、ロシア語版のウィキペディアのコミュニティとコンタクトを確立. （Image Suggestions）

2021

 * プロジェクトは初めて試験ステージに進み、ウィキペディアの利用者に使えるかもしれない画像群をお知らせする実験として、通知機能の応用に取り組んでいます.

2021年5月 - 8月

 * 画像提案プロジェクトに関してフィードバック募集中（Image Suggestions）、個別の聞き取りとコメント募集月間 month-long RfC 実施のウィキペディア + コモンズ 4 件

2021

 * これらの発想にフィードバックを募集.
 * この発想を伸ばすため、ワイヤフレーム素案と試作版作りに取り組む.
 * この作業に適したインフラを技術意思決定フォーラム（Technical Decision Making Forum）の場で検討. をご参照ください.

2020年後半

 * MediaSearchをコモンズに組み込むには.
 * MediaSearch A/B 試験 - 2020年9月10日より同17日に実施

フィードバック
プロジェクト：フィードバックは現在も今後もいつでも喜んでお受けします. 特に関心があるのは皆さんの考えで、主題単位のメタデータ生成のプロセスにおいて「一連の和の中に人間が関与し続ける」べきかどうかという点です. 以下の各質問に関して、皆さんから忌憚のないご意見を募集中です.


 * 1) プロジェクトに期待されることとは
 * 2) このプロジェクトに利用者が寄せる期待とは？ こういうアクションを実行しますよと表明するとして、欠かせないのは？
 * 3) これらメタデータの使い道として、どんな想定をしていますか？ 皆さん自身のワークフローに照らして、具体的にどう役立つと予測しますか？
 * 4) メタデータの調整
 * 5) 荒しおよび／または偏向を予防するには、調整が必要でしょうか？
 * 6) 調整が必要な場合、効果的に管理する方法とは？
 * 7) メタデータの追加と検証
 * 8) 自動化されたシステムがメタデータをお奨めすると、利用者は承認か取り下げか 選びたいと考えているでしょうか？
 * 9) 自動化されたシステムが提供するものに上乗せして、利用者は''その他のメタデータの追加' を希望しているでしょうか？
 * 10) 必要に応じてですが、機械生成のメタデータをどう改善するか、フィードバックのチャンスを利用者に与えたら、それで対策は十分だと考えていませんか？
 * 11) 視覚化が編集にもたらす恩恵
 * 12) メタデータは誰にでも可視化する のか、それとも特定のクラスに分類される人々に限定しますか？
 * 13) メタデータの編集が可能 なのは全ての利用者が対象か、それとも特定のクラスに分類される一部の人々だけでしょうか？

さらにまた、関連のプロジェクトに関して特定の課題を述べたフィードバックは、通常はプロジェクトのトークページに投稿をお奨めしています.
 * コモンズと検索機能 MediaSearch
 * 画像の提案

資金計画
この作業には資金の一部を アルフレッド・P・スローン財団よりとして受けており、助成対象事業「コモンズの構造化データ」の第1段階の満了後にさらに作業を充実させました.