Help:Extension:GWToolset/ja

はじめに
このページを閲覧された理由は、まとまった量のコンテンツをウィキメディアコモンズに公開すること、再利用ができるようにすることを検討中もしくは実施計画を立てているからではないでしょうか. このマニュアルでは、必要な手順を順にご案内します.

手順の概要
このツールセットの使い方について、以下の流れ図に手順と段階をまとめました. マニュアルはこの流れ図に沿って構成します.

利用者名、利用者の権限
ツールセットの利用には以下の手配が必要です.
 * 1) 利用者として登録.
 * 2) ツールセットにアクセスする権利の申請.

利用者名の登録
すでにウィキメディア・コモンズ、ウィキペディアなどウィキメディアの姉妹プロジェクトで利用者登録を済まされた場合は、この手順を飛ばしてください. 新たに利用者になる、あるいはコンテンツ投稿用のアカウントを作成する手順は以下のとおりです.
 * 1) 利用者名を決定する際に守らなければならない点をご参照ください.
 * 2) まずアカウント作成ページを開きます.

利用者ページで自己紹介をお願いします
アカウント作成が済んだらログインしてください. すると表示されたウィキページ最上部に、ご自分の利用者名が赤字で表示されるはずです.

利用者権限の申請
アップロード試験は、ツールから希望どおりの結果が提供されると確信するまで、コモンズベータ・ サーバ上で実行します. そして確信が持てたら Production サーバでツールを使います. これら2つのサーバは別個の環境であるため、両方で利用者アカウントの登録とアクセス権限の申請を求められます. その最良の方法を以下に述べます. # コモンズベータサーバ: ベータで開発者もしくはビューロクラットに連絡を取り、ベータサーバ上の GWToolset 利用者グループの権限を申請します. 連絡先はチャットルーム (commons IRC channel) もしくはGLAM メーリングリストあるいは次のリストから選んでください.
 * 1) ビューロクラット
 * 2) 開発者
 * 3) コモンズ製作用サーバ: ベータサーバ上でサンプルを使ったアップロード試験が成功した段階で、「本物の」コモンズへ移り、コモンズのビューロクラット伝言板に投稿し、GWtoolsetの利用者権限を申請します. 申請者には自己紹介を添えて審査が進みやすくするようお勧めします.

GWToolset 利用者権限はウィキメディアコモンズ製作サーバ上の有効期限が1年間で自動的に終了します. 利用者には期限切れ前に通知があり、実際に継続利用する計画がある場合には、コモンズ･ビューロクラット掲示板にて延長もしくは復活の申請をしてください.



ドメインをホワイトリストに登録
ご利用のメディアファイルのドメインがホワイトリストに未登録の場合は、ぜひウィキメディア・コモンズのドメイン・ホワイトリストに登録申請をお願いします. このホワイトリストとは、ウィキメディア・コモンズがメディアファイル取得前にドメイン名を検証するリストです. そのため、リスト登録していない場合、ご利用のメディアファイルのドメインからメディアファイルをダウンロードできません. 前記の登録申請には、実際に存在するメディアファイルへのリンクを記入してください.

申請には数営業日かかることにご留意ください. 何らかのイベントや研修プログラムを計画している場合は、安全のために1週間前までに登録申請をするようお勧めします. 予定されたイベントの準備において、特定の日付までに登録申請を履行しなければならない場合は、登録申請の題名にその日時を記入してください. それ以前に登録申請を完了させるように努力します. ホワイトリストリクエストについて説明を求めることがありますので、質問には必ず回答してください. 必須ではありませんが、自分が誰であるか、アップロードする内容を含めて、プロセスをスムーズに進めることができます.

コンテンツの選択
コンテンツを選ぶ場合、検討課題がいくつかあります. まず最初に、コンテンツに制限 - ファイル形式、著作権の制限事項、組織の制限条件など - があるかどうか、その作品をコモンズに公開できるとき影響を受けないか確認します. また検討課題によっては、コンテンツを一括アップロードできるか、あるいはいくつかのバッチ (まとまり) に分けたほうがよいか影響が出ます.

さらに別の要素として、コンテンツ共有の戦略があります. コンテンツの公開方法と時期はお決まりですか？ 大量に一括処理しますか？ それともテーマごとに小分けに処理しますか？

コンテンツの種類
コンテンツの種類ごとに、個別のメタデータ・テンプレートを使います. 一括処理の場合、画像ファイルと音声ファイルを混ぜてアップロードすることはできず、画像なら画像だけ、音声は音声だけと、分類ごとに処理します.

ライセンスの種別
単一の一括アップロードのまとまりには、異なるライセンス条件のファイルを混在させることは認められません. アップロード対象として、たとえばライセンス条件が CC BY のものと CC BY-SA のものが混じっているなら、ライセンス条件ごとに分類し、それぞれのまとまりをアップロードします.



使用許諾
1923年以降に作成されたコンテンツには、これらのファイルをウィキメディアコモンズの承認するいずれかのライセンスのもとに提供する許可を与えたという、作成者の通知が必要です. 作成者ごとにOTRS ticket numberが必要なため、複数の作成者によるファイルを単一のまとまりに混在させてアップロードすることはできません.

コンテンツ共有の戦略
この節ではコンテンツ供与の戦略をいくつか説明します. すでにまとまったコンテンツの供与を数件、受けています. いずれも大規模な寄付です. 1件はすべてのコンテンツをまとめ、1回でウィキメディア・コモンズにアップロードされました. しかし寄付の形態はこの方法に限定されません.

一括大量共有
これはコンテンツを共有する古典的な方法です. 利用可能なソースに基づいて選択できるコンテンツを、大規模にアップロードします.

利点:

テーマごと
GLAM機関は現在、テーマ単位のアップロードに感心があります. 特定の展覧会をテーマにすることもできます. すなわち、コモンズにアップロードするコンテンツの選定が、そのまま展覧会の準備の一部をなすということです.

利点:
 * アップロードの課程が継続し、新規ファイルがそれぞれ新しい関心を呼ぶ
 * 過去のアップロードからの教訓を活用

利点

技術的な互換性の分析
ツールセットの開発目標は、GLAM機関が最もコンテンツを整理しやすい一般的な方法として使用するためです. つまりツールセットはほとんどの組織で簡単に使用でき、組織によっては使用前に特別な措置が必要な場合もあります. この節の図を使用すると、組織とツールセットの互換性を判断できます. 以下で説明するとおり、図中に設問があります.

メディアファイルはすでにオンラインで公開済みですか？
GWToolsetを使用したアップロードの対象は、インターネットからアクセス可能なファイルに限定されます. 非常に大量の画像 (数百GB以上) がある場合は、アップロードするファイルをハードディスクに保存し、郵便で送信する手順が可能です. そのようなファイルの場合、メタデータの処理手順は、GWToolsetとは大きく異なります. この選択肢の詳細は、コモンズのヘルプをご参照ください.

メディアファイルをオンラインに公開できますか？
可能な場合は GWToolset が使えるよう、オンラインに公開します.

メタデータはすでにオンラインで公開済みですか？
必ずしもオンラインに公開することは求められていません. 当該のメタデータはすべて1件の「フラット」な XML にまとめて変換しておく必要があります.

メタデータはエクスポート可能ですか？
フラットな XML にまとめて変換しておく必要があります.

メタデータは XML にエクスポート可能ですか？
フラットな XML にまとめて変換しておく必要があります. 変換処理にお困りでしたら、ボランティアに呼びかけて手伝ってもらえるかもしれません. ご相談はGLAMメーリングリストに投稿をお願いします.

メディアファイルとメタデータは公開されますか？
メディアファイルのみ公開が必須です.

メディアファイルとメタデータへのアクセスに権限はありますか？
メディアファイルをパスワードで擁護することはできません. 特定の URL にアクセスすれば直接、開ける状態に置きます. メタデータは公開する必要がありません.

権限を使ってメディアファイルとメタデータへのアクセスが確保できませんか？
メディアファイルをパスワードで擁護することはできません. 特定の URL にアクセスすれば直接、開ける状態に置きます. メタデータは公開する必要がありません.

API はありませんか？
メディアファイル作成に便利なAPIは存在しますが、それを使うことは必須条件ではありません.

API は XML にも対応しますか？
メディアファイル作成に便利なAPIは存在しますが、それを使うことは必須条件ではありません.

XML ファイルはフラットな形式ですか？
同じようにメタデータを使用しても、機関によって準拠する標準が異なる場合があり、例えば OAI-PMH、EDM、MARC、Lido などが適用されます. GLAMwiki ツールセットではどの標準にも適応可能ですが、受け入れるデータ形式には以下の規定があります.

フラット形式とは？
個別の主題ごとのメタデータにはXMLファイル内で「フラット」すなわち同等のレベルに配置される必要があります. メタデータがさらに深いレベルつまり入れ子構造の内部にある場合、ツールセットが検出できません.

継承の使用
継承 (declarations) の属性も、言語属性という1つの例外を除くと認識されません. この属性は、異なる言語で主題の説明を認識するためになら使用できます.

例を挙げます. と記述すると、英語で書いた説明だと認識されます.
 * This is a description

上記の記述は、ツールセットの認識では以下のとおりです. この例に用いた PhotoID は読み取りません. 属性に含まれる情報は、情報ロスを招く可能性があります.
 * www.example.org
 * www.example.org

メタデータの入力欄1件に複数の説明を記入できるか
メタデータには、たとえばなど2回以上言及される記入欄があります. 現在、これらを個別に含める選択肢はありませんが、これらの記入欄のデータは統合や、パイプ記号 ( | ) を利用した分離ができます. 主題によっては「乗り物」、「火炎放射器」と「戦闘車両」("vehicle", "flamethrower" and "combat vehicle") のように複数の説明があります. これらの説明はすべて欄を使用してXMLに含めると、主題に追加されます. メタデータ欄は可能な限り、分離することをお勧めします. この方法なら、コモンズで正しく表示されます.

XML をフラットな形式に変換できますか？
お手もとの XML を〈フラットな〉ファイルに変換するのにお困りではありませんか？ もしそうでしたら、以下の選択肢をご検討ください.
 * 1) 専門家に委託して XML ファイルを変換するスクリプトを記述してもらう
 * 2) XSLT を利用して変換: http://www.w3.org/Style/XSL/
 * 3) XML を〈フラットな〉ファイルに変換する標準を選択. OAI-PMH が該当し – ある程度までは – Europeana 製 API も適用可能
 * 4) Open Refine をじっくり読んで研究する

メタデータテンプレート
ウィキメディアコモンズでは、テンプレートを使用してメタデータをマッピングします. したがって、コモンズに表示されるメタデータの量は、アップロード用に選択されたメタデータテンプレートに存在する欄に制限されます.

使用できるテンプレートは数種類あります. いくつか例を挙げます. '''注記: この一覧は未完成です. '''
 * Art_Photo (芸術作品_写真): https://commons.wikimedia.org/wiki/Template:Art_Photo
 * Artwork (芸術作品): https://commons.wikimedia.org/wiki/Template:Artwork
 * Book (書籍) https://commons.wikimedia.org/wiki/Template:Book
 * Musical work (音楽作品) https://commons.wikimedia.org/wiki/Template:Musical_work
 * Map (地図) https://commons.wikimedia.org/wiki/Template:Map
 * Photograph (写真) https://commons.wikimedia.org/wiki/Template:Photograph
 * Specimen (標本) https://commons.wikimedia.org/wiki/Template:Specimen

現状では動画用のテンプレートがありません. あるいは利用者が自作したテンプレートの使用も (まだ) 承認されていません.

アップロード対象の作品の種類により、使用するべきテンプレートが決まります. このことから、複数の種類のコンテンツがあり、必要とするテンプレートが異なると、一括でアップロードできないという意味でもあります. 例えば、アップロード対象ファイルが写真と音声の場合、写真は写真だけ (およびそのXMLファイル)、音声は音声だけ (およびそのXMLファイル) のバッチ (まとまり) に分離します. 同じバッチに、写真と音声両方の種類のファイルを入れてアップロードすることはできません.

ライセンステンプレートおよびその他メタデータのサブテンプレート
テンプレートを使用するメタデータ欄もあり、例えばメディアファイルのライセンスのメタデータ欄です. ツールセットが認識したクリエイティブコモンズのライセンスに対応したバナーが表示されます. 独自のテンプレート作成が可能です. これはコンテンツ使用が許諾されて、ファイルに含めるOTRSチケットを受け取った場合に便利です. 詳細はこのライセンステンプレートのOTRSチケットの例をご参照ください. ライセンス欄の文字列からテンプレートを参照しない場合、この情報はプレーンテキスト(平文) として表示されます.

注記: ウィキメディアコモンズのコミュニティでは、ファイル使用許諾を厳密に扱います. 著作権違反あるいはその他のウィキメディアのプラットフォーム上で当該ファイルの使用を認めない規制が疑われる場合、当該コンテンツはおそらく削除されるはずです. そこで、きちんとしたライセンステンプレートは例外なく必須です.

機関テンプレート
機関テンプレートはコモンズにファイルを提供またはアップロードした施設を示すため使います. このテンプレートによって教育機関の名前だけでなく、その機関に関する詳細情報を追加できます. 機関テンプレートの例はこちらのこのアムステルダム博物館のテンプレートです. これには次の有用な情報を含めることができます. このテンプレートは必須ではないものの、アップロードに含めることを強く推奨します.
 * 組織のロゴ
 * 組織の建物の外観写真
 * 所在地 (市、国など)
 * 座標
 * WebサイトのURL

ツールセットは機関テンプレートを認識します. XML ファイルを照会してテンプレートと同名のソースタグがある場合、上記のテンプレートはツールセットに取り込まれます. この事例の場合は以下のとおり. Amsterdam Museum.

ソーステンプレート
https://commons.wikimedia.org/wiki/Category:Source_templates

https://commons.wikimedia.org/wiki/Template:British_Library_image

カテゴリ
カテゴリとは、関連のあるページやメディアを集めた特別ページのことです. カテゴリ内をざっと見ただけで個別のファイルが見渡せる状態が重要です. そのためには、それぞれのカテゴリ自体が、より一般的なカテゴリに入れ子になり、階層構造を形成する必要があります. カテゴリ構造とはコモンズにあるファイルを整理し検索する主要な方法です. GLAMwikiツールセットを使うと、コンテンツを既存または新規のカテゴリに追加できます.

カテゴリは複数言語で提示される可能性があります. 確実に英語で表示するため、検索をかけて未記入の場合は、いつも使う言語のほかに英語のカテゴリ名を追加します.

既存のカテゴリを確認
詳細はこちらのクイックガイドをご参照の上、既存のカテゴリを確認してください.

カテゴリの作成
新規カテゴリを作る必要がある場合は、コモンズにおけるカテゴリの方針を通読してください.

xmlの検証
xml ファイルの検証には、http://www.w3schools.com/xml/xml_validator.asp の書式を使用します.

アンパサンド記号と大なり小なり記号 ( & < > )
xml ファイルの各欄に「&」記号を使うと、予想外の結果が出力されることがあります. これらは（たとえば）文字のXMLエンコードとして（正しく）解釈される場合があります. たとえば、「&amp;amp;」はコモンズの画像ページでは「&」と出力されます. 「 & 」などの文字列中のフローティングアンパサンド、または一見するとhtmlエンコードに似ているが、英語で「エトセトラ」を略した「&c.」などが記入してあると、GWTがその記録の処理に失敗する可能性が高くなります. 対策として、これらを検索し「and」あるいは使用されるテンプレートに応じて、その他の文字に置き換えます.

xml で欄を区切る記号は「<」と「>」です. テキスト内でこれらを使用する場合はそれぞれ、「&amp;lt;」と「&amp;gt;」、もしくは普通の丸カッコに置き換え xml の変換エラーを防止します.

注意点として、XML ファイルの特質上、HTML ファイルではないため、たとえば を使用して「&eacute;」を出力する HTML 名前付きエンティティ参照子は無効です. 直接、通常の UTF-8 記号を使用するか、 もしくは のような数値エンティティ参照子を使用する必要があります.

半角ダーシ2個 ( -- )
半角ダーシを2個並べると、xml コメント欄の一部として解釈されてしまうと、予想外の出力をします. ほとんどの場合は問題にはなりませんが、半角ダーシは題名欄では予防的に1個のみ使うようにするとよいでしょう.

等号、パイプ記号、疑問符、スラッシュ ( = | ? / )
コモンズでは、ファイル名あるいはテンプレート名で禁止もしくは問題の原因となり得る (ならない場合もある) 文字がたくさんあります. たとえば等号「=」をテンプレートで使用するには波カッコ2個で前後を挟み、「 = 」に書き換える必要があります. これらの要注意の記号を参照URLなどに使う場合、もしくはアップロードが予期せず中断してしまったときは、まずサンドボックスでサンプルを実験することをお勧めします.

不適切な文字書式
GWT が xml ファイルを読み込むとき、文字の標準形式はUTF-8 に指定します. ほとんどの文書編集ソフトには文字形式を指定する機能がありますが、メタデータのインポートやエクスポートの際には正しく変換されないことがあり、それが原因でアップロードログに表示されなかったり、文字化けしたりします. 一般的な無料の文書編集ソフトとして、オープンソースの JEdit あるいは Google スプレッドシートは、本来、使用できる xml ファイルを作成するために使われてきました. そこで一括処理を実施する準備として、ご利用のインポート、エクスポートの工程が有効な UTF-8 あるいはさらに単純な ASCII 形式で標準出力できるかどうか、小さなサンプルを作成して実験して確認します.

スクリーンキャスト
拡張機能のしくみは、次のスクリーンキャスト (動画のキャプチャ) を見るとわかりやすいでしょう. 閲覧するには、特別:GWToolsetを開き、ウィザードの指示に従います. 注記: この拡張機能を利用するには、「gwtoolset」グループに利用者登録する必要があります. ウィキメディア・コモンズのビューロクラットに連絡をして、グループ参加を申請してください.

一括アップロードの監視
特定のウィキ内の活動を追跡するには というウィキページが使えます. プロセスによっては固有のイベント追跡を目標に、独自のページを置いており、GWToolset もその一種といえます. GWToolset の「特別:ログ」ページは、それぞれのドメインごとに次のURLに置いてあり、一括アップロードの進捗状況の確認や、問題の把握に使います.

コモンズ製作サーバ https://commons.wikimedia.org/w/index.php?title=Special:Log&type=gwtoolset

コモンズ・ベータ https://commons.wikimedia.beta.wmflabs.org/w/index.php?title=Special:Log&type=gwtoolset