Help:Extension:GWToolset/ja

はじめに
このページを閲覧された理由は、まとまった量のコンテンツをウィキメディアコモンズに公開すること、再利用ができるようにすることを検討中もしくは実施計画を立てているからではないでしょうか. このマニュアルでは、必要な手順を順にご案内します.

手順の概要
このツールセットの使い方について、以下の流れ図に手順と段階をまとめました. マニュアルはこの流れ図に沿って構成します.

利用者名、利用者の権限
ツールセットの利用には以下の手配が必要です.
 * 1) 利用者として登録.
 * 2) ツールセットにアクセスする権利の申請.

利用者名の登録
すでにウィキメディア・コモンズ、ウィキペディアなどウィキメディアの姉妹プロジェクトで利用者登録を済まされた場合は、この手順を飛ばしてください. 新たに利用者になる、あるいはコンテンツ投稿用のアカウントを作成する手順は以下のとおりです.
 * 1) 利用者名を決定する際に守らなければならない点をご参照ください.
 * 2) まずアカウント作成ページを開きます.

利用者ページで自己紹介をお願いします
アカウント作成が済んだらログインしてください. すると表示されたウィキページ最上部に、ご自分の利用者名が赤字で表示されるはずです.

利用者権限の申請
アップロード試験は、ツールから希望どおりの結果が提供されると確信するまで、コモンズベータ・ サーバ上で実行します. そして確信が持てたら Production サーバでツールを使います. これら2つのサーバは別個の環境であるため、両方で利用者アカウントの登録とアクセス権限の申請を求められます. その最良の方法を以下に述べます. # コモンズベータサーバ: ベータで開発者もしくはビューロクラットに連絡を取り、ベータサーバ上の GWToolset 利用者グループの権限を申請します. 連絡先はチャットルーム (commons IRC channel) もしくはGLAM メーリングリストあるいは次のリストから選んでください.
 * 1) ビューロクラット
 * 2) 開発者
 * 3) コモンズ製作用サーバ: ベータサーバ上でサンプルを使ったアップロード試験が成功した段階で、「本物の」コモンズへ移り、コモンズのビューロクラット伝言板に投稿し、GWtoolsetの利用者権限を申請します. 申請者には自己紹介を添えて審査が進みやすくするようお勧めします.

GWToolset 利用者権限はウィキメディアコモンズ製作サーバ上の有効期限が1年間で自動的に終了します. 利用者には期限切れ前に通知があり、実際に継続利用する計画がある場合には、コモンズ･ビューロクラット掲示板にて延長もしくは復活の申請をしてください.



ドメインをホワイトリストに登録
ご利用のメディアファイルのドメインがホワイトリストに未登録の場合は、ぜひウィキメディア・コモンズのドメイン・ホワイトリストに登録申請をお願いします. このホワイトリストとは、ウィキメディア・コモンズがメディアファイル取得前にドメイン名を検証するリストです. そのため、リスト登録していない場合、ご利用のメディアファイルのドメインからメディアファイルをダウンロードできません. 前記の登録申請には、実際に存在するメディアファイルへのリンクを記入してください.

申請には数営業日かかることにご留意ください. 何らかのイベントや研修プログラムを計画している場合は、安全のために1週間前までに登録申請をするようお勧めします. 予定されたイベントの準備において、特定の日付までに登録申請を履行しなければならない場合は、登録申請の題名にその日時を記入してください. それ以前に登録申請を完了させるように努力します. ホワイトリストリクエストについて説明を求めることがありますので、質問には必ず回答してください. 必須ではありませんが、自分が誰であるか、アップロードする内容を含めて、プロセスをスムーズに進めることができます.

コンテンツの選択
コンテンツを選ぶ場合、検討課題がいくつかあります. まず最初に、コンテンツに制限 - ファイル形式、著作権の制限事項、組織の制限条件など - があるかどうか、その作品をコモンズに公開できるとき影響を受けないか確認します. また検討課題によっては、コンテンツを一括アップロードできるか、あるいはいくつかのバッチ (まとまり) に分けたほうがよいか影響が出ます.

さらに別の要素として、コンテンツ共有の戦略があります. コンテンツの公開方法と時期はお決まりですか？ 大量に一括処理しますか？ それともテーマごとに小分けに処理しますか？

コンテンツの種類
コンテンツの種類ごとに、個別のメタデータ・テンプレートを使います. 一括処理の場合、画像ファイルと音声ファイルを混ぜてアップロードすることはできず、画像なら画像だけ、音声は音声だけと、分類ごとに処理します.

ライセンスの種別
単一の一括アップロードのまとまりには、異なるライセンス条件のファイルを混在させることは認められません. アップロード対象として、たとえばライセンス条件が CC BY のものと CC BY-SA のものが混じっているなら、ライセンス条件ごとに分類し、それぞれのまとまりをアップロードします.



Permissions
Content that was created after 1923 probably needs a notice that you have permission form the creator to release these files under one of the accepted licenses for Wikimedia Commons. It is not possible to upload files of different creators in one batch because you need an OTRS ticket number for every creator.

Content sharing strategies
There have been several large content donations already. All of these were mass donations: one single event where all the content was uploaded to Wikimedia Commons. This is not the only way to do a donation. This chapter discusses different strategies for content donations.

One time mass sharing
This is the classic way of sharing content: a large scale upload of the content that can be selected with the available sources.

Advantages:

Theme based
Some GLAMs are currently considering theme based uploads. A theme can be an exhibition. This means that selecting the content that will be uploaded to commons can become a part of the process of preparing an exhibition.

Advantages:
 * Ongoing process of uploads, every new upload gains interest
 * Lessons learned from past upload can be

Advantages

Technical compatibility analyses
The Toolset has been developed to be used by the most common way GLAMs have organised their content. This means that the Toolset is easy to work with for most organisations, but that some will have to take extra measures before they can use it. The diagram in this paragraph can be used to determine how compatible the Toolset is for your organisation. Every question in the diagram is explained underneath.

Are the media files online available?
Only files accessible from the internet can be uploaded using GWToolset. If you have a very large amount of images (hundreds of GBs or more), it is possible to arrange the files to be uploaded by mailing a hard disk. The procedures for processing metadata on such files is very different than those for GWToolset. For more information on this option, please see Commons:Help:Server-side_upload.

Can the media files be put online?
If they can be, then you need to do this to use GWToolset

Is the metadata online available?
The metadata does not need to be online. The metadata just needs to be converted to a single XML file in a "flat" format.

Can the metadata be exported?
The metadata needs to be converted to a flat XML format.

Can the metadata be exported to XML?
The metadata needs to be converted to a flat XML format. If you have trouble converting to XML, there are volunteers who can probably help you. Contact the glam mailing list.

Are the mediafiles and metadata both publicly available?
Only the media files need to be publicly available.

Are credentials available to gain access to the mediafiles and metadata?
The media files cannot be behind a password. They must be directly accessible from a URL. The metadata doesn't need to be publicly accessible

Can these credentials be used to access the mediafiles and metadata?
The media files cannot be behind a password. They must be directly accessible from a URL. The metadata doesn't need to be publicly accessible

Is there an API available?
API's can be useful for generating the metadata file, but not required.

Does the API respond in XML?
API's can be useful for generating the metadata file, but not required.

Is the XML in flat format?
There are several standards that are currently used by organisations to organise their metadata, for example OAI-PMH, EDM, MARC and Lido. The GLAMwiki Toolset accepts all forms of metadata as long as the data complies to the following requirements.

What is flat format?
The metadata of individual objects have to be on the same level of hierarchy in the XML file, that's what 'flat' refers to. Metadata in a deeper level, further in the hierarchy, is not recognised by the Toolset.

The use of attributes
Attributes of declarations are also not recognised with one exception: the language attribute. This attribute can be used to recognise the descriptions of objects in different languages.

For example , is recognised as a description in English.
 * This is a description

Will be seen by the Toolset as The PhotoID in this example will not be read. Information in attributes can cause loss of information.
 * www.example.org
 * www.example.org

Multiple descriptions in one metadata field
メタデータには、たとえばなど2回以上言及される記入欄があります. 現在、これらを個別に含める選択肢はありませんが、これらの記入欄のデータは統合や、パイプ記号 ( | ) を利用した分離ができます. 主題によっては「乗り物」、「火炎放射器」と「戦闘車両」("vehicle", "flamethrower" and "combat vehicle") のように複数の説明があります. これらの説明はすべて欄を使用してXMLに含めると、主題に追加されます. メタデータ欄は可能な限り、分離することをお勧めします. この方法なら、コモンズで正しく表示されます.

Can the XML be transformed in flat format?
Do you need help to convert your XML to a 'flat' XML file? Then consider these options:
 * 1) Hire a specialist to write a script to convert your XML file
 * 2) Use XSLT: http://www.w3.org/Style/XSL/
 * 3) Choose a standard that publishes the XML as a 'flat' file, like OAI-PMH and – to a certain extent – the Europeana API
 * 4) Look into Open Refine

Metadata templates
Wikimedia Commons uses templates to map metadata. The amount of metadata that will be displayed on Commons is therefore limited to the fields that are present in the metadata template that is chosen for the upload.

There are several templates available. Some of the templates that are available are: Note: This list is not yet complete
 * Art_Photo: https://commons.wikimedia.org/wiki/Template:Art_Photo
 * Artwork: https://commons.wikimedia.org/wiki/Template:Artwork
 * Book https://commons.wikimedia.org/wiki/Template:Book
 * Musical work https://commons.wikimedia.org/wiki/Template:Musical_work
 * Map https://commons.wikimedia.org/wiki/Template:Map
 * Photograph https://commons.wikimedia.org/wiki/Template:Photograph
 * Specimen https://commons.wikimedia.org/wiki/Template:Specimen

There is currently no template available for video content. It's not possible (yet) to use a template you created yourself.

The type of work that you want to upload determines the template you ought to use. This also means that it is not possible to upload multiple types of content that require different templates. E.g.: if you want to upload photos and sound files you should separate these uploads and XML files in an upload (and XML file) of the photos and an upload (and XML file) of the sound files. It is not possible to upload both file types in one batch.

License template and other metadata sub-templates
Some metadata fields also use templates. An example is the metadata field for the license of a mediafile. A Creative Commons license will be recognised by the Toolset and results in the display of the corresponding banner with the license. It is possible to create your own template. This is useful when you've cleared permission to use the content and received an OTRS ticket to include with the files. See this example of an OTRS ticket in a license template. If the text in the license field is not referring to a template, this information will be shown as plain text.

Note: the Wikimedia Commons community is very strict when it comes to permission of files usage. The content is most likely deleted when there is any doubt about copyright infringement or other restrictions that do not permit the use of the file on the Wikimedia platforms. This is why a good license template is an absolute must.

Institution Template
An institution template is used to show what institution provided and/or uploaded the file to commons. The template makes it possible to add more information about your institution than only the name of the institution. An example of an institutional template is this template of the Amsterdam Museum. Usefull information to include in this template is: This template is not required, but highly recommended to include with your uploads.
 * The logo of your organisation
 * A photo of the building of your organisation
 * The location (City, country, etc)
 * The coordinates
 * The URL to your website

An institution template will be recognised by the Toolset. The template mentioned above will be included by the Toolset if the source tag in the XML file has the same name as the template, in this case: Amsterdam Museum.

Source template
https://commons.wikimedia.org/wiki/Category:Source_templates

https://commons.wikimedia.org/wiki/Template:British_Library_image

Categories
Categories are special pages to group related pages and media. It is essential that every file can be found by browsing the category structure. To allow this, each file must be put into a category directly. Each category should itself be in more general categories, forming a hierarchical structure. The category structure is the primary way to organize and find files on the Commons. It is essential that every file can be found by browsing the category structure. With the GLAMwiki Toolset you can add your content to existing or new categories.

Categories can be in multiple languages. Make sure that, next to your own language, you also search for and add English categories to your content.

Check available categories
Please see this quick guide to learn how you can search for existing categories.

Create categories
If you need to make new categories, please read the policy on categories on Commons.

Validating your xml
You can validate your xml file by using the form at http://www.w3schools.com/xml/xml_validator.asp.

Ampersand and less than ( & < > )
Use of "&" within fields in your xml file can cause unpredictable results. These may be interpreted (correctly) as XML encodings of characters, for example "&amp;amp;" will display as "&" on a Commons image page. Floating ampersands in your text like " & " or text that looks like an html encoding but may be abbreviations in English like "&c." for etcetera, are likely to cause the GWT to fail at that record. It is worth searching out and replacing these with "and" or similar, depending on the templates these are going to be used within.

xml relies on to wrap fields. If you are using these in your text you should convert them to "&amp;lt;" and "&amp;gt;" or standard brackets to avoid your xml being misinterpreted.

Please note, that since it is an XML file, not an HTML file, HTML named entity references like using  for &eacute; will not work. You must either use the normal UTF-8 symbol directly, or a numeric entity reference such as, or.

Double-dash ( -- )
The use of double dashes may be unpredictable as these can be interpreted as part of xml comment fields. These are unlikely to be an issue in most cases, but worth changing to single dashes in title fields.

等号、パイプ記号、疑問符、スラッシュ ( = | ? / )
コモンズでは、ファイル名あるいはテンプレート名で禁止もしくは問題の原因となり得る (ならない場合もある) 文字がたくさんあります. たとえば等号「=」をテンプレートで使用するには波カッコ2個で前後を挟み、「 = 」に書き換える必要があります. これらの要注意の記号を参照URLなどに使う場合、もしくはアップロードが予期せず中断してしまったときは、まずサンドボックスでサンプルを実験することをお勧めします.

Bad characters
GWT が xml ファイルを読み込むとき、文字の標準形式はUTF-8 に指定します. ほとんどの文書編集ソフトには文字形式を指定する機能がありますが、メタデータのインポートやエクスポートの際には正しく変換されないことがあり、それが原因でアップロードログに表示されなかったり、文字化けしたりします. 一般的な無料の文書編集ソフトとして、オープンソースの JEdit あるいは Google スプレッドシートは、本来、使用できる xml ファイルを作成するために使われてきました. そこで一括処理を実施する準備として、ご利用のインポート、エクスポートの工程が有効な UTF-8 あるいはさらに単純な ASCII 形式で標準出力できるかどうか、小さなサンプルを作成して実験して確認します.

スクリーンキャスト
拡張機能のしくみは、次のスクリーンキャスト (動画のキャプチャ) を見るとわかりやすいでしょう. 閲覧するには、特別:GWToolsetを開き、ウィザードの指示に従います. 注記: この拡張機能を利用するには、「gwtoolset」グループに利用者登録する必要があります. ウィキメディア・コモンズのビューロクラットに連絡をして、グループ参加を申請してください.

一括アップロードの監視
特定のウィキ内の活動を追跡するには というウィキページが使えます. プロセスによっては固有のイベント追跡を目標に、独自のページを置いており、GWToolset もその一種といえます. GWToolset の「特別:ログ」ページは、それぞれのドメインごとに次のURLに置いてあり、一括アップロードの進捗状況の確認や、問題の把握に使います.

コモンズ製作サーバ https://commons.wikimedia.org/w/index.php?title=Special:Log&type=gwtoolset

コモンズ・ベータ https://commons.wikimedia.beta.wmflabs.org/w/index.php?title=Special:Log&type=gwtoolset