Aide:Extension:GWToolset

From mediawiki.org
This page is a translated version of the page Help:Extension:GWToolset and the translation is 46% complete.

GWToolset (ou GLAMWikiToolset, ou encore Boîte à outil GLAM) est une extension de Page Spéciale. Son but principal est de permettre aux GLAMs de téléverser massivement du contenu (images, vidéos et sons) à Wikimedia Commons en se basant sur leurs métadonnées respectives (XML); l'objectif est de permettre l'utilisation d'une grande variété de schémas XML. L'extension accomplit cette tâche en plusieurs étapes destinées aux utilisateurs. Il leur est présenté des formulaires HTML afin de mettre en place un processus de téléversement de masse du contenu et ses métadonnées sur le wiki, en créant une page de média pour chaque élément téléversé.

Le projet a été cofondé par Europeana et quelques chapîtres Wikimedia[1].

Plus d'informations sont disponibles sur la page du projet. Vos retours et questions sont les bienvenus, n'hésitez pas à nous contacter.


Introduction

Vous lisez probablement cela parce que vous imaginez ou prévoyez de rendre disponible une somme importante de contenus en les publiant sur Wikimedia Commons pour qu’ils soient réutilisables. Ce manuel va vous guider dans les différentes étapes nécessaires.

Résumé du processus

L’image ci-dessous est un diagramme de processus qui donne un aperçu des étapes d’utilisation du jeu d’outils. Ce manuel est structuré autour de ce diagramme de processus. Un flux de processus pour utiliser GLAMwiki Toolset, un outil de mise en ligne massive pour Wikimedia Commons.

Phase 1 : Préparation

Un diagramme pour le manuel de GLAMwiki Toolset concernant l’obtention d’un nom d’utilisateur et des droits d’utilisation.
Un diagramme pour le manuel de GLAMwiki Toolset concernant l’obtention d’un nom d’utilisateur et des droits d’utilisation.

Nom d’utilisateur et droits d’utilisation

Pour utiliser le jeu d’outils, vous devez :

  1. être un utilisateur enregistré ;
  2. avoir la permission d’accéder au jeu d’outil.

Enregistrer un nom d’utilisateur

Vous pouvez passer cette étape si vous êtes déjà enregistré sur Wikimedia Commons, Wikipédia ou n’importe quel autre projet Wikimedia. Suivez les étapes suivantes si vous n’êtes pas déjà enregistré ou si vous voulez un compte spécifique pour vos téléversements de fichiers :

  1. lisez ces recommandations pour choisir un nom d’utilisateur ;
  2. rendez-vous sur la page d’inscription pour vous enregistrer.

Présentez-vous sur votre page utilisateur

Après inscription, vous pouvez vous connecter. Vous verrez votre nom d’utilisateur en rouge, tout en haut de la page du wiki.

Demande de droits utilisateur

We recommend that you do all testing on the Commons Beta server and only once you feel that the tool is giving you the results you want, use it on the Production server. Because these are two separate environments, you will need to have a user account on each and request access on each. The best way to do this:

  1. Commons Beta server - contact a developer or bureaucrat on beta to request the rights for the GWToolset user group on beta. You can ask in #wikimedia-commons connecter, glam mailing list, or contact them from these lists:
    1. Bureaucrats
    2. Developers
  2. Commons Production server - Lorsque vous avez un exemple de téléversement qui fonctionne et que vous voulez le présenter à partir du serveur bêta, allez sur le vrai Commons et laissez un message sur le tableau des notes aux bureaucrates de Commons pour demander les droits sur GWtoolset. Veuillez vous présenter et argumenter votre demande.

GWToolset rights are granted for one year at a time on the Wikimedia Commons production server, and expire automatically. Users are notified in advance of expiry and can request extensions or restoration at the Commons Bureaucrats notice board if they have ongoing plans to use the toolset.

Liste blanche des domaines

If your media file domain is not yet whitelisted (look for "wgCopyUploadsDomains"), please request that your media file domain be added to the Wikimedia Commons domain whitelist. The domain whitelist is a list of domains Wikimedia Commons checks against before fetching media files. If your media file domain is not on that list, Wikimedia Commons will not download media files from that domain. The best example, to submit in your request, is an actual link to a media file.

Please note that requests will take several business days. If you are planning some sort of event or training program, it is recommended you make requests one week in advanced to be on the safe side. If your request must be fulfilled by some date in order to be ready for a planned event, please include what date/time you need it by in the request title, and we will try to make sure the request is fulfilled before then. Sometimes people will ask for clarification about whitelist requests, so be sure to respond to any questions. Bien que cela ne soit pas obligatoire, en indiquant qui vous êtes et ce que vous prévoyez de téléverser, vous clarifiez le processus.

Sélection du contenu

There are several variables to take into account when selecting content. First of all are there restrictions to the content - like file formats, copyright restrictions, organisational restrictions, etc. - that determine if a work can be published on commons. Ces varaibles déterminent également si un téléversement de contenu peut être fait par dans un lot de traitement ou s'il est préférable de séparer le contenu en différents lots.

Another factor is your content sharing strategy. How and when are you going to publish your content? In large batches? Small themed batches?

Types de contenu

Every type of content needs a different metadata template. Il n'est pas possible de téléverser des photos et des fichiers audio dans un lot de traitement; cela doit être fait séparément dans un lot pour les photos et un autre pour les fichiers audio.

Types de licence

Il n'est pas possible de téléverser du contenu avec des licences différentes dans un même lot de traitement. Supposons que vous vouliez téléverser des fichiers qui sont sous licence CC BY et d'autres qui sont sous licence CC BY-SA, vous devez faire deux lots de téléversements en fonction de chaque licence.

Example: Recent photographs of the collection of the University Museum in Utrecht.
The University Museum Utrecht commissioned a local photographer to take pictures of instruments, stuffed animals, skulls, etc. They sent a permission notice to OTRS and received a ticket number that has to be mentioned on the pages of every photo that was taken by this photographer. To be able to do so they had to upload these photos in a separate batch from their other content (pictures that were considered public domain).

Droits

Content that was created after 1923 probably needs a notice that you have permission from the creator to release these files under one of the accepted licenses for Wikimedia Commons. Il n'est pas possible de téléverser des fichiers de différents créateurs dans un lot de traitement parce qu'il faut avoir un numéro de ticket OTRS pour chacun des créateurs.

Stratégies de partage du contenu

There have been several large content donations already. Tous furent des donnations en masse : un événement unique où tout le contenu a été téléversé sur Wikimedia Commons. This is not the only way to do a donation. This chapter discusses different strategies for content donations.

Partage en masse d'un seul coup

Ceci est la manière habituelle pour partager du contenu : un téléversement à grande échelle du contenu pouvant être sélectionné en fonction des sources disponibles.

Advantages:

En fonction du thème

Certains GLAMs considèrent actuellement les téléversements relatifs à un thème donné. A theme can be an exhibition. Cela signifie qu'en sélectionnant le contenu qui sera téléversé sur Commons on peut considérer que c'est le début du processus de préparation d'une exposition.

Advantages:

  • Plus il y a de téléversements et plus chaque nouveau téléversement gagne en intérêt
  • Les leçons apprises depuis le dernier téléversement peuvent être

Advantages

Fruit pendant très bas

Petit démarrage, fin énorme possible

Analyses des compatibilités techniques

The Toolset has been developed to be used by the most common way GLAMs have organised their content. This means that the Toolset is easy to work with for most organisations, but that some will have to take extra measures before they can use it. The diagram in this paragraph can be used to determine how compatible the Toolset is for your organisation. Every question in the diagram is explained underneath.

GW Toolset compatibility analyses

Les fichiers média sont-ils disponibles en ligne ?

Seuls les fichiers accessibles par Internet peuvent être téléversés en utilisant GWToolset. Si vous avez un très grand nombre d'images (des centaines de giga octets ou davantage), il est possible de combiner les fichiers à téléverser en envoyant un disque dur. The procedures for processing metadata on such files is very different than those for GWToolset. For more information on this option, please see commons:Help:Server-side_upload#What to do if files represent hundred of GB to several TB?.

Les fichiers média peuvent-ils être mis en ligne ?

If they can be, then you need to do this to use GWToolset

Les métadonnées sont-elles disponibles en ligne ?

The metadata does not need to be online. The metadata just needs to be converted to a single XML file in a "flat" format.

Les métadonnées peuvent-elles être exportées ?

The metadata needs to be converted to a flat XML format.

Les métadonnées peuvent-elles être exportées en XML ?

The metadata needs to be converted to a flat XML format. If you have trouble converting to XML, there are volunteers who can probably help you. Contact the glam mailing list.

Les fichiers de média et les métadonnées sont-ils accessibles ensemble publiquement ?

Only the media files need to be publicly available.

Les certificats sont-ils disponibles pour accélérer l'accès aux fichiers de média et aux métadonnées ?

The media files cannot be behind a password. They must be directly accessible from a URL. The metadata doesn't need to be publicly accessible

Ces certificats peuvent-ils être utilisés pour accéder aux fichiers de média et aux métadonnées ?

The media files cannot be behind a password. They must be directly accessible from a URL. The metadata doesn't need to be publicly accessible

Une API est-elle disponible ?

APIs can be useful for generating the metadata file, but not required.

L'API répond-elle avec du XML ?

APIs can be useful for generating the metadata file, but not required.

Est-ce que le XML est dans un format mis à plat ?

There are several standards that are currently used by organisations to organise their metadata, for example OAI-PMH, EDM, MARC and Lido. The GLAMwiki Toolset accepts all forms of metadata as long as the data complies to the following requirements.

Qu'est-ce qu'un format à plat ?

The metadata of individual objects have to be on the same level of hierarchy in the XML file, that's what 'flat' refers to. Metadata in a deeper level, further in the hierarchy, is not recognised by the Toolset.

'Flat' XML Non-'Flat' XML
An example of a flat XML file An example of an XML file with a deeper hierarchy
<?xml version="1.0" encoding="UTF-8"?>

<metadata xmlns:dc="http://purl.org/dc/elements/1.1/">

<record>
<dc:author></dc:author>
<dc:subject></dc:subject>
<dc:subject></dc:subject>
<dc:rights></dc:rights>
<url></url>
</record>
<record>
<dc:author></dc:author>
<dc:subject></dc:subject>
<dc:subject></dc:subject>
<dc:rights></dc:rights>
<url></url>
</record>

</metadata>

<?xml version="1.0" encoding="UTF-8"?>

<metadata xmlns:dc="http://purl.org/dc/elements/1.1/">

<record>
<author>
<dc:author></dc:author>
</author>
<work>
<dc:title></dc:title>
<dc:source></dc:source>
<dc:provenance></dc:provenance>
<dc:rights></dc:rights>
</work>
<mediafile>
<url></url>
</mediafile>
</record>

</metadata>

The metadata in the field author, subject and rights will be recognised. The metadata in the deeper levels will not be recognised.

Utilisation des attributs

Attributes of declarations are also not recognised with one exception: the language attribute. This attribute can be used to recognise the descriptions of objects in different languages.

For example,

  • <dc:description lang="en">This is a description</dc:description> 

is recognised as a description in English.

  • <dc:source photoid="351131">www.example.org</dc:source>

Will be seen by the Toolset as

  • <dc:source>www.example.org</dc:source>

The PhotoID in this example will not be read.

Information in attributes can cause loss of information.

Descriptions multiples dans un champ de métadonnées

Some metadata fields are mentioned more than once, for example ‎<dc:subject>. Currently there is no option to include this individually but the data in these fields will be merged, separated with a pipe symbol (|). In some cases an object has several descriptions, like "vehicle", "flamethrower" and "combat vehicle". All of these descriptions will be added to the object when they are included in the XML with the ‎<dc:subject> field. It is advised to separate metadata fields as much as possible, this way they will be shown on commons in the right way.

Wrong Right
<dc:description>
"voertuigen", "rupsvoertuig", "vlammenwerper" ,"gevechtsvoertuig"
</dc:description>
<dc:description>
voertuigen
</dc:description>
<dc:description>
rupsvoertuig
</dc:description>
<dc:description>
vlammenwerper
</dc:description>
<dc:description>
gevechtsvoertuig
</dc:description>

Le XML peut-il être transformé en format plat ?

Do you need help to convert your XML to a 'flat' XML file? Then consider these options:

  1. Hire a specialist to write a script to convert your XML file
  1. Use XSLT:

http://www.w3.org/Style/XSL/

  1. Choose a standard that publishes the XML as a 'flat' file, like OAI-PMH and – to a certain extent – the Europeana API
  1. Look into Open Refine

Selectionner des métadonnées

Quelles métadonnées Wikimedia peut-il gérer ?

A propos de Dublin Core et Europeana

Champs personnalisés

Modèles

En example of mapping metadata of a museum to the fields in the Artwork template for the use of the GLAMwiki Toolset. This exercise can be done before XML files are being prepared for the use with the GLAMwiki Toolset.

Modèles de métadonnées

Wikimedia Commons uses templates to map metadata. C'est pourquoi la quantité de métadonnées affichées sur Commons est limitée aux champs présents dans le modèle de métadonnées choisi pour le téléversement.

There are several templates available. Some of the templates that are available are:

This list is not yet complete

There is currently no template available for video content. It's not possible (yet) to use a template you created yourself.

Le type de travail que vous voulez téléverser détermine le modèle que vous devez utiliser. Cela signifie également qu'il n'est pas possible de téléverser de multiples types de contenu nécessitant des modèles différents. Par exemple : si vous voulez téléverser des photos et des fichiers audio, vous devez séparer ces téléversements et les fichiers XML en un téléversement des photos (avec les fichiers XML), et un téléversement des fichiers audio (avec les fichiers XML). Il n'est pas possible de téléverser les deux types de fichiers dans un même lot de traitement.

Modèle de license et autres sous-modèles de métadonnées

Some metadata fields also use templates. An example is the metadata field for the license of a mediafile. A Creative Commons license will be recognised by the Toolset and results in the display of the corresponding banner with the license. It is possible to create your own template. This is useful when you've cleared permission to use the content and received an OTRS ticket to include with the files. See this example of an OTRS ticket in a license template. If the text in the license field is not referring to a template, this information will be shown as plain text.

Note: the Wikimedia Commons community is very strict when it comes to permission of files usage. The content is most likely deleted when there is any doubt about copyright infringement or other restrictions that do not permit the use of the file on the Wikimedia platforms. This is why a good license template is an absolute must.

Modèle d'institution

An institution template is used to show what institution provided and/or uploaded the file to commons. The template makes it possible to add more information about your institution than only the name of the institution. An example of an institutional template is this template of the Amsterdam Museum. Useful information to include in this template is:

  • The logo of your organisation
  • A photo of the building of your organisation
  • The location (City, country, etc)
  • The coordinates
  • The URL to your website

This template is not required, but highly recommended to include with your uploads.

An institution template will be recognised by the Toolset. The template mentioned above will be included by the Toolset if the source tag in the XML file has the same name as the template, in this case: <dc:source>Amsterdam Museum</dc:source>.

Modèle du source

Catégories

Categories are special pages to group related pages and media. It is essential that every file can be found by browsing the category structure. To allow this, each file must be put into a category directly. Each category should itself be in more general categories, forming a hierarchical structure. The category structure is the primary way to organize and find files on the Commons. It is essential that every file can be found by browsing the category structure. With the GLAMwiki Toolset you can add your content to existing or new categories.

Categories can be in multiple languages. Make sure that, next to your own language, you also search for and add English categories to your content.

Vérifier les catégories disponibles

Please see this quick guide to learn how you can search for existing categories.

Créer des catégories

If you need to make new categories, please read the policy on categories on Commons.

Validater son XML

You can validate your xml file by using the form at http://www.w3schools.com/xml/xml_validator.asp.

Problèmes XML communs

<span id="Ampersand_and_less_than_( & < > )">

Et commercial et signe inférieur ( & < > )

Use of "&" within fields in your xml file can cause unpredictable results. These may be interpreted (correctly) as XML encodings of characters, for example "&amp;" will display as "&" on a Commons image page. Floating ampersands in your text like " & " or text that looks like an html encoding but may be abbreviations in English like "&c." for etcetera, are likely to cause the GWT to fail at that record. It is worth searching out and replacing these with "and" or similar, depending on the templates these are going to be used within.

xml relies on < and > to wrap fields. If you are using these in your text you should convert them to "&lt;" and "&gt;" or standard brackets to avoid your xml being misinterpreted.

Please note, that since it is an XML file, not an HTML file, HTML named entity references like using &eacute; for é will not work. You must either use the normal UTF-8 symbol directly, or a numeric entity reference such as &#233;, or &#xE9;.

Double-tiret ( -- )

The use of double dashes may be unpredictable as these can be interpreted as part of xml comment fields. These are unlikely to be an issue in most cases, but worth changing to single dashes in title fields.

Signe égal, barre verticale, point d'interrogation, barre oblique ( = | ? / )

There are a number of characters that are either not allowed in Commons file names or may (or may not) give problems when used in some templates. For example, to use an equals sign in some templates, you would have to wrap them in double curly brackets, i.e. "=" becomes "{{=}}". It is worth testing out an example in a sandbox if you are going to have to use these in url references, or checking for these if your upload unexpectedly halts.

Mauvais caractères

The xml file read by the GWT is expected to be in UTF-8 character standard format. La plupart des éditeurs de texte peuvent gérer cela, mais si vous exportez et importez des métadonnées, celles-ci peuvent être converties étrangement au cours du processus et s'afficher dans vos téléversements d'une manière invisible ou avec des caractères étranges. Standard free editors like the open source JEdit or Google spreadsheets have been used to create useable xml files. Ensure that your process for exporting and editing your metadata provides valid UTF-8 or the simpler ASCII standard output on a small sample, before running your whole batch.

Phase 2, faire un téléversement de test

Ecrans

The following screencast gives you a quick overview of how to use the extension. You can follow along by going to Special:GWToolset and following the wizard instructions. Note: you will need to be a member of the “gwtoolset” group in order to use the extension. Contact a Wikimedia Commons bureaucrat to be added to the group.

Captures d'écran

Détection de Metadata

Metadata Detection

Correspondances Metadata

Metadata Mapping

Catégories Metadata

Metadata Categories

Aperçu du traitement par lot

Batch Preview

Phase 3: version du téléversement de test

Phase 4: téléversement sur Wikimedia Commons

Suivre le téléversement par lots

La page Special:Log du wiki peut être utilisée pour suivre l'activité dans un wiki. Some processes have their own page that tracks their specific events; GWToolset is one of them. Vous pourrez trouver les pages Special:Log de GWToolset aux URLs suivantes, qui vous permettront de suivre la progression ou tout problème avec le téléversement par lots.

commons production

https://commons.wikimedia.org/w/index.php?title=Special:Log&type=gwtoolset

commons beta

https://commons.wikimedia.beta.wmflabs.org/w/index.php?title=Special:Log&type=gwtoolset

Phase 5: Promoting the content

Stimulate reuse

Events

Press release

Competition

Troubleshooting

Voir aussi

Références