Extension:WikibaseLexeme/Data Model/fr

Ceci est un document vivant, décrivant le modèle conceptuel de données utilisé par WikibaseLexeme. Ce n'est pas une spécification d'un binding, d'une mise en œuvre, d'un « data mapping » ou d'une sérialisation.
 * Lexeme:
 * Lemma
 * Language
 * Lexical category
 * Statements
 * Forms:
 * Representation
 * Grammatical Features
 * Statements
 * Senses:
 * Gloss
 * Statements

Le modèle de données de WikibaseLexeme décrit la structure des données qui sont gérées en tant que "Lexèmes" dans Wikibase, telles que des mots ou des expressions. Théoriquement, il pourrait être possible de modéliser cela en utilisant les Éléments, mais un modèle plus expressif et spécialisé aide à réduire la complexité, et améliore les réutilisations et mappings des autres vocabulaires. Ce modèle de données est conceptuel ("Quelles informations devons-nous supporter ?") et ne spécifie pas comment ces données devraient être représentées techniquement ("Quelles structures de données le logiciel devrait-il utiliser ?") ou en terme de syntaxe ("Comment les données devraient-elles être exprimées dans un fichier ?"). Des documents séparés décrivent la sérialisation de Wikibase modèle de données en JSON and et RDF (Resource Description Framework). Le modèle de données des Lexèmes définit les concepts de base et les relations nécessaires pour décrire des Lexèmes lexèmes, considérés comme une ontologie fixe. Cette ontologie propose une structure minimale qui permet aux éléments et aux déclarations d'être utilisés pour modéliser un lexème de façon détaillée. Les spécifications du modèle de données des Lexèmes est basé sur le modèle de données de Wikibase, il peut donc être utile de lire le glossaire de Wikidata and the les bases du modèle de données pour mieux les comprendre. Le modèle de données des Lexèmes s'aligner en partie sur le modèle LEMON réalisé par le groupe Ontolex du W3C, lorsque cela est utile et pratique. En revanche, dans l'esprit de Wikibase, le modèle des Lexèmes est conçu pour être simple et assez flexible pour des usages de contribution collaborative, contrairement à l'approche plus formelle proposée par LEMON.

Lexème
Un lexème est un élément lexical du langage naturel, comme un mot, une expression ou un préfixe. (voir Lexème sur Wikipédia). Les lexèmes sont des entités selon la définition du modèle de données de Wikibase. Un Lexème est décrit en utilisant les informations suivantes :


 * Un identifiant. Les lexèmes ont des identifiants commençant par "L" suivis d'un nombre naturel en notation décimal, par exemple . Ces identifiants sont uniques dans le dépôt qui gère les lexèmes. L'identifiant peut être combiné avec une URI du dépôt pour former une URI unique pour le lexème.
 * Un Lemma qui sera utilisé comme une représentation du lexème lisible par les humains, par exemple "courir".
 * La langue à laquelle appartient le lexème. C'est une référence à un élément, par exemple Q1860 pour l'anglais.
 * La catégorie lexicale à laquelle le lexème appartient. C'est une référence à un élément, par exemple Q34698 pour adjectif.
 * Une liste de déclarations, pour décrire les propriétés du lexème qui ne sont pas spécifiques à une Forme ou un Sens (par exemple "dérivé de", "genre grammatical" ou "fonction syntaxique").
 * Une liste de Formes, typiquement, une pour chaque combinaison pertinente de fonctions grammaticales, telles que "deuxième personne / singulier / passé composé".
 * Une liste de Sens, décrivant les différentes significations du lexème, par exemple "mammifère carnivore" et "pièce d'arme à feu" pour le mot "chien".

Lemme
Le lemme est une représentation lisible par les humains du lexème (voir Lemme sur Wikipédia). Typiquement, la forme canonique du lexème (par exemple le verbe à l'infinitif) seront utilisés comme lemme (voir aussi lemon:canonicalForm). Les lemmes ne sont pas des chaînes de caractères simples, mais des valeurs de texte multilingues, car un même lemme peut avoir de multiples orthographes. Ceci est tout spécialement important pour des langues qui utilisent plusieurs alphabets, comme le serbe.

Un lemme ne peut pas être entièrement vide, au moins une valeur doit être entrée.

Note : les lemmes ne sont pas uniques, et la combination d'un lemme, d'une langue et d'une catégorie lexicale, ne l'est pas non plus. Deux lexèmes différents avec la même catégorie lexicale peuvent exister dans la même langue s'ils ont des morphologies différentes, c'est à dire des formes différentes.

Forme
La morphologie d'un lexème est composée d'un ensemble de Formes. Chaque forme définit les changements d'un lexème en fonction d'un "rôle syntaxique" qu'il peut prendre dans une phrase (voir aussi lemon:Form).

A Form is described using the following information:


 * An ID. Forms have IDs starting with the ID of the Lexeme they belong to, followed by a hyphen ("-") and an "F", followed by a natural number in decimal notation: e.g. . These IDs are unique within the repository that manages the Lexeme. The ID can be combined with a repository's concept base URI to form a unique URI for the Form.
 * A representation, spelling out the Form as a string.
 * A list of grammatical features that define for which syntactic role the given form applies. These are given as references to a concrete Items, e.g. Q814722 for participle.
 * A list of Statements further describing the Form or its relations to other Forms or Items (e.g. pronunciation audio, rhymes with, used until, used in region)

Representation
A form's Representation is its written form, as used in a text (compare lemon:writtenRep). Just like Lemmas, Representations are not simple strings, but MultilingualTextValues, since the same form may have multiple spellings, possibly in multiple scripts.

A Representation cannot be entirely empty, at least one variant has to be provided.

Grammatical Feature
Form's grammatical features specify under which conditions or in which syntactic role that form is used (see lexinfo:morphosyntacticProperty and grammatical category on Wikipedia). Multiple grammatical features can be combined to express under which conditions the language's grammar requires a given form to be used. Grammatical features are represented as references to Items.

Sense
The senses of a lexeme are different meanings which it may represent in a text. The senses are given as natural language definitions or glosses (compare intensional definitions on Wikipedia).

A sense is described using the following information:
 * An ID. Senses have IDs starting with the ID of the Lexeme they belong to, followed by a hyphen ("-") and an "S", followed by a natural number in decimal notation: e.g. . These IDs are unique within the repository that manages the Lexeme. The ID can be combined with a repository's concept base URI to form a unique URI for the Sense.
 * A Gloss, defining the meaning of the Sense using natural language.
 * A list of Statements further describing the Sense and its relations to Senses and Items (e.g. translation, synonym, antonym, connotation, register, denotes, evokes).

Gloss
A sense's gloss gives a natural definition of the sense (see Gloss on Wikipedia and skos:definition). Similar to Lemmas, Glosses are not simple strings, but MultilingualTextValues. However, the reason is not providing support for variants, but to allow the gloss to be given in entirely different languages. E.g. it would be quite useful for a German learning French to have a German gloss for a French word.

A Gloss cannot be entirely empty, at least one language has to be provided.