Extension:WikibaseLexeme/Data Model/fr

Ceci est un document vivant, décrivant le modèle conceptuel de données utilisé par WikibaseLexeme. Ce n'est pas une spécification d'un binding, d'une mise en œuvre, d'un « data mapping » ou d'une sérialisation.


 * Lexeme:
 * Lemma
 * Language
 * Lexical category
 * Statements
 * Forms:
 * Representation
 * Grammatical Features
 * Statements
 * Senses:
 * Gloss
 * Statements

Le modèle de données de WikibaseLexeme décrit la structure des données qui sont gérées en tant que « Lexèmes » dans Wikibase, telles que des mots ou des expressions. Théoriquement, il pourrait être possible de modéliser cela en utilisant les Éléments, mais un modèle plus expressif et spécialisé aide à réduire la complexité, et améliore les réutilisations et mappings des autres vocabulaires. Ce modèle de données est conceptuel (« Quelles informations devons-nous supporter ? ») et ne spécifie pas comment ces données devraient être techniquement représentées (« Quelles structures de données le logiciel devrait-il utiliser ? »). Des documents distincts décrivent la sérialisation du modèle de données Wikibase en JSON et en RDF (Resource Description Framework). Le modèle de données des Lexèmes définit les concepts de base et les relations nécessaires pour décrire des lexèmes, considérés comme une ontologie fixe. Cette ontologie propose une structure minimale qui permet aux éléments et aux déclarations d'être utilisés pour modéliser un lexème de façon détaillée. Les spécifications du modèle de données des Lexèmes est basé sur le modèle de données de Wikibase, il peut donc être utile de lire le glossaire de Wikidata and the les bases du modèle de données pour mieux les comprendre. Le modèle de données des Lexèmes s'aligner en partie sur le modèle LEMON réalisé par le groupe Ontolex du W3C, lorsque cela est utile et pratique. En revanche, dans l'esprit de Wikibase, le modèle des Lexèmes est conçu pour être simple et assez flexible pour des usages de contribution collaborative, contrairement à l'approche plus formelle proposée par LEMON.

Lexème


Un lexème est un élément lexical du langage, comme un mot, une expression ou un préfixe. (voir Lexème sur Wikipédia). Les lexèmes sont des entités selon la définition du modèle de données de Wikibase. Un Lexème est décrit en utilisant les informations suivantes :


 * Un identifiant. Les lexèmes ont des identifiants commençant par "L" suivis d'un nombre naturel en notation décimal, par exemple . Ces identifiants sont uniques dans le dépôt qui gère les lexèmes. L'identifiant peut être combiné avec une URI du dépôt pour former une URI unique pour le lexème.
 * Un Lemma qui sera utilisé comme une représentation du lexème lisible par les humains, par exemple "courir".
 * La langue à laquelle appartient le lexème. C'est une référence à un élément, par exemple Q1860 pour l'anglais.
 * La catégorie lexicale à laquelle le lexème appartient. C'est une référence à un élément, par exemple Q34698 pour adjectif.
 * Une liste de déclarations, pour décrire les propriétés du lexème qui ne sont pas spécifiques à une Forme ou un Sens (par exemple "dérivé de", "genre grammatical" ou "fonction syntaxique").
 * Une liste de Formes, typiquement, une pour chaque combinaison pertinente de fonctions grammaticales, telles que "deuxième personne / singulier / passé composé".
 * Une liste de Sens, décrivant les différentes significations du lexème, par exemple "mammifère carnivore" et "pièce d'arme à feu" pour le mot "chien".

Lemme
Le lemme est une représentation lisible par les humains du lexème (voir Lemme sur Wikipédia). Typiquement, la forme canonique du lexème (par exemple le verbe à l'infinitif) seront utilisés comme lemme (voir aussi lemon:canonicalForm). Les lemmes ne sont pas des chaînes de caractères simples, mais des valeurs de texte multilingues, car un même lemme peut avoir de multiples orthographes. Ceci est tout spécialement important pour des langues qui utilisent plusieurs alphabets, comme le serbe.

Un lemme ne peut pas être entièrement vide, au moins une valeur doit être entrée.

Note : les lemmes ne sont pas uniques, et la combination d'un lemme, d'une langue et d'une catégorie lexicale, ne l'est pas non plus. Deux lexèmes différents avec la même catégorie lexicale peuvent coexister dans la même langue s'ils ont des données différentes soit par le genre, l'éthymologie, la            morphologie (c'est à dire des formes différentes), etc.

Forme
La morphologie d'un lexème est composée d'un ensemble de Formes. Chaque forme définit les changements d'un lexème en fonction d'un "rôle syntaxique" qu'il peut prendre dans une phrase (voir aussi lemon:Form).

Une forme est décrite en utilisant les informations suivantes :


 * Un identifiant. Les formes ont des identifiants commençant par l'identifiant du lexème auquel elles appartiennent, suivi d'un trait d'union ("-") et d'un "F", puis un nombre naturel en notation décimale : par exemple . Cet identifiant peut être combiné avec une URI du dépôt pour former une URI unique pour la forme.
 * Une représentation, épelant la forme comme une chaîne de caractères.
 * une liste de traits grammaticaux, qui définissent à quel rôle syntaxique la forme s'applique. Ce sont des références à des éléments, comme Q814722 pour participe.
 * Une liste de déclarations qui décrivent davantage la forme ou ses relations à d'autres formes ou éléments (par exemple "prononciation audio", "rime avec", "utilisé jusqu'à", "utilisé dans la région").

Représentation
La représentation d'une forme est sa forme écrite, comme utilisée dans un texte (semblable à lemon:writtenRep). Tout comme les lemmes, les représentations ne sont pas des chaînes de caractères simples, mais des valeurs de texte multilingues, car la même forme peut avoir des orthographes différentes, possiblement dans de multiples alphabets.

Une représentation ne peut pas être entièrement vide, au moins une viariante doit être entrée.

Trait grammatical
Les traits grammaticaux des formes décrivent à quelles conditions ou dans quel rôle syntaxique la forme est utilisée (voir lexinfo:morphosyntacticProperty et trait grammatical sur Wikipédia). Plusieurs traits grammaticaux peuvent être combinés pour exprimer à quelles conditions la grammaire de la langue requiert qu'une forme soit utilisée. Les traits grammaticaux sont représentés par des références à des éléments.

Sens
Les sens d'un lexème sont différentes significations qu'il peut représenter dans un texte. Les sens sont constitués de définitions en langage naturel ou "gloses".

Un sens est décrit en utilisant les informations suivantes :
 * Un identifiant. Les sens ont des identifiants commençant par l'identifiant du lexème auquel ils appartiennent, suivis d'un trait d'union ("-") puis d'un "S", et d'un nombre naturel en notation décimale, par exemple . Ces identifiants sont uniques dans le dépôt qui gère les lexèmes. L'identifiant peut être combiné avec une URI du dépôt pour former une URI unique pour le Sens.
 * Une Glose, définissant la signification du Sens en utilisant le langage naturel.
 * Une liste de déclarations décrivant davantage le Sens et ses relations à d'autres Sens et éléments (par exemple "traduction", "synonyme", "antonyme", "connotation", "registre")

Glose
La glose d'un sens donne une définition naturelle du sens (voir glose sur Wikipédia et skos:definition). Comme les lemmes, les gloses ne sont pas des chaînes de caractères simples, mais des valeurs de texte multilingues. Cela pour permettre d'entrer des gloses dans différentes langues. Ainsi, on aura la description d'un mot français non seulement en français, mais en allemand.

Une glose ne peut pas être entièrement vide, au moins une langue doit être entrée.

Voir aussi

 * Exemples de lexèmes modélisés