Extension:WikibaseLexeme/Data Model/fr

Ceci est un document vivant, décrivant le modèle conceptuel de données utilisé par l'extension WikibaseLexeme. Ce n'est pas une spécification d'un binding, d'une implémentation, d'un « data mapping » ou d'une sérialisation.


 * Lexeme:
 * Lemma
 * Language
 * Lexical category
 * Statements
 * Forms:
 * Representation
 * Grammatical Features
 * Statements
 * Senses:
 * Gloss
 * Statements

Le modèle de données de WikibaseLexeme décrit la structure des données qui sont gérées en tant que « Lexèmes » dans Wikibase, telles que les mots ou les expressions. Théoriquement, il pourrait être possible de modéliser cela en utilisant les Éléments, mais un modèle plus expressif et spécialisé aide à réduire la complexité, et améliore les possibilités de réutilisation et de correspondance entre les vocabulaires. Ce modèle de données est conceptuel (« Quelles informations devons-nous supporter ? ») et ne spécifie pas comment ces données devraient être techniquement représentées (« Quelles structures de données le logiciel devrait-il utiliser ? ») ou syntaxiquement (« Comment représenter ces données dans un fichier ? »). Des documents distincts décrivent la sérialisation du modèle de données Wikibase en JSON (JavaScript Object Notation) et en RDF (Resource Description Framework). Le modèle de données des Lexèmes définit les concepts de base et les relations nécessaires pour décrire des lexèmes, considérés comme une ontologie fixe. Cette ontologie propose une structure minimale qui permet aux éléments et aux déclarations d'être utilisés pour modéliser un lexème de façon détaillée. Les spécifications du modèle de données des Lexèmes est basé sur le modèle de données de Wikibase, il peut donc être utile de lire le glossaire de Wikidata and the les bases du modèle de données pour mieux comprendre ce document. Le modèle de données des Lexèmes cherche à suivre le modèle LEMON réalisé par le groupe Ontolex du W3C, lorsque cela est utile et pratique. En revanche, dans l'esprit de Wikibase, le modèle des Lexèmes est conçu pour être simple et assez flexible pour des usages de contribution collaborative, contrairement à l'approche plus formelle proposée par LEMON.

Lexème


Un lexème est un élément lexical du langage, comme un mot, une expression ou un préfixe. (voir Lexème sur Wikipédia). Les lexèmes sont des entités selon la définition du modèle de données de Wikibase. Un Lexème est décrit en utilisant les informations suivantes :


 * Un identifiant. Les lexèmes ont des identifiants commençant par « L » suivis d’un nombre naturel en notation décimale, par exemple . Ces identifiants sont uniques dans le dépôt qui gère les Lexèmes. Les identifiants peuvent être combiné avec une URI de base de concept du dépôt pour former une URI unique pour le lexème.
 * Un lemme qui sera utilisé en tant que représentation lisible par les humains du lexème, par exemple « courir ».
 * La langue à laquelle appartient le lexème. C’est une référence à un Élément concret, par exemple Q1860 pour l’anglais.
 * La catégorie lexicale à laquelle le lexème appartient. C’est une référence à un Élément, par exemple Q34698 pour adjectif.
 * Une liste de déclarations, pour décrire les propriétés du lexème qui ne sont pas spécifiques à une Forme ou un Sens (par exemple dérivé de, genre grammatical ou fonction syntaxique).
 * Une liste de formes, typiquement, une pour chaque combinaison pertinente de fonctions grammaticales, telles que la deuxième personne / le singulier / le passé composé.
 * Une liste de sens, décrivant les différentes significations du lexème, par exemple « mammifère carnivore » et « pièce d’arme à feu » pour le mot chien.



Déclarations des lexèmes


Nature (instance de)
Dans Wikidata on utilise généralement la catégorie lexicale la plus générale, par exemple affix et ensuite on décrit à la place le type d'affix en utilisant une déclaration instance of.



Exemples d’utilisation
Dans Wikidata la communauté a décidé de mettre les exemples d'utilisation au même endroit sur les lexèmes pour savoir où les trouver quand on les cherche. Ils doivent renseigner deux propriétés : la forme (d:Property:P5830) et le sens (d:Property:P6072). Ils peuvent avoir plusieurs exemples en fonction de l'époque comme à des siècles différents, ou pour l'aspect formel ou informel, ou encore pour la forme écrite ou la forme parlée.

Lemme
Le lemme est une représentation lisible par les humains du lexème (voir Lemme sur Wikipédia). Typiquement, la forme canonique du lexème (par exemple le verbe à l'infinitif) seront utilisés comme lemme (voir aussi lemon:canonicalForm). Les lemmes ne sont pas de simples chaînes de caractères, mais des valeurs de texte multilingues, car un même lemme peut avoir de multiples orthographes. Ceci particulièrement important pour des langues qui utilisent plusieurs alphabets, comme le serbe ou le japonais.

Un lemme ne peut pas être entièrement vide, au moins une valeur doit être entrée.

Note : les lemmes ne sont pas uniques, et la combination d'un lemme, d'une langue et d'une catégorie lexicale, ne l'est pas non plus. Deux lexèmes différents avec la même catégorie lexicale peuvent coexister dans la même langue s'ils ont des données différentes soit par le genre, l'éthymologie, la            morphologie (c'est à dire des formes différentes), etc.

Forme
La morphologie d'un lexème est composée d'un ensemble de Formes. Chaque forme définit les changements d'un lexème en fonction d'un "rôle syntaxique" qu'il peut prendre dans une phrase (voir aussi lemon:Form).

Une forme est décrite en utilisant les informations suivantes :


 * Un identifiant. Les formes ont des identifiants commençant par l'identifiant du lexème auquel elles appartiennent, suivi d'un trait d'union ("-") et d'un "F", puis un nombre naturel en notation décimale : par exemple . Cet identifiant peut être combiné avec une URI du dépôt pour former une URI unique pour la forme.
 * Une représentation, épelant la forme comme une chaîne de caractères.
 * Une liste de traits grammaticaux, qui définissent à quel rôle syntaxique la forme s'applique. Ce sont des références à des éléments, comme Q814722 pour participe.
 * Une liste de déclarations qui décrivent davantage la forme ou ses relations à d'autres formes ou éléments (par exemple prononciation audio, rime avec, utilisé jusqu'à, utilisé dans la région).

Représentation
La représentation d'une forme est sa forme écrite, comme utilisée dans un texte (semblable à lemon:writtenRep). Tout comme les lemmes, les représentations ne sont pas de simples chaînes de caractères, mais des valeurs de texte multilingues, car la même forme peut avoir des orthographes différentes, possiblement dans de multiples alphabets.

Une représentation ne peut pas être entièrement vide, au moins une viariante doit être entrée.

Les formes multiples avec la même représentation sont autorisées pour permettre d'ajouter les différents exemples d'utilisation correspondants. Exemple dans Wikidata

Trait grammatical
Les traits grammaticaux des formes décrivent à quelles conditions ou dans quel rôle syntaxique la forme est utilisée (voir lexinfo:morphosyntacticProperty et trait grammatical sur Wikipédia). Plusieurs traits grammaticaux peuvent être combinés pour exprimer dans quelles conditions la grammaire de la langue requiert qu'une forme soit utilisée. Les traits grammaticaux sont représentés par des références à des éléments.

Sens
Les sens d'un lexème sont différentes significations qu'il peut représenter dans un texte. Les sens sont constitués de définitions en langage naturel ou "gloses" (comparer intensional definitions sur Wikipedia)..

Un sens est décrit en utilisant les informations suivantes :


 * Un identifiant. Les sens ont des identifiants commençant par l'identifiant du lexème auquel ils appartiennent, suivis d'un trait d'union ("-") puis d'un "S", et d'un nombre naturel en notation décimale, par exemple . Ces identifiants sont uniques dans le dépôt qui gère les lexèmes. L'identifiant peut être combiné avec une URI du dépôt pour former une URI unique pour le Sens.
 * Une glose, définissant la signification du sens en utilisant le langage naturel.
 * Une liste de déclarations décrivant davantage le sens et ses relations avec d'autres sens et éléments (c'est à dire "élément pour ce sens", "synonyme", "antonyme", "connotation", "registre", "annotations", "évocations") Dans Wikidata on ajoute aussi image pour fournir une image adaptée à la culture de Sens, comme l'exemple d'une boîte à lettres ou d'une couleur qui peuvent varier beaucoup en fonction des cultures.

Glose
La glose d'un sens donne une définition naturelle du sens (voir glose sur Wikipédia et skos:definition). Les gloses ne peuvent pas être référencés.

Comme les lemmes, les gloses ne sont pas de simples chaînes de caractères, mais des valeurs de texte multilingues. Néanmoins la raison n'est pas tant de fournir un support pour les variantes, mais de permettre aux gloses d'être données dans des langues complètement différentes. Par exemple, il serait très utile pour un allemannd qui apprend le français, d'avoir un glossaire en allemand pour un sens français.

Une glose ne peut pas être entièrement vide, au moins une langue doit être entrée. Une bonne glose ne laisse que peu ou pas d’ambiguïté sur le sens. Les lexèmes avec plusieurs sens doivent avoir des gloses qui permettent de facilement les distinguer les uns des autres.

Des glossaires courts, pour un mot unique ou pour quelques mots, doivent être évités car cela laisse trop de place à l'interprétation de leur signification.

Sur Wikidata, les gloses sont souvent similaires aux descriptions soigneusement choisies des éléments Q. Par exemple, pour pomme, la description de l’élément Q fruit du pommier est copié en tant que gloses par des outils tel quel MachtSinn pour aligner les lexèmes et les éléments Q et créer les sens manquants.



Voir aussi

 * Exemples de lexèmes modélisés