Extension:WikibaseLexeme/Data Model/fr

Ceci est un document vivant, décrivant le modèle conceptuel de données utilisé par WikibaseLexeme. Ce n'est pas une spécification d'un binding, d'une mise en œuvre, d'un « data mapping » ou d'une sérialisation.


 * Lexeme:
 * Lemma
 * Language
 * Lexical category
 * Statements
 * Forms:
 * Representation
 * Grammatical Features
 * Statements
 * Senses:
 * Gloss
 * Statements

Le modèle de données de WikibaseLexeme décrit la structure des données qui sont gérées en tant que « Lexèmes » dans Wikibase, telles que des mots ou des expressions. Théoriquement, il pourrait être possible de modéliser cela en utilisant les Éléments, mais un modèle plus expressif et spécialisé aide à réduire la complexité, et améliore les possibilité de réutilisation et de correspondances entre les vocabulaires. Ce modèle de données est conceptuel (« Quelles informations devons-nous supporter ? ») et ne spécifie pas comment ces données devraient être techniquement représentées (« Quelles structures de données le logiciel devrait-il utiliser ? »). Des documents distincts décrivent la sérialisation du modèle de données Wikibase en JSON et en RDF (Resource Description Framework). Le modèle de données des Lexèmes définit les concepts de base et les relations nécessaires pour décrire des lexèmes, considérés comme une ontologie fixe. Cette ontologie propose une structure minimale qui permet aux éléments et aux déclarations d'être utilisés pour modéliser un lexème de façon détaillée. Les spécifications du modèle de données des Lexèmes est basé sur le modèle de données de Wikibase, il peut donc être utile de lire le glossaire de Wikidata and the les bases du modèle de données pour mieux les comprendre. Le modèle de données des Lexèmes cherche à suivre le modèle LEMON réalisé par le groupe Ontolex du W3C, lorsque cela est utile et pratique. En revanche, dans l'esprit de Wikibase, le modèle des Lexèmes est conçu pour être simple et assez flexible pour des usages de contribution collaborative, contrairement à l'approche plus formelle proposée par LEMON.

Lexème


Un lexème est un élément lexical du langage, comme un mot, une expression ou un préfixe. (voir Lexème sur Wikipédia). Les lexèmes sont des entités selon la définition du modèle de données de Wikibase. Un Lexème est décrit en utilisant les informations suivantes :


 * Un identifiant. Les lexèmes ont des identifiants commençant par "L" suivis d'un nombre naturel en notation décimal, par exemple . Ces identifiants sont uniques dans le dépôt qui gère les lexèmes. L'identifiant peut être combiné avec l’URI des concept du dépôt pour former l’URI unique pour le lexème.
 * Un Lemme qui sera utilisé en tant que représentation lisible par les humains du lexème, par exemple "courir"
 * * La langue du lexème. C'est une référence à un élément concret, par exemple Q1860 pour l'anglais.
 * * La catégorie lexicale du lexème. C'est une référence à un élément, par exemple Q34698 pour adjectif.
 * Une liste de déclarations, pour décrire les propriétés du lexème qui ne sont pas spécifiques à une Forme ou un Sens (par exemple "dérivé de", "genre grammatical" ou "fonction syntaxique").
 * Une liste de Formes, typiquement, une pour chaque combinaison pertinente de fonctions grammaticales, telles que "deuxième personne / singulier / passé composé".
 * Une liste de Senses, décrivant les différentes significations du lexème, par exemple "mammifère carnivore" et "pièce d'arme à feu" pour le mot "chien".

Nature (instance de)
In Wikidata they generally use the most general lexical category possible, e.g. affix and then instead describe which type of affix it is using an instance of-statement.

Usage examples
In Wikidata the community decided to have usage examples in one place on the lexeme because then they know where to look for them. They have 2 demonstrates properties d:Property:P5830 and d:Property:P6072 to link to the correct sense and form. They can have multiple examples from different time periods e.g. different centuries and for formality/informality and written/spoken.

Lemme
Le lemme est une représentation lisible par les humains du lexème (voir Lemme sur Wikipédia). Typiquement, la forme canonique du lexème (par exemple le verbe à l'infinitif) seront utilisés comme lemme (voir aussi lemon:canonicalForm). Les lemmes ne sont pas des chaînes de caractères simples, mais des valeurs de texte multilingues, car un même lemme peut avoir de multiples orthographes. Ceci est tout spécialement important pour des langues qui utilisent plusieurs alphabets, comme le serbe.

Un lemme ne peut pas être entièrement vide, au moins une valeur doit être entrée.

Note : les lemmes ne sont pas uniques, et la combination d'un lemme, d'une langue et d'une catégorie lexicale, ne l'est pas non plus. Deux lexèmes différents avec la même catégorie lexicale peuvent coexister dans la même langue s'ils ont des données différentes soit par le genre, l'éthymologie, la            morphologie (c'est à dire des formes différentes), etc.

Forme
La morphologie d'un lexème est composée d'un ensemble de Formes. Chaque forme définit les changements d'un lexème en fonction d'un "rôle syntaxique" qu'il peut prendre dans une phrase (voir aussi lemon:Form).

Une forme est décrite en utilisant les informations suivantes :


 * Un identifiant. Les formes ont des identifiants commençant par l'identifiant du lexème auquel elles appartiennent, suivi d'un trait d'union ("-") et d'un "F", puis un nombre naturel en notation décimale : par exemple . Cet identifiant peut être combiné avec une URI du dépôt pour former une URI unique pour la forme.
 * Une représentation, épelant la forme comme une chaîne de caractères.
 * une liste de traits grammaticaux, qui définissent à quel rôle syntaxique la forme s'applique. Ce sont des références à des éléments, comme Q814722 pour participe.
 * Une liste de déclarations qui décrivent davantage la forme ou ses relations à d'autres formes ou éléments (par exemple "prononciation audio", "rime avec", "utilisé jusqu'à", "utilisé dans la région").

Représentation
La représentation d'une forme est sa forme écrite, comme utilisée dans un texte (semblable à lemon:writtenRep). Tout comme les lemmes, les représentations ne sont pas des chaînes de caractères simples, mais des valeurs de texte multilingues, car la même forme peut avoir des orthographes différentes, possiblement dans de multiples alphabets.

Une représentation ne peut pas être entièrement vide, au moins une viariante doit être entrée.

Multiple forms with the same representation are allowed to enable adding usage examples demonstrating each of them. Example in Wikidata

Trait grammatical
Les traits grammaticaux des formes décrivent à quelles conditions ou dans quel rôle syntaxique la forme est utilisée (voir lexinfo:morphosyntacticProperty et trait grammatical sur Wikipédia). Plusieurs traits grammaticaux peuvent être combinés pour exprimer à quelles conditions la grammaire de la langue requiert qu'une forme soit utilisée. Les traits grammaticaux sont représentés par des références à des éléments. Multiple grammatical features can be combined to express under which conditions the language's grammar requires a given form to be used. Grammatical features are represented as references to Items.

Sens
Les sens d'un lexème sont différentes significations qu'il peut représenter dans un texte. Les sens sont constitués de définitions en langage naturel ou "gloses".

Un sens est décrit en utilisant les informations suivantes :
 * Un identifiant. Les sens ont des identifiants commençant par l'identifiant du lexème auquel ils appartiennent, suivis d'un trait d'union ("-") puis d'un "S", et d'un nombre naturel en notation décimale, par exemple . Ces identifiants sont uniques dans le dépôt qui gère les lexèmes. L'identifiant peut être combiné avec une URI du dépôt pour former une URI unique pour le Sens.
 * Une Glose, définissant la signification du Sens en utilisant le langage naturel.
 * Une liste de déclarations décrivant davantage le Sens et ses relations à d'autres Sens et éléments (par exemple "traduction", "synonyme", "antonyme", "connotation", "registre")

In Wikidata image is also added to provide a culturally adapted image of the sense, e.g. of a letterbox or color that can vary greatly between cultures.
 * An ID. Senses have IDs starting with the ID of the Lexeme they belong to, followed by a hyphen ("-") and an "S", followed by a natural number in decimal notation: e.g. . These IDs are unique within the repository that manages the Lexeme. The ID can be combined with a repository's concept base URI to form a unique URI for the Sense.
 * A Gloss, defining the meaning of the Sense using natural language.
 * A list of Statements further describing the Sense and its relations to Senses and Items (e.g. item for this sense, synonym, antonym, connotation, register, denotes, evokes).

Glose
La glose d'un sens donne une définition naturelle du sens (voir glose sur Wikipédia et skos:definition). Comme les lemmes, les gloses ne sont pas des chaînes de caractères simples, mais des valeurs de texte multilingues. Cela pour permettre d'entrer des gloses dans différentes langues. Ainsi, on aura la description d'un mot français non seulement en français, mais en allemand.

Similar to Lemmas, Glosses are not simple strings, but MultilingualTextValues. However, the reason is not providing support for variants, but to allow the gloss to be given in entirely different languages. E.g. it would be quite useful for a German learning French to have a German gloss for a French sense.

Une glose ne peut pas être entièrement vide, au moins une langue doit être entrée.

Short glosses of only a single or a few words should be avoided as it leaves too much space for interpretation of the meaning.

In Wikidata Glosses are often very similar to carefully crafted descriptions on Q-items. E.g. for apple the Q-items English description fruit of the apple tree is copied as gloss when using tools like MachtSinn to match lexemes and Q-items together and create missing senses.

Voir aussi

 * Exemples de lexèmes modélisés