Extension:WikibaseLexeme/Modèle de données

From mediawiki.org
This page is a translated version of the page Extension:WikibaseLexeme/Data Model and the translation is 100% complete.

Ceci est un document vivant, décrivant le modèle conceptuel de données utilisé par l'extension WikibaseLexeme . Ce n'est pas la spécification d'une liaison de données (binding), d'une implémentation, d'une mise en correspondance de modèles de données (mapping) ni d'une sérialisation.

Le modèle de données de WikibaseLexeme décrit la structure des données qui sont gérées en tant que « Lexèmes » dans Wikibase, telles que les mots ou les expressions. Théoriquement, il pourrait être possible de modéliser cela en utilisant les Éléments, mais un modèle plus expressif et spécialisé aide à réduire la complexité, et améliore les possibilités de réutilisation et de correspondance entre les vocabulaires. Ce modèle de données est conceptuel (« Quelles informations devons-nous supporter ? ») et ne spécifie pas comment ces données devraient être techniquement représentées (« Quelles structures de données le logiciel devrait-il utiliser ? ») ou syntaxiquement (« Comment représenter ces données dans un fichier ? »). Des documents distincts décrivent la sérialisation du modèle de données Wikibase en JSON (JavaScript Object Notation) et en RDF (Resource Description Framework). Le modèle de données des Lexèmes définit les concepts de base et les relations nécessaires pour décrire des lexèmes, considérés comme une ontologie fixe. Cette ontologie propose une structure minimale qui permet aux éléments et aux déclarations d'être utilisés pour modéliser un lexème de façon détaillée. Les spécifications du modèle de données des Lexèmes est basé sur le modèle de données de Wikibase, il peut donc être utile de lire le glossaire de Wikidata and the les bases du modèle de données pour mieux comprendre ce document. Le modèle de données des Lexèmes cherche à suivre le modèle LEMON réalisé par le groupe Ontolex du W3C, lorsque cela est utile et pratique. En revanche, dans l'esprit de Wikibase, le modèle des Lexèmes est conçu pour être simple et assez flexible pour des usages de contribution collaborative, contrairement à l'approche plus formelle proposée par LEMON.

Lexème

Visualisation du modèle de donnée d'un lexème

Un lexème est un élément lexical du langage, comme un mot, une expression ou un préfixe. (voir Lexème sur Wikipédia). Les lexèmes sont des entités selon la définition du modèle de données de Wikibase. Un Lexème est décrit en utilisant les informations suivantes :

  • Un identifiant. Les lexèmes ont des identifiants commençant par « L » suivis d’un nombre naturel en notation décimale, par exemple L3746552. Ces identifiants sont uniques dans le dépôt qui gère les Lexèmes. Les identifiants peuvent être combiné avec une URI de base de concept du dépôt pour former une URI unique pour le lexème.
  • Un lemme qui sera utilisé en tant que représentation lisible par les humains du lexème, par exemple « courir ».
  • La langue à laquelle appartient le lexème. C’est une référence à un Élément concret, par exemple Q1860 pour l’anglais.
  • La catégorie lexicale à laquelle le lexème appartient. C’est une référence à un Élément, par exemple Q34698 pour adjectif.
  • Une liste de déclarations, pour décrire les propriétés du lexème qui ne sont pas spécifiques à une Forme ou un Sens (par exemple dérivé de, genre grammatical ou fonction syntaxique).
  • Une liste de formes, typiquement, une pour chaque combinaison pertinente de fonctions grammaticales, telles que la deuxième personne / le singulier / le passé composé.
  • Une liste de sens, décrivant les différentes significations du lexème, par exemple « mammifère carnivore » et « pièce d’arme à feu » pour le mot chien.

Editorial Note: ajouter ici quelques points sur la façon dont les genres grammaticaux peuvent être modélisés en utilisant les déclarations.

Déclarations des lexèmes

Nature (instance de)

Dans Wikidata on utilise généralement la catégorie lexicale la plus générale, par exemple affix et ensuite on décrit à la place le type d'affix en utilisant une déclaration instance of.

Exemples d’utilisation

Dans Wikidata la communauté a décidé de mettre les exemples d'utilisation au même endroit sur les lexèmes pour savoir où les trouver quand on les cherche. Ils doivent renseigner deux propriétés : la forme (d:Property:P5830) et le sens (d:Property:P6072). Ils peuvent avoir plusieurs exemples en fonction de l'époque comme à des siècles différents, ou pour l'aspect formel ou informel, ou encore pour la forme écrite ou la forme parlée.

Lemme

Le lemme est une représentation lisible par les humains du lexème (voir Lemme sur Wikipédia). Typiquement, la forme canonique du lexème (par exemple le verbe à l'infinitif) seront utilisés comme lemme (voir aussi lemon:canonicalForm). Les lemmes ne sont pas de simples chaînes de caractères, mais des valeurs de texte multilingues, car un même lemme peut avoir de multiples orthographes. Ceci particulièrement important pour des langues qui utilisent plusieurs alphabets, comme le serbe ou le japonais.

Example: Le lemme pour le nom anglais "color" incluera ainsi "colour" pour l'anglais britannique et "color" pour l'anglais américain.

Un lemme ne peut pas être entièrement vide, au moins une valeur doit être entrée.

Note : les lemmes ne sont pas uniques, et la combination d'un lemme, d'une langue et d'une catégorie lexicale, ne l'est pas non plus. Deux lexèmes différents avec la même catégorie lexicale peuvent coexister dans la même langue s'ils ont des données différentes soit par le genre, l'éthymologie, la morphologie (c'est à dire des formes différentes), etc.

Example: Il y a deux noms communs allemands ayant pour lemme "See", qui diffèrent uniquement par leur genre grammatical : "der See" signifie "le lac" et "die See" signifie "la mer". Ces deux significations ne peuvent pas être représentés dans un seul lexème, car elles ont des formes différentes de par leur genre. An example where there would only be one Lexeme would be the German word "Schild", which for its meaning "Shield" can be either masculine or neutral gendered based on the region in Germany (neutral in the north and parts of central Germany).

Forme

La morphologie d'un lexème est composée d'un ensemble de Formes. Chaque forme définit les changements d'un lexème en fonction d'un "rôle syntaxique" qu'il peut prendre dans une phrase (voir aussi lemon:Form).

Example: Le verbe français "courir" deviendra "cours" (première personne du singulier), "court" (3ème personne du singulier) ou encore "courant" (participe présent) selon sa conjugaison.

Une forme est décrite en utilisant les informations suivantes :

  • Un identifiant. Les formes ont des identifiants commençant par l'identifiant du lexème auquel elles appartiennent, suivi d'un trait d'union ("-") et d'un "F", puis un nombre naturel en notation décimale : par exemple L3746552-F7. Cet identifiant peut être combiné avec une URI du dépôt pour former une URI unique pour la forme.
  • Une représentation, épelant la forme comme une chaîne de caractères.
  • Une liste de traits grammaticaux, qui définissent à quel rôle syntaxique la forme s'applique. Ce sont des références à des éléments, comme Q814722 pour participe.
  • Une liste de déclarations qui décrivent davantage la forme ou ses relations à d'autres formes ou éléments (par exemple prononciation audio, rime avec, utilisé jusqu'à, utilisé dans la région).

Planned Feature:
Il est possible d’ajouter une notion de « type de forme » qui détermine quelle genre d’information contient une Forme. Un nouveau type potentiel est « inexistant », qui pourrait représenter les formes qui n’existent pas, comme pour les verbes défectifs. Par exemple l’infinitif de may en anglais, ou le pluriel du mot Schnee en allemand. Les formes de type « inexistant » auraient des déclarations et des informations grammaticales, mais pas de représentations.

Représentation

La représentation d'une forme est sa forme écrite, comme utilisée dans un texte (semblable à lemon:writtenRep). Tout comme les lemmes, les représentations ne sont pas de simples chaînes de caractères, mais des valeurs de texte multilingues, car la même forme peut avoir des orthographes différentes, possiblement dans de multiples alphabets.

Une représentation ne peut pas être entièrement vide, au moins une viariante doit être entrée.

Les formes multiples avec la même représentation sont autorisées pour permettre d'ajouter les différents exemples d'utilisation correspondants. Exemple dans Wikidata

Trait grammatical

Les traits grammaticaux des formes décrivent à quelles conditions ou dans quel rôle syntaxique la forme est utilisée (voir lexinfo:morphosyntacticProperty et trait grammatical sur Wikipédia). Plusieurs traits grammaticaux peuvent être combinés pour exprimer dans quelles conditions la grammaire de la langue requiert qu'une forme soit utilisée. Les traits grammaticaux sont représentés par des références à des éléments.

Example: Le rôle "première personne du pluriel au présent" peut être défini par trois traits, représentés par des éléments Wikidata : Q192613 (présent), Q21714344 (première personne), et Q146786 (pluriel).

Editorial Note: Comment modéliser des mots tels que "a" et "an" (anglais) ? Quel élément utiliserait-on comme trait pour les décrire ? Est-ce que l'on n'aurait pas besoin d'annotations en texte libre finalement ?

Editorial Note: Notons que les formes genrées telles que "autrice" peuvent être traitées comme des Formes, ou des Lexèmes séparés, selon ce qui est nécessaire.

Sens

Les sens d'un lexème sont différentes significations qu'il peut représenter dans un texte. Les sens sont constitués de définitions en langage naturel ou "gloses" (comparer intensional definitions sur Wikipedia)..

Un sens est décrit en utilisant les informations suivantes :

  • Un identifiant. Les sens ont des identifiants commençant par l'identifiant du lexème auquel ils appartiennent, suivis d'un trait d'union ("-") puis d'un "S", et d'un nombre naturel en notation décimale, par exemple L3746552-S4. Ces identifiants sont uniques dans le dépôt qui gère les lexèmes. L'identifiant peut être combiné avec une URI du dépôt pour former une URI unique pour le Sens.
  • Une glose, définissant la signification du sens en utilisant le langage naturel.
  • Une liste de déclarations décrivant davantage le sens et ses relations avec d'autres sens et éléments (c'est à dire "élément pour ce sens", "synonyme", "antonyme", "connotation", "registre", "annotations", "évocations") Dans Wikidata on ajoute aussi image pour fournir une image adaptée à la culture de Sens, comme l'exemple d'une boîte à lettres ou d'une couleur qui peuvent varier beaucoup en fonction des cultures.

Editorial Note: Il faudrait trouver un bon endroit pour mentionner une source régulière d'incompréhensions : les Sens peuvent être connectés aux éléments Wikidata via une déclaration telle que "évoque" ou "dénote" (voir lemon:denotes et lemon:evokes). Cependant, une telle connexion ne signifie pas que le lexème représente le concept défini par l'élément (voir lemon:LexicalSense et lemon:LexicalConcept). En particulier, si deux lexèmes ont des sens qui se réfèrent au même concept, cela n'implique pas que les deux lexèmes sont synonymes.

Exemple : les lexèmes pour les adjectifs "chaud" et "froid" pourraient avoir tous deux un sens contenant une déclaration liée à Q11466 (température), même s'ils sont antonymes.

Editorial Note: Il faudrait décrire comment la fonction du mot peut être décrite pour des choses comme "to" et "a" (anglais), en utilisant des déclarations dans le lexème. Il faudrait aussi expliquer que ces mots ne devraient pas avoir de sens. A-t-on besoin de notes en texte libre ?

Planned Feature:
On pourrait introduire un champ dans le Sens pour les marqueurs syntaxiques et/ou les cadres syntactiques pour la sous-catégorisation (en anglais) (voir aussi the definition sur le wiki UNL). Cela permettrait aux expressions anglaises « ask for », « ask about », « ask to », « ask out », « ask oneself », etc. d'être modélisées comme des sens du même lexème, chacun avec une sous-catégorisation différente. Certains verbes changent également de sens dans les cas ou ils sont utilisés sous forme réflexive ou pas (par exemple, en allemand, übernehmen vs sich übernehmen) BOp Voir synsem:marker et synsem:syntactic-frame.

Glose

La glose d'un sens donne une définition naturelle du sens (voir glose sur Wikipédia et skos:definition). Les gloses ne peuvent pas être référencés.

Comme les lemmes, les gloses ne sont pas de simples chaînes de caractères, mais des valeurs de texte multilingues. Néanmoins la raison n'est pas tant de fournir un support pour les variantes, mais de permettre aux gloses d'être données dans des langues complètement différentes. Par exemple, il serait très utile pour un allemannd qui apprend le français, d'avoir un glossaire en allemand pour un sens français.

Une glose ne peut pas être entièrement vide, au moins une langue doit être entrée. Une bonne glose ne laisse que peu ou pas d’ambiguïté sur le sens. Les lexèmes avec plusieurs sens doivent avoir des gloses qui permettent de facilement les distinguer les uns des autres.

Des glossaires courts, pour un mot unique ou pour quelques mots, doivent être évités car cela laisse trop de place à l'interprétation de leur signification.

Sur Wikidata, les gloses sont souvent similaires aux descriptions soigneusement choisies des éléments Q. Par exemple, pour pomme, la description de l’élément Q fruit du pommier est copié en tant que gloses par des outils tel quel MachtSinn pour aligner les lexèmes et les éléments Q et créer les sens manquants.

Voir aussi