Extension:WikibaseLexeme/Data Model/uk

Це — робочий документ, що описує концептуальну модель даних, яку використовує WikibaseLexeme. Це не специфікація будь-якого конкретного зв'язування, імплементації, мапування (data mapping) чи серіалізації.


 * Lexeme:
 * Lemma
 * Language
 * Lexical category
 * Statements
 * Forms:
 * Representation
 * Grammatical Features
 * Statements
 * Senses:
 * Gloss
 * Statements

Модель даних WikibaseLexeme описує структуру даних, таких як слова та фрази, які обробляються як «Лексеми» у Вікібазі. Хоча теоретично можна моделювати ці речі, використовуючи елементи, виразніша спеціалізована модель допомагає зменшити складність та покращити повторне використання та відображення інших словників. Ця модель даних є концептуальною («Яку інформацію ми повинні підтримувати?») і не визначає, як ці дані повинні бути представлені технічно («Які структури даних повинно використовувати програмне забезпечення?») або синтаксично («Як дані повинні бути виражені у файлі?»). Separate documents describe the serialization of the Wikibase data model in JSON (JavaScript Object Notation) and in RDF (Resource Description Framework). Модель даних Лексеми визначає основні поняття та зв'язки, необхідні для опису лексеми, які діють як фіксована онтологія. Ця онтологія забезпечує мінімальний каркас, який дозволяє використовувати Елементи та Твердження для детального моделювання лексеми. Специфікація моделі даних Lexeme базується на моделі даних Wikibase, тому глосарій Вікіданих і основи моделі даних Wikibase можуть бути корисним для розуміння цього документа. Модель даних Лексеми спрямована на узгодження з моделлю LEMON спільноти Ontolex групи W3C, що корисно й практично. Однак у дусі Wikibase модель Лексеми розроблена для того, щоб бути досить простою та гнучкою для зручного спільного редагування, на відміну від більш формалізованого підходу, застосованого на LEMON.

Лексема


Лексема — це лексичний елемент мови, такий як слово, словосполучення або префікс (див. Lexeme у Вікіпедії). Лексеми — це Сутності в розумінні моделі даних Wikibase. Лексему описують, використовуючи таку інформацію:


 * Ідентифікатор (ID). Лексеми мають ідентифікатори, що починаються з "L", за якою є натуральне число в десятковій формі, наприклад  . Ці ідентифікатори є унікальними у сховищі, яке керує лексемою.  Ідентифікатор може поєднуватися з базовим URI сховища, щоб сформувати унікальний URI для Лексеми.
 * Лема (Lemma) для використання як зрозуміле для людини зображення лексеми, напр. "run".
 * * Мова (Language) до якої належить лексема. Це — посилання на конкретний елемент, напр. на Q1860 для англійська мова.
 * * Лексична категорія (Lexical category), до якої належить лексема. Вона вказується як посилання на конкретний елемент, наприклад Q34698 для прикметника.
 * Список Тверджень (Statement) для опису властивостей лексеми, які не є специфічними для Форми або Смислу (наприклад, походить від, граматичний рід або синтаксична функція)
 * Список Форм (Form), як правило, по одній для кожної відповідної комбінації граматичних ознак, наприклад, 2-а особа / однина / минулий час.
 * A list of Senses, describing the different meanings of the lexeme (e.g. "financial institution" and "edge of a body of water" for the English noun bank).

Instance of
In Wikidata they generally use the most general lexical category possible, e.g. affix and then instead describe which type of affix it is using an instance of-statement.

Usage examples
In Wikidata the community decided to have usage examples in one place on the lexeme because then they know where to look for them. They have 2 demonstrates properties d:Property:P5830 and d:Property:P6072 to link to the correct sense and form. They can have multiple examples from different time periods e.g. different centuries and for formality/informality and written/spoken.

Лема
Лема — це зручне для людини представлення лексеми (див. лема у Вікіпедії). Як правило, канонічна форма лексеми (наприклад, інфінітивна форма дієслів) буде використовуватися як лема (див. також lemon:canonicalForm). Леми — це не прості рядки, а MultilingualTextValues (багатомовні текстові значення), оскільки одна й та сама лема може мати кілька написань. Це особливо важливо для мов, які використовують декілька написань, таких як сербська та японська.

Лема не може бути повністю порожньою, потрібно вказати принаймні один варіант.

Примітка: Леми не є унікальними, як і поєднання лем, мов та лексичних категорій. Дві різні лексеми з однією лексичною категорією можуть існувати в одній мові, якщо вони мають різні дані, це може бути рід, етимологія, морфологія (різні форми) тощо.

Форма
Морфологія лексеми розуміється як набір Форм. Кожна форма визначає, як лексема змінюється на основі певної синтаксичної ролі або виду, який вона може набути в реченні (див. також lemon:Form).

Форму описують, використовуючи таку інформацію:


 * An ID. Forms have IDs starting with the ID of the Lexeme they belong to, followed by a hyphen ("-") and an "F", followed by a natural number in decimal notation: e.g. . These IDs are unique within the repository that manages the Lexeme. The ID can be combined with a repository's concept base URI to form a unique URI for the Form.
 * A representation, spelling out the Form as a string.
 * A list of grammatical features that define for which syntactic role the given form applies. These are given as references to a concrete Items, e.g. Q814722 for participle.
 * A list of Statements further describing the Form or its relations to other Forms or Items (e.g. pronunciation audio, rhymes with, used until, used in region)

Representation
A form's Representation is its written form, as used in a text (compare lemon:writtenRep). Just like Lemmas, Representations are not simple strings, but MultilingualTextValues, since the same form may have multiple spellings, possibly in multiple scripts.

A Representation cannot be entirely empty, at least one variant has to be provided.

Multiple forms with the same representation are allowed to enable adding usage examples demonstrating each of them. Example in Wikidata

Grammatical Feature
A form's grammatical features specify under which conditions or in which syntactic role that form is used (see lexinfo:morphosyntacticProperty and grammatical category on Wikipedia). Multiple grammatical features can be combined to express under which conditions the language's grammar requires a given form to be used. Grammatical features are represented as references to Items.

Сенс
Сенси лексеми — це різні значення, які вона може представляти в тексті. Сенси даються як визначення природними мовами або глоси (порівняйте intensional definitions у Вікіпедії).

A sense is described using the following information:

In Wikidata image is also added to provide a culturally adapted image of the sense, e.g. of a letterbox or color that can vary greatly between cultures.
 * An ID. Senses have IDs starting with the ID of the Lexeme they belong to, followed by a hyphen ("-") and an "S", followed by a natural number in decimal notation: e.g. . These IDs are unique within the repository that manages the Lexeme. The ID can be combined with a repository's concept base URI to form a unique URI for the Sense.
 * A Gloss, defining the meaning of the Sense using natural language.
 * A list of Statements further describing the Sense and its relations to Senses and Items (e.g. item for this sense, synonym, antonym, connotation, register, denotes, evokes).

Глоса
A sense's gloss gives a natural definition of the sense (see Gloss on Wikipedia and skos:definition). Glosses cannot be referenced.

Similar to Lemmas, Glosses are not simple strings, but MultilingualTextValues. However, the reason is not providing support for variants, but to allow the gloss to be given in entirely different languages. E.g. it would be quite useful for a German learning French to have a German gloss for a French sense.

A Gloss cannot be entirely empty, at least one language has to be provided. A good gloss provides little or no space for ambiguity about the meaning. Lexemes with multiple senses should have glosses that are easily distinguishable from each other.

Short glosses of only a single or a few words should be avoided as it leaves too much space for interpretation of the meaning.

In Wikidata Glosses are often very similar to carefully crafted descriptions on Q-items. E.g. for apple the Q-items English description fruit of the apple tree is copied as gloss when using tools like MachtSinn to match lexemes and Q-items together and create missing senses.

Див. також

 * Приклади моделей даних лексем