Extension:WikibaseLexeme/Data Model/uk

Це — робочий документ, що описує концептуальну модель даних, яку використовує WikibaseLexeme. Це не специфікація будь-якого конкретного зв'язування, імплементації, мапування (data mapping) чи серіалізації.


 * Lexeme:
 * Lemma
 * Language
 * Lexical category
 * Statements
 * Forms:
 * Representation
 * Grammatical Features
 * Statements
 * Senses:
 * Gloss
 * Statements

Модель даних WikibaseLexeme описує структуру даних, таких як слова та фрази, які обробляються як "Лексеми" у Вікібазі. Хоча теоретично було б можливо моделювати їх за допомогою Елементів, виразніша спеціалізована модель допомагає зменшити складність та покращити повторне використання й відображення в інших словниках. Ця модель даних є концептуальною («Яку інформацію ми повинні підтримувати?») і не визначає, як ці дані повинні бути представлені технічно («Які структури даних повинно використовувати програмне забезпечення?») або синтаксично («Як дані повинні бути виражені у файлі? ").  Окремі документи описують серіалізацію моделі даних Вікібази у JSON та в RDF (Resource Description Framework). Модель даних Лексеми визначає основні поняття та зв'язки, необхідні для опису лексеми, які діють як фіксована онтологія.  Ця онтологія забезпечує мінімальний каркас, який дозволяє використовувати Елементи та Твердження для детального моделювання лексеми. Специфікація моделі даних Lexeme базується на моделі даних Wikibase, тому глосарій Вікіданих і основи моделі даних Wikibase можуть бути корисним для розуміння цього документа. Модель даних Лексеми спрямована на узгодження з моделлю LEMON спільноти Ontolex групи W3C, що корисно й практично. Однак у дусі Wikibase модель Лексеми розроблена для того, щоб бути досить простою та гнучкою для зручного спільного редагування, на відміну від більш формалізованого підходу, застосованого на LEMON.

Лексема


Лексема — це лексичний елемент мови, такий як слово, словосполучення або префікс (див. Lexeme у Вікіпедії). Лексеми — це Сутності в розумінні моделі даних Wikibase. Лексему описують, використовуючи таку інформацію:


 * Ідентифікатор (ID). Лексеми мають ідентифікатори, що починаються з "L", за якою є натуральне число в десятковій формі, наприклад  . Ці ідентифікатори є унікальними у сховищі, яке керує лексемою.  Ідентифікатор може поєднуватися з базовим URI сховища, щоб сформувати унікальний URI для Лексеми.
 * Лема (Lemma) для використання як зрозуміле для людини зображення лексеми, напр. "run".
 *  Мова  (Language) до якої належить лексема. Це посилання на конкретний Елемент, напр. на Q1860 для англійська мова.
 * Лексична категорія  (Lexical category), до якої належить лексема. Вона вказується як посилання на конкретний Елемент, наприклад Q34698 для прикметника.
 * Список Тверджень (Statement) для опису властивостей лексеми, які не є специфічними для Форми або Значення (наприклад, походить від, граматичний рід або синтаксична функція)
 * Список Форм (Form), як правило, по одній для кожної відповідної комбінації граматичних ознак, наприклад, 2-а особа / однина / минулий час.
 * Список Сенсів (Sense), який описує різні значення лексеми (наприклад, фінансова установа та берег для англійського іменника bank).

Лема
Лема — це зручне для людини представлення лексеми (див. лема у Вікіпедії). Як правило, канонічна форма лексеми (наприклад, інфінітивна форма дієслів) буде використовуватися як лема (див. також lemon:canonicalForm). Леми — це не прості рядки, а MultilingualTextValues (багатомовні текстові значення), оскільки одна й та сама лема може мати кілька написань. Це особливо важливо для мов, які використовують декілька написань, таких як сербська та японська.

Лема не може бути повністю порожньою, потрібно вказати принаймні один варіант.

Примітка: Леми не є унікальними, як і поєднання лем, мов та лексичних категорій. Дві різні лексеми з однією лексичною категорією можуть існувати в одній мові, якщо вони мають різні дані, це може бути рід, етимологія, морфологія (різні форми) тощо.

Форма
Морфологія лексеми розуміється як набір Форм. Кожна форма визначає, як лексема змінюється на основі певної синтаксичної ролі або виду, який вона може набути в реченні (див. також lemon:Form).

Форму описують, використовуючи таку інформацію:


 * An ID. Forms have IDs starting with the ID of the Lexeme they belong to, followed by a hyphen ("-") and an "F", followed by a natural number in decimal notation: e.g. . These IDs are unique within the repository that manages the Lexeme. The ID can be combined with a repository's concept base URI to form a unique URI for the Form.
 * A representation, spelling out the Form as a string.
 * A list of grammatical features that define for which syntactic role the given form applies. These are given as references to a concrete Items, e.g. Q814722 for participle.
 * A list of Statements further describing the Form or its relations to other Forms or Items (e.g. pronunciation audio, rhymes with, used until, used in region)

Representation
A form's Representation is its written form, as used in a text (compare lemon:writtenRep). Just like Lemmas, Representations are not simple strings, but MultilingualTextValues, since the same form may have multiple spellings, possibly in multiple scripts.

A Representation cannot be entirely empty, at least one variant has to be provided.

Grammatical Feature
A form's grammatical features specify under which conditions or in which syntactic role that form is used (see lexinfo:morphosyntacticProperty and grammatical category on Wikipedia). Multiple grammatical features can be combined to express under which conditions the language's grammar requires a given form to be used. Grammatical features are represented as references to Items.

Сенс
Сенси лексеми — це різні значення, які вона може представляти в тексті. Сенси даються як визначення природними мовами або глоси (порівняйте intensional definitions у Вікіпедії).

A sense is described using the following information:
 * An ID. Senses have IDs starting with the ID of the Lexeme they belong to, followed by a hyphen ("-") and an "S", followed by a natural number in decimal notation: e.g. . These IDs are unique within the repository that manages the Lexeme. The ID can be combined with a repository's concept base URI to form a unique URI for the Sense.
 * A Gloss, defining the meaning of the Sense using natural language.
 * A list of Statements further describing the Sense and its relations to Senses and Items (e.g. translation, synonym, antonym, connotation, register, denotes, evokes).

Глоса
A sense's gloss gives a natural definition of the sense (see Gloss on Wikipedia and skos:definition). Similar to Lemmas, Glosses are not simple strings, but MultilingualTextValues. However, the reason is not providing support for variants, but to allow the gloss to be given in entirely different languages. E.g. it would be quite useful for a German learning French to have a German gloss for a French word.

A Gloss cannot be entirely empty, at least one language has to be provided.

Див. також

 * Приклади моделей даних лексем