Extension:WikibaseLexeme/Data Model/pl

Strona ta prezentuje edytowalny dokument, opisujący koncepcyjny schemat danych użytkowany w WikibaseLexeme. Nie stanowi on specyfikacji, data binding'u, implementacji, mapowania, lub serializacji.


 * Lexeme:
 * Lemma
 * Language
 * Lexical category
 * Statements
 * Forms:
 * Representation
 * Grammatical Features
 * Statements
 * Senses:
 * Gloss
 * Statements

Model danych WikibaseLexeme opisuje strukturę danych takich jak słowa i frazy, obsługiwanych jako "Leksymy" w Wikibase. Mimo iż teoretycznie byłoby możliwe modelowanie tych obiektów przy użyciu Items, bardziej ekspresyjny i wyspecjalizowany model pomaga zmniejszyć złożoność danych oraz usprawnić dalsze ich użycie i mapowanie do innych słowników. Ten model danych ma charakter koncepcyjny („jakie informacje powinniśmy obsługiwać?”) i nie określa, w jaki sposób te dane powinny być reprezentowane technicznie („jakich struktur danych powinno używać oprogramowanie?”) ani syntaktycznie („Jak należy przedstawić dane w pliku?"). Oddzielne dokumenty opisują serializację modelu danych Wikibase w JSON (JavaScript Object Notation) oraz w RDF (Resource Description Framework). Model danych leksemów definiuje podstawowe pojęcia i relacje wymagane do opisywania leksemów językowych, stanowiących ustaloną ontologię. Stanowi ona konieczną podstawę, które pozwala na użycie Elementów i Deklaracji do szczegółowego modelowania leksemu. Specyfikacja modelu danych leksemów jest oparta na Modelu danych Wikibase, więc Słowniczek i Elementarz modelu danych Wikibase może być pomocny w zrozumieniu poniższego dokumentu. The Lexeme data model aims to align with the LEMON model by the Ontolex W3C community group, where useful and practical. Jednak w duchu Wikibase model danych leksemów zaprojektowano jako prosty i wystarczająco elastyczny, aby umożliwić zwykłą edycję zespołową, w przeciwieństwie do bardziej sformalizowanego podejścia przyjętego przez LEMON.

Leksemy


Leksem to element leksykalny języka, taki jak słowo, fraza lub przedrostek (zobacz „Leksem” w Wikipedii). Leksemy stanowią Encje w rozumieniu modelu danych Wikibase. Leksem jest opisany przy użyciu następujących informacji:


 * ID. Identyfikatory Leksemów rozpoczynają się literą „L”, po której następuje liczba naturalna w zapisie dziesiętnym, np. . Te identyfikatory są unikalne w repozytorium, które zarządza leksemem. Identyfikator można połączyć z podstawowym URI repozytorium, aby utworzyć unikalny URI dla leksemu.
 * Lemma to czytelna dla człowieka reprezentacja leksemu, np. „bieg”.
 * Język, do którego należy dany leksem. Jest to odniesienie do konkretnego Elementu, np. Q1860 dla języka angielskiego.
 * Kategoria leksykalna, do której należy dany leksem. Jest to odniesienie do konkretnego Elementu, np. Q34698 dla przymiotnika.
 * Lista Deklaracji opisujących właściwości leksemu, które nie są wyłączne dla konkretnej formy lub znaczenia (np. etymologia, rodzaj gramatyczny lub funkcja składniowa).
 * Lista Form, zazwyczaj po jednej dla każdej odpowiedniej kombinacji cech gramatycznych, takich jak druga osoba / liczba pojedyncza / czas przeszły.
 * Lista Znaczeń, opisująca różne znaczenia leksemu (np. „instytucja finansowa” i „krawędź akwenu” dla angielskiego rzeczownika bank).

Wystąpienia
W Wikidanych zwykle używa się najbardziej ogólnej kategorii leksykalnej, np. „afiks”, a następnie zamiast opisu, jakiego typu afiksu używa, stosuje się deklaracje „wystąpień”.

Przykłady użycia
Społeczność Wikidanych zdecydowała się umieszczać przykłady użycia w tym konkretnym miejscu w leksemie, by ułatwić ich odnajdywanie. Posiadają 2 właściwości demonstracyjne d:Property:P5830 i d:Property:P6072, które łączą się z właściwym im znaczeniem i formą. Mogą zawierać wiele przykładów: z różnych okresów czasu (np. różnych wieków), o różnym stopniu formalności czy podziale na język mówiony i literacki.

Lemma
Lemma (lub lemat) jest czytelną dla człowieka reprezentacją leksemu (zobacz Lemma w Wikipedii). Zazwyczaj jako lemma będzie używana standardowa, słownikowa forma leksemu (np. forma bezokolicznika dla czasowników lub mianownika liczby pojedynczej dla rzeczowników) (zob. też lemon:canonicalForm). Lemmy nie są prostymi wartościami tekstowymi, ale MultilingualTextValues, ponieważ ta sama lemma może mieć wiele rodzajów zapisu. Jest to szczególnie ważne w przypadku języków, w których używa się wielu systemów pisma, takich jak serbski i japoński.

Pole lemmy nie może być całkowicie puste, należy podać przynajmniej jeden wariant.

Uwaga: Lemmy nie są unikalne, podobnie kombinacja Lematów, Języka i Kategorii leksykalnej. W tym samym języku mogą istnieć dwa różne leksemy z tą samą kategorią leksykalną, jeśli mają różne dane, jak np. rodzaj, etymologia, morfologia (różne formy) itp.

Forma
Morfologia leksemu jest rozumiana jako zbiór form. Każda forma określa, w jaki sposób leksem zmienia się w oparciu o konkretną funkcję składniową lub tryb, jaki może przyjąć w zdaniu (patrz także lemon:Form).

A Form is described using the following information:


 * ID. Formy posiadją identyfikatory rozpoczynające się identyfikatorem leksemu, do którego należą, po którym następuje myślnik ("-") i „F”, po którym następuje liczba naturalna w zapisie dziesiętnym: np. . Te identyfikatory są unikalne w repozytorium, które zarządza leksemem. Identyfikator można połączyć z bazowym identyfikatorem URI repozytorium w celu utworzenia unikalnego identyfikatora URI dla formy.
 * Reprezentacja, to zapis danej formy w postaci tekstowej.
 * Lista cechy gramatycznych definiujących do jakiej roli składniowej ma zastosowanie dana forma. Są one podane jako odniesienia do konkretnego Elementu, np. Q814722 dla imiesłowu.
 * A list of Statements further describing the Form or its relations to other Forms or Items (e.g. pronunciation audio, rhymes with, used until, used in region)

Representation
A form's Representation is its written form, as used in a text (compare lemon:writtenRep). Just like Lemmas, Representations are not simple strings, but MultilingualTextValues, since the same form may have multiple spellings, possibly in multiple scripts.

A Representation cannot be entirely empty, at least one variant has to be provided.

Multiple forms with the same representation are allowed to enable adding usage examples demonstrating each of them. Example in Wikidata

Grammatical Feature
A form's grammatical features specify under which conditions or in which syntactic role that form is used (see lexinfo:morphosyntacticProperty and grammatical category on Wikipedia). Multiple grammatical features can be combined to express under which conditions the language's grammar requires a given form to be used. Grammatical features are represented as references to Items.

Sense
The senses of a lexeme are different meanings which it may represent in a text. The senses are given as natural language definitions or glosses (compare intensional definitions on Wikipedia).

A sense is described using the following information:

In Wikidata image is also added to provide a culturally adapted image of the sense, e.g. of a letterbox or color that can vary greatly between cultures.
 * An ID. Senses have IDs starting with the ID of the Lexeme they belong to, followed by a hyphen ("-") and an "S", followed by a natural number in decimal notation: e.g. . These IDs are unique within the repository that manages the Lexeme. The ID can be combined with a repository's concept base URI to form a unique URI for the Sense.
 * A Gloss, defining the meaning of the Sense using natural language.
 * A list of Statements further describing the Sense and its relations to Senses and Items (e.g. item for this sense, synonym, antonym, connotation, register, denotes, evokes).

Gloss
A sense's gloss gives a natural definition of the sense (see Gloss on Wikipedia and skos:definition). Glosses cannot be referenced.

Similar to Lemmas, Glosses are not simple strings, but MultilingualTextValues. However, the reason is not providing support for variants, but to allow the gloss to be given in entirely different languages. E.g. it would be quite useful for a German learning French to have a German gloss for a French sense.

A Gloss cannot be entirely empty, at least one language has to be provided. A good gloss provides little or no space for ambiguity about the meaning. Lexemes with multiple senses should have glosses that are easily distinguishable from each other.

Short glosses of only a single or a few words should be avoided as it leaves too much space for interpretation of the meaning.

In Wikidata Glosses are often very similar to carefully crafted descriptions on Q-items. E.g. for apple the Q-items English description fruit of the apple tree is copied as gloss when using tools like MachtSinn to match lexemes and Q-items together and create missing senses.