Extension:WikibaseLexeme/Model Danych

From mediawiki.org
This page is a translated version of the page Extension:WikibaseLexeme/Data Model and the translation is 90% complete.
Outdated translations are marked like this.

Strona ta prezentuje edytowalny dokument, opisujący koncepcyjny schemat danych użytkowany w WikibaseLexeme . Nie stanowi on specyfikacji, data binding'u, implementacji, mapowania, lub serializacji.

Model danych WikibaseLexeme opisuje strukturę danych takich jak słowa i frazy, obsługiwanych jako "Leksymy" w Wikibase. Mimo iż teoretycznie byłoby możliwe modelowanie tych obiektów przy użyciu Items, bardziej ekspresyjny i wyspecjalizowany model pomaga zmniejszyć złożoność danych oraz usprawnić dalsze ich użycie i mapowanie do innych słowników. Ten model danych ma charakter koncepcyjny („jakie informacje powinniśmy obsługiwać?”) i nie określa, w jaki sposób te dane powinny być reprezentowane technicznie („jakich struktur danych powinno używać oprogramowanie?”) ani syntaktycznie („Jak należy przedstawić dane w pliku?"). Oddzielne dokumenty opisują serializację modelu danych Wikibase w JSON (JavaScript Object Notation) oraz w RDF (Resource Description Framework). Model danych leksemów definiuje podstawowe pojęcia i relacje wymagane do opisywania leksemów językowych, stanowiących ustaloną ontologię. Stanowi ona konieczną podstawę, które pozwala na użycie Elementów i Deklaracji do szczegółowego modelowania leksemu. Specyfikacja modelu danych leksemów jest oparta na Modelu danych Wikibase, więc Słowniczek i Elementarz modelu danych Wikibase może być pomocny w zrozumieniu poniższego dokumentu. The Lexeme data model aims to align with the LEMON model by the Ontolex W3C community group, where useful and practical. Jednak w duchu Wikibase model danych leksemów zaprojektowano jako prosty i wystarczająco elastyczny, aby umożliwić zwykłą edycję zespołową, w przeciwieństwie do bardziej sformalizowanego podejścia przyjętego przez LEMON.

Leksemy

wizualizacja modelu danych leksemów

Leksem to element leksykalny języka, taki jak słowo, fraza lub przedrostek (zobacz „Leksem” w Wikipedii). Leksemy stanowią Encje w rozumieniu modelu danych Wikibase. Leksem jest opisany przy użyciu następujących informacji:

  • ID. Identyfikatory Leksemów rozpoczynają się literą „L”, po której następuje liczba naturalna w zapisie dziesiętnym, np. L3746552. Te identyfikatory są unikalne w repozytorium, które zarządza leksemem. Identyfikator można połączyć z podstawowym URI repozytorium, aby utworzyć unikalny URI dla leksemu.
  • Lemma to czytelna dla człowieka reprezentacja leksemu, np. „bieg”.
  • Język, do którego należy dany leksem. Jest to odniesienie do konkretnego Elementu, np. Q1860 dla języka angielskiego.
  • Kategoria leksykalna, do której należy dany leksem. Jest to odniesienie do konkretnego Elementu, np. Q34698 dla przymiotnika.
  • Lista Deklaracji opisujących właściwości leksemu, które nie są wyłączne dla konkretnej formy lub znaczenia (np. etymologia, rodzaj gramatyczny lub funkcja składniowa).
  • Lista Form, zazwyczaj po jednej dla każdej odpowiedniej kombinacji cech gramatycznych, takich jak druga osoba / liczba pojedyncza / czas przeszły.
  • Lista Znaczeń, opisująca różne znaczenia leksemu (np. „instytucja finansowa” i „krawędź akwenu” dla angielskiego rzeczownika bank).

Editorial Note: Należy tutaj podać pewną wskazówkę dotyczącą sposobu modelowania rodzaju gramatycznego za pomocą Deklaracji.

Deklaracje leksemów

Wystąpienia

W Wikidanych zwykle używa się najbardziej ogólnej kategorii leksykalnej, np. „afiks”, a następnie zamiast opisu, jakiego typu afiksu używa, stosuje się deklaracje „wystąpień”.

Przykłady użycia

Społeczność Wikidanych zdecydowała się umieszczać przykłady użycia w tym konkretnym miejscu w leksemie, by ułatwić ich odnajdywanie. Posiadają 2 właściwości demonstracyjne d:Property:P5830 i d:Property:P6072, które łączą się z właściwym im znaczeniem i formą. Mogą zawierać wiele przykładów: z różnych okresów czasu (np. różnych wieków), o różnym stopniu formalności czy podziale na język mówiony i literacki.

Lemma

Lemma (lub lemat) jest czytelną dla człowieka reprezentacją leksemu (zobacz Lemma w Wikipedii). Zazwyczaj jako lemma będzie używana standardowa, słownikowa forma leksemu (np. forma bezokolicznika dla czasowników lub mianownika liczby pojedynczej dla rzeczowników) (zob. też lemon:canonicalForm). Lemmy nie są prostymi wartościami tekstowymi, ale MultilingualTextValues, ponieważ ta sama lemma może mieć wiele rodzajów zapisu. Jest to szczególnie ważne w przypadku języków, w których używa się wielu systemów pisma, takich jak serbski i japoński.

Example: Lemma dla rzeczownika angielskiego color zawierałby colour w brytyjskim angielskim, a także color w amerykańskiej odmianie języka angielskiego.

Pole lemmy nie może być całkowicie puste, należy podać przynajmniej jeden wariant.

Uwaga: Lemmy nie są unikalne, podobnie kombinacja Lematów, Języka i Kategorii leksykalnej. W tym samym języku mogą istnieć dwa różne leksemy z tą samą kategorią leksykalną, jeśli mają różne dane, jak np. rodzaj, etymologia, morfologia (różne formy) itp.

Example: Istnieją dwa niemieckie rzeczowniki z lemmą „See”, różniące się tylko rodzajem gramatycznym: „der See” oznaczające „jezioro” i „die See” oznaczające „morze”. Te dwa znaczenia nie mogą być rozumiane jako jeden leksem, ponieważ mają one różne formy w zależności od rodzaju gramatycznego. An example where there would only be one Lexeme would be the German word "Schild", which for its meaning "Shield" can be either masculine or neutral gendered based on the region in Germany (neutral in the north and parts of central Germany).

Forma

Morfologia leksemu jest rozumiana jako zbiór form. Każda forma określa, w jaki sposób leksem zmienia się w oparciu o konkretną funkcję składniową lub tryb, jaki może przyjąć w zdaniu (patrz także lemon:Form).

Example: Angielski czasownik run przybiera formę „running” jako imiesłów czasu teraźniejszego (present participle) jak i „runs” w trzeciej osobie liczby pojedynczej.

A Form is described using the following information:

  • ID. Formy posiadją identyfikatory rozpoczynające się identyfikatorem leksemu, do którego należą, po którym następuje myślnik ("-") i „F”, po którym następuje liczba naturalna w zapisie dziesiętnym: np. L3746552-F7. Te identyfikatory są unikalne w repozytorium, które zarządza leksemem. Identyfikator można połączyć z bazowym identyfikatorem URI repozytorium w celu utworzenia unikalnego identyfikatora URI dla formy.
  • Reprezentacja, to zapis danej formy w postaci tekstowej.
  • Lista cechy gramatycznych definiujących do jakiej roli składniowej ma zastosowanie dana forma. Są one podane jako odniesienia do konkretnego Elementu, np. Q814722 dla imiesłowu.
  • Lista Deklaracji szczegółowiej opisujących Formę lub jej relacje z innymi Flub Elormami lub Elementami (np. nagrani wymowy, rymuje się z, używane do, region stosowania)

Planned Feature:
Możemy dodać pojęcie „typu formy”, który określa, jakie informacje zawiera dana forma. Jednym z możliwych nowych typów może być "nieistniejący", co pozwoliłoby reprezentować formy, o których wiadomo, iż nie istnieją (jak bezokolicznik angielskiego "may", lub liczba mnoga niemieckiego "Schnee"). Formy typu „nieistniejącego” posiadałyby deklaracje i cechy gramatyczne, ale nie posiadałyby reprezentacji.

Reprezentacja

Reprezentacja formy to jej forma pisana, użytkowana w tekście (porównaj z lemon:writtenRep). Podobnie jak Lemmy, Reprezentacje nie są prostymi wartościami tekstowymi, ale MultilingualTextValues, gdyż ta sama forma może mieć wiele zapisów w wielu różnych systemach pisma.

Pole Reprezentacji nie może być całkowicie puste, należy podać przynajmniej jeden wariant.

Możliwe jest zastosowanie wiele Form z tą samą Reprezentacją, aby umożliwić dodawanie przykładów użycia demonstrujących każdy z nich (zob. P5830). Przykład w Wikidanych

Cechy gramatyczne Cechy gramatyczne formy określają, w jakich warunkach lub w jakiej roli składniowej forma jest używana (zobacz lexinfo:morphosyntacticProperty i kategoria gramatyczna w Wikipedii). Wiele cech gramatycznych można łączyć, aby wyrazić, w jakich warunkach gramatyka języka wymaga użycia określonej formy. Funkcje gramatyczne są reprezentowane jako odniesienia do Elementów.

Example: Rolę pierwszej osoby czasu teraźniejszego w liczbie mnogiej można zdefiniować za pomocą trzech cech, reprezentowanych odpowiednio przez elementy Wikidanych: Q192613 (czas teraźniejszy), Q21714344 (pierwsza osoba) oraz Q146786 (liczba mnoga).

Editorial Note: How do we model "a" vs "an"? What item would we use as a feature to describe this? Do we need free text usage notes after all?

Editorial Note: Warto zauważyć, że formy specyficzne dla płci, takie jak „baronowa”, mogą być traktowane jako Formy lub jako oddzielne leksemy, zależnie od potrzeb.

Znaczenie

Znaczenia leksemu to różnorodne znaczenia, które może on reprezentować w tekście. Znaczenia są podawane jako definicje w języku naturalnym lub tzw. „glosy” (porównaj z intensional definitions w Wikipedii anglojęzycznej).

Znaczenie jest opisane przy użyciu następujących informacji:

  • ID. Znaczenia posiadają identyfikatory rozpoczynające się identyfikatorem leksemu, do którego należą, po którym następuje myślnik ("-") i „S”, po którym następuje liczba naturalna w zapisie dziesiętnym: np. L3746552-F7. Te identyfikatory są unikalne w repozytorium, które zarządza leksemem. Identyfikator można połączyć z bazowym identyfikatorem URI repozytorium w celu utworzenia unikalnego identyfikatora URI dla formy.
  • Definicja (gloss), opisująca dane znaczenie w języku naturalnym.
  • Lista Deklaracji opisujących znaczenie i jego relacje ze Znaczeniami i Elementami (np. Element dla tego znaczenia, synonim, antonim, konotacja, „rejestr stylistyczny”, „denotacja”, „użycie”). W Wikidanych „Ilustracja” jest również dodawana, aby zapewnić kulturowo dostosowany obraz dla Znaczenia, np. skrzynki na listy lub koloru, który może się znacznie różnić w zależności od kultury.

Editorial Note: Należy znaleźć dobre miejsce, aby zająć się powszechnym źródłem nieporozumień: Znaczenia można połączyć z Elementami Wikidanych za pomocą odpowiedniej Deklaracji, które przywołują lub oznaczają (zobacz lemon:denotes oraz lemon:evokes). Takiego związku nie należy jednak interpretować jako leksemu faktycznie reprezentującego pojęcie zdefiniowane przez Element (zobacz lemon:LexicalSense i lemon:LexicalConcept). Zwłaszcza gdy dwa leksemy posiadają Znaczenia odwołujące się tak do tego samego pojęcia, nie oznacza to, że oba leksemy są synonimami.

Przykład: leksemy przymiotników „ciepły” i „zimny” mogą posiadać Znaczenia odnoszące się do Q11466 (temperatura), mimo że są antonimami.

Editorial Note: We should describe how word function can be described for things like "to" or "a", using Statements on the Lexeme. We should also explain that function words should not have senses. Do we need free text usage notes?

Planned Feature:
Lorem Ipsum

Definicja

Definicja dla danego Znaczenia oddaje określony opis „sensu” lub przesłania (patrz Gloss w anglojęzycznej Wikipedii i skos:definition). Nie można odwoływać się do Definicji.

Podobnie jak Lemma, definicje nie są zwykła wartością tekstową, ale MultilingualTextValues. Powodem nie jest jednak obsługa wariantów, ale umożliwienie tworzenia definicji obcojęzycznych. Np. przydatnym byłoby dla osoby uczącej się języka francuskiego, by odpowiednie Znaczenie francuskiego leksemu, posiadało ponadto definicję w języku danego ucznia

Pole Definicji nie może być całkowicie puste, należy podać co najmniej jeden język. Dobra definicja daje niewiele miejsca na dwuznaczność lub wręcz ją wyklucza. Leksymy z wieloma Znaczeniami powinny mieć łatwo odróżnialne definicje dla każdego z Znaczeń.

Należy unikać krótkich Definicji w postaci jednego lub kilku słów, ponieważ pozostawia to zbyt dużo miejsca na złą interpretację danego znaczenia.

W Wikidanych Definicje (glosy) są zazwyczaj bardzo podobne do starannie przygotowanych opisów Q-Elementów. Np. w przypadku „jabłka” opis Q-Elementu owoc jabłoni jest kopiowany jako definicja, gdy używa się narzędzi takich jak MachtSinn w celu dopasowywania leksemów z Q-Elementami i tworzenia brakujących znaczeń.

Zobacz też