Extension:WikibaseLexeme/Data Model/ar

هذا توثيق مستمر، يصف نموذج البيانات المفاهيمية التي تستخدمها قاعدة الويكي للمفردات. ليست تخصيص لأي ربط، تطبيق، تخطيط، أو تسلسل ملموس.


 * Lexeme:
 * Lemma
 * Language
 * Lexical category
 * Statements
 * Forms:
 * Representation
 * Grammatical Features
 * Statements
 * Senses:
 * Gloss
 * Statements

يصف نموذج بيانات قاعدة الويكي للمفردات هيكل البيانات التي يتم التعامل معها كـ "مفردات" في قاعدة الويكي، مثل الكلمات والعبارات. من الممكن نظريا نمذجة هذا الكلام باستخدام العناصر، إلا أن النمذجة المتخصصة الأكثر تعبيرا تساعد على تقليل التعقيد، وتحسن من إعادة استخدام الكلام وربطه بالمفردات الأخرى. نمذجة البيانات هذه مفهومة! ("ما المعلومات التي يجب أن ندعمها؟") وكيفية تحديد تمثيل هذه البيانات تقنيا ("ما هو هيكل البيانات التي يجب أن يستخدمها البرنامج؟") أو نحويا ("كيف ينبغي التعبير عن البيانات في ملف؟) تصف المستندات المنفصلة تسلسل نموذج بيانات قاعدة الويكي في JSON (JavaScript Object Notation) وفي RDF (Resource Description Framework). يحدد نموذج بيانات المفردة المفاهيم الأساسية والعلاقات اللازمة لوصف المفردات، والتي تعمل بمثابة أنطولوجيا محددة. توفر هذه الأنطولوجيا الحد الأدنى من الدعائم التي تسمح باستخدام العناصر والبيانات للنمذجة التفصيلية لـلمفردة. تعتمد مواصفات نموذج بيانات المفردة على نموذج بيانات قاعدة الويكي، لذلك قد يكون مسرد ويكي بيانات ودليل نموذج بيانات قاعدة الويكي مفيدا في فهم هذا التوثيق. يهدف نموذج بيانات المفردة إلى التوافق مع نموذج LEMON حسب مجموعة مجتمع Ontolex W3C، عندئذ يكون مفيدا وعمليا. ومع ذلك، اعتبارا لروح قاعدة الويكي، تم تصميم نموذج المفردة ليكون بسيطا ومرنا بدرجة كافية للتحرير التعاوني عفويا، على عكس النهج الأكثر رسميا الذي يتبعه LEMON.

مفردة


تعد المفردة عنصرا معجميا للغة، ككلمة أو عبارة أو بادئة (مفردة على ويكيبيديا). تعد المفردات مكونات بمعنىً في نموذج بيانات قاعدة الويكي. يتم وصف المفردة باستخدام المعلومات التالية:


 * معرف. تحتوي المفردات على معرفات تبدأ بحرف "L" متبوعا برقم طبيعي من 1 الى ما لا نهاية، على سبيل المثال. . هذه المعرفات فريدة داخل المستودع الذي يدير المفردة. يمكن دمج المعرف مع مسار "URI" لقاعدة المستودع لتشكيل مسار "URI" فريد للمفردة.
 * مدخل لاستخدامه كتمثيل يمكن قراءته من قبل الإنسان للمفردة، على سبيل المثال "جرى".
 * اللغة التي تنتمي إليها المفردة. تشير إلى عنصر ملموس، على سبيل المثال. Q13955 للغة العربية.
 * التصنيف المعجمي الذي تنتمي إليها المفردة. يتم تقديم هذا التصنيف كإشارة إلى عنصر ملموس، على سبيل المثال. Q34698 للصفة.
 * قائمة البيانات لوصف خصائص المفردة والتي هي ليست خاصةً بالصيغة أو المعنى (على سبيل المثال. مشتق من أو الجنس النحوي أو الوظيفة النحوية).
 * قائمة الصيغ، عادةً صيغة لكل مجموعة ذات صلة من الميزات النحوية، مثل صيغة المخاطب / صيغة المفرد / الزمن الماضي.
 * قائمة المعاني، تصف المعاني المختلفة للمفردة (على سبيل المثال، "مؤسسة مالية" و"edge of a body of water" للاسم الإنجليزي bank أو "حشرة تنتج العسل" للاسم العربي نحلة).

نموذج من
في ويكي بيانات يتم استخدام عموما التصنيف المعجمي الأكثر شيوعا على سبيل المثال. اللاحقة ثم بدلا من وصف نوع تلك اللاحقة يتم استخدام بيان مع خاصية نموذج من.

أمثلة الاستخدام
في ويكي بيانات قرر المجتمع أن يكون لديه أمثلة على استخدام المفردة في مكان واحد لأنهم يعرفون أين يبحثون عنها بعد ذلك. لديهم خاصيتان توضيحيتان d:Property:P5830 و d:Property:P6072 للربط بالمعنى والصيغة الصحيحتين. يمكن أن تكون هناك أمثلة متعددة على فترات زمنية مختلفة. على سبيل المثال. كلمات قرون مختلفة لصيغ رسمية أو غير رسمية ومكتوبة أو منطوقة.

مدخل
المدخل هو تمثيل يمكن قراءته من قبل الإنسان للمفردة (انظر مدخل على ويكيبيديا.) عادة، الصيغة المعيارية للمفردة (مثل صيغة المصدر للأفعال) ستستخدم كمدخل (انظر أيضا lemon:الصيغة المعيارية). المداخل ليست نصوص بسيطة، ولكنها قيم نصية متعددة اللغات، نظرا لأن نفس المدخل قد يكون له تهجئات متعددة. هذا مهم بشكل خاص للغات التي تستخدم كتابات متعددة مثل الصربية واليابانية.

لا يمكن أن يكون المدخل فارغا تماما، يجب توفير متغير واحد على الأقل.

Note: Lemmas are not unique, nor is the combination of Lemma, Language, and Lexical category. Two distinct lexemes with the same lexical category can exist in the same language if they have different data, it may be gender, etymology, morphology (different forms), and so on.

Form
The morphology of the lexeme is understood as a set of Forms. Each form defines how a lexeme changes based on a specific syntactic role or mode it may take in a sentence (see also lemon:Form).

A Form is described using the following information:


 * An ID. Forms have IDs starting with the ID of the Lexeme they belong to, followed by a hyphen ("-") and an "F", followed by a natural number in decimal notation: e.g. . These IDs are unique within the repository that manages the Lexeme. The ID can be combined with a repository's concept base URI to form a unique URI for the Form.
 * A representation, spelling out the Form as a string.
 * A list of grammatical features that define for which syntactic role the given form applies. These are given as references to a concrete Items, e.g. Q814722 for participle.
 * A list of Statements further describing the Form or its relations to other Forms or Items (e.g. pronunciation audio, rhymes with, used until, used in region)

Representation
A form's Representation is its written form, as used in a text (compare lemon:writtenRep). Just like Lemmas, Representations are not simple strings, but MultilingualTextValues, since the same form may have multiple spellings, possibly in multiple scripts.

A Representation cannot be entirely empty, at least one variant has to be provided.

Multiple forms with the same representation are allowed to enable adding usage examples demonstrating each of them. Example in Wikidata

Grammatical Feature
A form's grammatical features specify under which conditions or in which syntactic role that form is used (see lexinfo:morphosyntacticProperty and grammatical category on Wikipedia). Multiple grammatical features can be combined to express under which conditions the language's grammar requires a given form to be used. Grammatical features are represented as references to Items.

Sense
The senses of a lexeme are different meanings which it may represent in a text. The senses are given as natural language definitions or glosses (compare intensional definitions on Wikipedia).

A sense is described using the following information:

In Wikidata image is also added to provide a culturally adapted image of the sense, e.g. of a letterbox or color that can vary greatly between cultures.
 * An ID. Senses have IDs starting with the ID of the Lexeme they belong to, followed by a hyphen ("-") and an "S", followed by a natural number in decimal notation: e.g. . These IDs are unique within the repository that manages the Lexeme. The ID can be combined with a repository's concept base URI to form a unique URI for the Sense.
 * A Gloss, defining the meaning of the Sense using natural language.
 * A list of Statements further describing the Sense and its relations to Senses and Items (e.g. item for this sense, synonym, antonym, connotation, register, denotes, evokes).

Gloss
A sense's gloss gives a natural definition of the sense (see Gloss on Wikipedia and skos:definition). Glosses cannot be referenced.

Similar to Lemmas, Glosses are not simple strings, but MultilingualTextValues. However, the reason is not providing support for variants, but to allow the gloss to be given in entirely different languages. E.g. it would be quite useful for a German learning French to have a German gloss for a French sense.

A Gloss cannot be entirely empty, at least one language has to be provided. A good gloss provides little or no space for ambiguity about the meaning. Lexemes with multiple senses should have glosses that are easily distinguishable from each other.

Short glosses of only a single or a few words should be avoided as it leaves too much space for interpretation of the meaning.

In Wikidata Glosses are often very similar to carefully crafted descriptions on Q-items. E.g. for apple the Q-items English description fruit of the apple tree is copied as gloss when using tools like MachtSinn to match lexemes and Q-items together and create missing senses.