Schrijfsystemen
Deze pagina geeft basisinformatie over de ondersteuning van verscheidene aspecten van schrijfsystemen: in verschillende schriften geschreven talen, de schrijfrichting, de weergave van lettertypen en het invoeren van tekst.
Meerdere schriften, meerdere dialecten
Veel talen worden met meerdere schriften geschreven. Vaak is dit mogelijk maar ontbreekt de ondersteuning in de software, en soms is het lastig of onmogelijk te implementeren. Wel is er voor sommige talen een LanguageConverter (taalomzetter) die ondersteuning voor meerdere schrijfsystemen toevoegt.
Sommige talen hebben sterk op elkaar lijkende dialecten die in hetzelfde schrijfsysteem (of in dezelfde schrijfsystemen) zijn geschreven. Op technisch niveau kunnen deze talen worden behandeld alsof het verschillende schrijfsystemen zijn.
LanguageConverter
Zie Writing systems/Syntax/nl voor documentatie over het gebruik van LanguageConverter.
LanguageConverter (LC) is een op taalvarianten gebaseerd systeem dat automatisch de inhoud van een pagina omzet in een andere variant. Een variant is grotendeels dezelfde taal in een ander schrift. Om LanguageConverter te gebruiken gaat u naar uw voorkeuren voor internationalisatie. Als u op een wiki bent die het omzetten ondersteunt, ziet u een extra optie voor het kiezen van het schrift.
Phab:T21044 -- hier kan wel wat meer documentatie van zijn!
Het is geïmplementeerd voor de volgende talen (per juli 2023; actuele lijst: languagesWithVariants):
- Balinees (ban): Balinese (ban-bali), Latin (ban-latn) [1.36+]
- Krim-Tataars (crh): Latin (crh-latn), Cyrillic (crh-cyrl)
- Engels (en): Normal (en), Pig Latin (en-x-piglatin) (om te testen, alleen als $wgUsePigLatinVariant is ingeschakeld)
- Ganyu (gan): Simplified (gan-hans), Traditional (gan-hant)
- Inuktitut (iu): Latin (ike-latn), Syllabics (ike-cans) [1.18+]
Kazachs (kk): Cyrillic (kk-cyrl), Latin (kk-latn), Arabic (kk-arab)Stopgezet in 2023, zie redenen bij phab:T268143 en phab:T350684.- Koerdisch (ku): Latin (ku-latn), Arabic (ku-arab) [1.11+]
- Servo-Kroatisch (sh): Cyrillic (sh-cyrl), Latin (sh-latn) [1.40+]
- Tashelhiyt (shi): Tifinagh (shi-tfng), Latin (shi-latn) [1.19+]
- Servisch (sr): Cyrillic (sr-ec), Latin (sr-el)
- Tadzjieks (tg): Cyrillic (tg-cyrl), Latin (tg-latn)
- Talysh (tly): Cyrillic (tly-cyrl), Latin (tly-latn) [1.36+]
- Oezbeeks (uz): Cyrillic (uz-cyrl), Latin (uz-latin) [1.20+]
- Wuyu (wuu): Simplified (wuu-hans), Traditional (wuu-hant) [1.41+]
- Standaard Marokkaanse Tamazight (zgh): Tamazigh (zgh-tfng), Latin (zgh-latn) [1.42+]
- Chinees (zh):
- Simplified Chinese (zh-hans): China (zh-cn), Singapore (zh-sg), Malaysia (zh-my)
- Traditional Chinese (zh-hant): Taiwan (zh-tw), Hong Kong (zh-hk),[1] Macau (zh-mo)
Dit is voor veel meer talen nodig!
Taalcode-tags voor schriften moeten de standaard ISO 15924 volgen.
Om compatibel te zijn met oudere versies is Servisch echter een uitzondering, met sr-ec in plaats van sr-cyrl en sr-el in plaats van sr-latn.
Dit wordt besproken in phab:T117845.
Een beperking in het huidige systeem is dat het bijzonder slecht kan zijn in het omgaan met meerdere schrijfsystemen die op hetzelfde onderliggende schrift gebaseerd zijn.
Chinese bewerkers gebruiken soms => (eenrichtingsaanduiding) in gevallen waar dit niet werkt.
Omdat LC altijd probeert om de grootst mogelijke woorddelen te verwerken met behulp van strtr in PHP, kan het afbreken van woorden met -{}- nuttig zijn.
Ondersteunende configuratie
De functies wgULS/wgUVS in zhwp's sitelib (nu achterhaald, zie zh:Wikipedia:HanAssist voor de huidige versie) maken het mogelijk eenvoudig een variant te kiezen in de interface van gebruikersscripts.
De makers van een schrift kunnen hiermee een gebruikersinterface ontwerpen die de variant herkent.
Op andere, voor LC onbereikbare plaatsen kan {{int:Conversionname}} worden gebruikt om de huidige taal of variant van de gebruikerinterface op te halen.
Met de gadget PreviewWithVariant kunnen Wikipedianen het effect van de omzetting controleren in de voorvertoning van de editor. U kunt dit op uw eigen wiki instellen.
Sjablonen voor het markeren van vreemde talen, zoals {{lang}}, moeten het omzetten uitschakelen door de markeringen -{ tekst }- rondom de geciteerde anderstalige tekst te plaatsen, anders wordt de tekst verkeerd omgezet.
Op Hans/Hant-Wikipedia’s wordt dit een punt van zorg voor Japanse Kanji en Vietnamese Han Nom, terwijl op Wikipedia’s met Latijnse tekst die gemarkeerd is voor omzetten, dit punt van zorg onmiddellijk speelt.
Met de module WikitextLC kunnen LC-commando’s eenvoudig worden ingevoegd in de Lua-uitvoer. Het NoteTA- en CGroup-systeem biedt toegang tot vooraf gedefinieerde sets van onderwerpspecifieke conversies. De module Module:地区用词 maakt adaptieve uitvoer mogelijk in de vorm “foo, bekend in PLAATS en PLAATS als bar, en PLAATS als baz”.
Het automatisch doorverwijzen van titels in URL’s kan voor interfaces zonder deze functie duidelijk ongemak veroorzaken. Zie T49725 voor de Lua-taak en T160952 voor de sectie-anker-taak.
Doorverwijzing van URL’s
In sommige installaties van MediaWiki wordt een korte URL gebruikt.
Op de Chinese Wikipedia kan bijvoorbeeld in plaats van https://zh.wikipedia.org/wiki/维基百科 (als er geen variant is opgegeven) of https://zh.wikipedia.org/w/index.php?title=维基百科&variant=zh-cn (als de variant zonder herschrijfregels is opgegeven) een verkorte URL zoals https://zh.wikipedia.org/zh-cn/维基百科 worden gebruikt als tijdelijke koppeling naar de opgegeven schriftvariant (in dit geval zh-cn).
Dit gedrag is te zien op verschillende taalversies van Wikipedia, zoals de Chinese Wikipedia, de Servische Wikipedia, enz.
Maar anderen zoals de Gan-Chinese Wikipedia en de Balinese Wikipedia houden vaak de lange URL met index.php&variant= aan.
Dit wordt geregeld door $wgVariantArticlePath en de herschrijfregels van de webserver (zie de handleidingen voor korte URL’s in Apache en nginx).
Zie ook
- Automatische conversie tussen vereenvoudigd en traditioneel Chinees
- Wikipedia’s met meerdere schrijfsystemen
- Specificaties/HTML#Taalconversieblokken
- Parsoid/Taalconversie
Schrijfrichting
De meeste schrijfsystemen werken met tekens die van links naar rechts worden geschreven (LTR, left-to-right), waarbij de regels van bovenaf worden geschreven (TtB, top-to-bottom).
Enkele gebruikelijke schriften (met name Arabisch en Hebreeuws) worden van rechts naar links (RTL) geschreven. Zie de pagina over de ondersteuning van schrijfrichting voor meer informatie over hoe we omgaan met van-rechts-naar-links en gemengde bidirectionele tekst met HTML-uitvoer en CSS-stijlen.
Merk op dat een individuele taal gebruikt kan worden met schriften die verschillende schrijfrichtingen hebben, zoals het Kazachs en het Koerdisch, die Latijnse en Arabische varianten ondersteunen.
Merk ook op dat het World Wide Web Consortium meer richtingen heeft gedefinieerd voor gebruik in webpagina’s, zoals Noord-Oost-Aziatische richtingen van boven naar beneden, waarbij de regels van links naar rechts of van rechts naar links worden gestapeld.[2]
Weergave van lettertypen en invoer
Voor veel schriften zijn er geen goede lettertypen die eenvoudig voor gebruikers beschikbaar zijn. Dit kan komen omdat besturingssystemen deze lettertypen niet meeleveren, of omdat gebruikers niet weten hoe ze die moeten installeren of dat niet mogen doen. De uitbreiding UniversalLanguageSelector/nl probeert dit te verhelpen door de lettertypen in de wiki zelf in te bedden. Lettertypen worden vanaf de server opgediend en hoeven niet op het systeem van de gebruiker te worden geïnstalleerd.
UniversalLanguageSelector maakt het mogelijk in een bepaald schrift te typen, zodat gebruikers niet afhankelijk zijn van externe hulpmiddelen of ondersteuning op hun systemen.
Referenties
- ↑ Taiwan en Hong Kong zijn twee hoofdvarianten die in hetzelfde traditionele schrift worden geschreven, maar aanzienlijke verschillen in het gebruik van uitdrukkingen kennen, dit vanwege de marktscheiding en de invloed van lokale
zho-talen. Daarom is het aan te bevelen ten minste CN, TW en HK in uw lijst met varianten aan te houden. Als u erop staat om het bereik van Chinese varianten te beperken tot een op het schrift gebaseerde scheiding tussen Vereenvoudigd en Traditioneel, volg dan wat de melder heeft gedaan in phab:T149278. - ↑ CSS Writing modes level 3