Extension:Cognate/fr

L’extension Cognate crée un espace de stockage central pour les titres des pages d’un ensemble de sites. L’extension génère alors des liens interwikis entre les wikis lorsque les titres des pages sont identiques. Elle a été développée pour résoudre la tâche « Centraliser les liens interlangues pour le Wiktionnaire ».

Le « cognat » (cognate en anglais) est un concept linguistique désignant des mots identiques dans différentes langues, développés depuis la même origine. Cela signifie que cette extension est mal nommée parce qu’elle relie des pages ayant le même titre à travers les différents wikis, un nom plus adapté serait « Homonyme » (homograph en anglais).



Pré-requis et restrictions

 * Les pages doivent être dans l’un des espaces de noms standards de MediaWiki.
 * Les titres des pages sont les mêmes d’une langue à l’autre (une normalisation simple sera appliquée).
 * Les sites doivent avoir la même structure interwiki pour les liens interlangues.
 * Les pages ne doivent contenir aucun lien interlangue dans le wikitexte, car ils prendront alors l’ascendant sur les liens automatiques de Cognate.
 * Des conflits de hachage inattendus peuvent subvenir, il peut alors y avoir des liens interlangue erronés.



Comment cela fonctionne


Normalisation des titres
Une normalisation des titres très simple (réduction de certaines variantes typographiques de caractères en leurs variantes ASCII) sera effectuée par l’extension. Cela est détaillé dans la classe StringNormalizer.

La normalisation effectuée est basique. Il est possible de demander d’autres opérations, qui seront ajoutées au cas par cas.



Hachage des titres
Les titres sont hachés en utilisant SHA256. Cela est détaillé dans la classe StringHasher.

Une partie du hachage est stockée dans la base de données dans un champ entier signé de 64 bits (BIG_INT) pour faciliter les recherches.

Il y a approximativement 18 446 744 073 709 551 615 valeurs possibles.



Hachages correspondants
Comme les titres qui nécessitent des liens sont supposés être les mêmes après normalisation, ils auront le même hachage et donc la même variable stockée dans la base de données.

Un échantillon de données peut ressembler à ce qui suit lorsque que l’on charge la page « Foo... » du Wiktionnaire en anglais.

Écrasement des liens
Il est possible d’écraser les liens automatiques générés par Cognate, simplement en ajoutant un ou plusieurs liens interwikis dans la page.

Cela signifie également que pour faire fonctionner Cognate lorsque l’extension est déployée, les pages ne doivent contenir aucun autre lien interlangue dans leur wikicode.

Test
L’extension peut être testée sur les sites bêta du Wiktionnaire :


 * https://en.wiktionary.beta.wmflabs.org/wiki/Wiktionary:Main_Page
 * https://de.wiktionary.beta.wmflabs.org/wiki/Hauptseite
 * https://he.wiktionary.beta.wmflabs.org/wiki/%D7%A2%D7%9E%D7%95%D7%93_%D7%A8%D7%90%D7%A9%D7%99

Ces sites sont reliés en utilisant l’extension Cognate, ainsi que l’extension qui trie les liens interwikis.

Installation

 * Remplir le tableau des sites en lançant le script de maintenance populateCognateSites.php. Les sites doivent déjà exister dans le tableau des sites MediaWiki avec les groupements corrects.

php ./maintenance/populateCognateSites.php --site-group=wiktionary


 * Remplir les tableaux des pages et titres en lançant le script de maintenance populateCognatePages.php.

php ./maintenance/populateCognatePages.php