Extension:Cognate/fr

L’extension  Cognate  crée un espace de stockage central pour les titres des pages d’un ensemble de sites. L’extension génère alors des liens interwikis entre les wikis lorsque les titres des pages sont identiques. Elle a été développée pour résoudre la tâche « Centraliser les liens interlangues pour le Wiktionnaire ».

« Cognat » (cognate en anglais) est un concept linguistique désignant des mots identiques dans différentes langues, développés depuis la même origine. Cela signifie que cette extension est mal nommée parce qu’elle relie des pages ayant le même titre à travers les différents wikis, un nom plus adapté serait « Homonyme » (homograph en anglais).



Pré-requis et restrictions

 * Les pages doivent être dans l’un des espaces de noms standards de MediaWiki.
 * Les titres des pages sont les mêmes d’une langue à l’autre (une normalisation simple sera appliquée).
 * Les sites doivent avoir la même structure interwiki pour les liens interlangues.
 * Les pages ne doivent contenir aucun lien interlangue dans le wikitexte, car ils prendront alors l’ascendant sur les liens automatiques de Cognate.
 * Des conflits de hachage inattendus peuvent subvenir, il peut alors y avoir des liens interlangue erronés.



Fonctionnement


Normalisation des titres
Une normalisation des titres très simple (réduction au code ASCII) sera effectuée par l'extension. Cela est détaillé dans la classe StringNormalizer.

La normalisation effectuée est basique. Il est possible de demander d'autres opérations, qui seront ajoutées au cas par cas.



Hachage des titres
Les titres sont hachés en utilisant sha256. Cela est détaillé dans la classe StringHasher.

Une partie du hachage est stockée dans la base de données dans un champ BIG_INT pour faciliter les recherches.

Il y a approximativement 18 446 744 073 709 551 615 valeurs possibles.



Hachages correspondants
Comme les titres qui nécessitent des liens sont supposés être les mêmes après normalisation, ils auront le même hachage et donc la même variable stockée dans la base de données.

Un échantillon de données peut ressembler à ce qui suit lorsque que l'on charge la page "Foo..." sur le Wiktionnaire en anglais.

Écrasement des liens
Il est possible d'écraser les liens automatiques générés par Cognate, simplement en ajoutant un ou plusieurs liens interwikis dans la page.

Cela signifie également que pour que Cognate fonctionne quand l'extension est déployée, les pages ne doivent pas contenir d'autre liens interlangues dans leur wikitexte.

Test
L'extension peut être testée sur les sites wiktionaires beta :


 * https://en.wiktionary.beta.wmflabs.org/wiki/Wiktionary:Main_Page
 * https://de.wiktionary.beta.wmflabs.org/wiki/Hauptseite
 * https://he.wiktionary.beta.wmflabs.org/wiki/%D7%A2%D7%9E%D7%95%D7%93_%D7%A8%D7%90%D7%A9%D7%99

Ces sites sont reliés en utilisant l'extension Cognate, ainsi que l'extension qui trie les liens interwiki.

Installation

 * Remplir le tableau des sites en lançant le script de maintenance populateCognateSites.php. Les sites doivent déjà exister dans le tableau des sites Mediawiki avec les groupements corrects.

php ./maintenance/populateCognateSites.php --site-group=wiktionary


 * Remplir les tableaux des pages et titres en lançant le script de maintenance populateCognatePages.php.

php ./maintenance/populateCognatePages.php