Extension:Cognate/fr

Cognate crée un espace de stockage central pour les titres des pages d'un ensemble de sites. L'extension génère alors des liens interwikis entre les wikis lorsque les titres des pages sont identiques. Elle a été développée pour résoudre la tâche « Centraliser les liens interlangues pour le Wiktionnaire ».

« Cognat » (cognate en anglais) est un concept linguistique désignant des mots identiques dans différentes langues, développés depuis la même origine. Comme l'extension a un mécanisme de traduction similaire, cela faisait un nom court et intéressant, même si le concept en lui-même est différent.

Pré-requis et restrictions

 * Les pages doivent être dans l'un des espaces de noms standard de MediaWiki.
 * Les titres des pages sont les mêmes d'une langue à l'autre (une normalisation simple sera appliquée).
 * Les sites doivent avoir la même structure interwiki pour les liens interlangues.
 * Les pages ne doivent pas contenir de liens interlangues dans le wikitexte, car ils prendront alors l'ascendant sur les liens automatiques de Cognate
 * Des conflits de hachage inattendus peuvent subvenir, il peut alors y avoir des liens interlangue erronnés.

Normalisation des titres
Une normalisation des titres très simple (réduction au code ASCII) sera effectuée par l'extension. Cela est détaillé dans la classe StringNormalizer.

Very simple title normalization (reduction to ASCII) occurs within the extension. This can be seen in the StringNormalizer class.

La normalisation effectuée est basique. Il est possible de demander d'autres opérations, qui seront ajoutées au cas par cas.

Hachage des titres
Les titres sont hachés en utilisant sha256. Cela est détaillé dans la classe StringHasher.

Titles are hashed using sha256. This can be seen in the StringHasher class.

Une partie du hachage est stocké dans la base de données dans un champ BIG_INT pour faciliter les recherches.

Il y a approximativement 18 446 744 073 709 551 615 valeurs possibles.

Hachages correspondants
Comme les titres qui nécessitent des liens sont supposés être les mêmes après normalisation, ils auront le même hachage et donc la même variable stockée dans la base de données.

As titles that require links are assumed to be the same post normalization, they will result in the same hash and thus the same Int stored in the database.

Un échantillon de données peut ressembler à ce qui suit lorsque que l'on charge la page "Foo..." sur le Wiktionnaire en anglais.

Écrasement des liens
Il est possible d'écraser les liens automatiques générés par Cognate, simplement en ajoutant un ou plusieurs liens interwikis dans la page.

Cela signifie également que pour que Cognate fonctionne quand l'extension est déployée, les pages ne doivent pas contenir d'autre liens interlangues dans leur wikitexte.

Test
L'extension peut être testée sur les sites wiktionaires beta :


 * https://en.wiktionary.beta.wmflabs.org/wiki/Wiktionary:Main_Page
 * https://de.wiktionary.beta.wmflabs.org/wiki/Hauptseite
 * https://he.wiktionary.beta.wmflabs.org/wiki/%D7%A2%D7%9E%D7%95%D7%93_%D7%A8%D7%90%D7%A9%D7%99

Ces sites sont reliés en utilisant l'extension Cognate, ainsi que l'extension InterwikiSorting qui trie les liens interwiki.

Installation

 * Remplir le tableau des sites en lançant le script de maintenance populateCognateSites.php. Les sites doivent déjà exister dans le tableau des sites Mediawiki avec les groupements corrects.

php ./maintenance/populateCognateSites.php --site-group=wiktionary


 * Remplir les tableaux des pages et titres en lançant le script de maintenance populateCognatePages.php.

php ./maintenance/populateCognatePages.php