Extension:TextExtracts/fr

L'extension TextExtracts fournit une API qui permet d'extraire du texte brut ou du HTML restreint (HTML dont le contenu pour certaines classes CSS a été enlevé) du contenu d'une page.

Paramètres de configuration

 * est un tableau de &lt;tag>, &lt;tag>.class, .&lt;class>, et #&lt;id> qui sera exclus de l'extraction.
 * Par exemple,  supprime le texte indenté, souvent utilisé  pour les notes chapeau qui n'ont pas de modèle et qui ne sont pas souhaitées dans les résumés.
 * extension.json définit les valeurs par défaut, dont la classe noexcerpt fait partie - ceci peut être ajouté à n'importe quel modèle pour l'exclure.
 * indique si TextExtracts doit fournir ses extraits au module API Opensearch . Par défaut la valeur est.

Mises en garde
Il y a plusieurs choses auxquelles vous devez faire attention lorsque vous utilisez l'API


 * Nous ne recommandons pas l'utilisation de 'exsentences'. Elle ne fonctionne pas pour les extraits HTML et il y a beaucoup de cas limite pour lesquels il n'existe pas. Par exemple Arm. gen. Ing. John Smith was a soldier. sera traité comme 4 phrases. Nous ne prévoyons pas de corriger cela.


 * les images en ligne sont extraites de la réponse (même en mode HTML). Cela signifie que si vous utilisez l'extension Math ainsi que les formules dans votre section principale, elles peuvent ne pas apparaître dans la sortie résumée.


 * En mode HTML nous ne pouvons pas garantir un HTML cohérent. Le HTML résultat peut s'avérer non valide ou mal structuré.


 * En mode texte brut :
 * les citations ne peuvent pas être extraites (voir T197266)
 * si un paragraphe se termine par une balise HTML, par exemple la balise 'ref', les passages à la ligne peuvent être supprimés (voir T201946),
 * les passages à la ligne peuvent être supprimés après les listes T208132

Comment peut-on supprimer le contenu d'un extrait ou d'un aperçu de page ?
TextExtracts va extraire tout élément qui est marqué avec la classe noexcerpt. Ceci est fourni par la variable globale wgExtractsRemoveClasses.

Voir aussi

 * Page Content Service
 * Page Content Service