Extension:TextExtracts/zh

TextExtracts扩展提供API来提取纯文本或有限HTML（HTML中的一些CSS样式被删除）的页面内容提取.

配置设定

 * 是&lt;tag>、&lt;tag>.class、.&lt;class>和#&lt;id>的集合，会在提取时被排除.
 * 例如， 删除缩进的文本，通常用于摘要中不需要的非模板化的备忘.
 * extension.json定义了默认值，其中“noexcerpt”类是默认值-可以将其添加到任何模板中以将其排除
 * 定义TextExtracts是否应将其摘录提供给Opensearch API模块. 默认值为“ ”

注意事项
使用API时，需要注意一些事项


 * 我们不推荐使用`exsentences`. 它不适用于HTML提取，并且在很多情况下都不存在.  例如，“Arm. gen. Ing. John Smith was a soldier.”（约翰·史密斯陆军上将是一名士兵. ）将被视为4个句子.  我们也没有计划修复这一问题.
 * 行内图片会在响应中被移除（即使在HTML模式下也是如此）. 这意味着，如果您正在使用Math扩展并在首段中使用公式，它们可能不会出现在摘要输出中.
 * 在HTML模式下，我们不能保证HTML格式是良好的. HTML结果可能是无效的或者存在格式错误.
 * 在纯文本格式下：
 * 引用可能不会被移除（参见T197266）.
 * 如果一个段落以HTML标签结尾（例如ref标签），新行将会被移除（参见T201946）.
 * 列表后的新行可能被移除（参见T208132）.

如何从页面预览中移除内容？
TextExtracts将删除所有带有noexcerpt类标记的元素. 这是由全局wgExtractsRemoveClasses提供的.

参见

 * Page Content Service
 * Page Content Service