ORES/BWDS review/zh

本页面简要介绍如何归类BWDS生成的字词列表.

BWDS的工作原理
BWDS扫描一个wiki的历史记录，找到哪些被添加的字词通常被回退，并且在没有被回退的编辑中不常见. 因此本系统倾向于那些侮辱性或不适合条目的非正式字词（如"hello"、"woohoo"、"yolo"等）. 本系统也输出在所有编辑中很常用的字词，以备在处理文本时作为停用词.

如何归类
BWDS将生成一个wiki页面，其中包含自动生成的字词列表. 可以对magyar语言的字词研究为例. 我们需要以目标语言为母语的使用者来帮助我们对列表进行归类、去除被错误抓取的字词.


 * list-generated（生成的列表）
 * 该列表包含在已回退编辑中添加的字词. 该列表内容需要向“不良字词”和“非正式”归类.


 * list-stop（停用列表）
 * 该列表包含所有编辑中最常用的字词. 该列表不需要人力审核，可以忽略.


 * badwords（不良字词）
 * 该列表应该包含在任何页面上都不受欢迎的字词，从“生成的列表”摄取. 这包括侮辱用语、垃圾信息和其他总应该被回退的内容. 此列表可随时补充，包括添加BWDS未检测到的不良字词.


 * informals（非正式）
 * 该列表应该包含在所有条目上都不受欢迎的字词，但这些字词可用于讨论页面. 这包括如“你好”、“哈哈哈”等讨论中可以使用但不太适合条目的字词. 随时可添加BWDS未检测到的非正式用语到此列表.

在哪能找到我的BWDS列表？
我们已经为许多较大wiki提供了预生成的列表. 查阅我们的字词列表查看是否已为您的wiki生成了列表. 如果还没有，使用下面的按钮请求生成列表. 另见如何获得支持.

([//phabricator.wikimedia.org/T131450 例子])