ORES

From mediawiki.org
Jump to navigation Jump to search
This page is a translated version of the page ORES and the translation is 60% complete.
Outdated translations are marked like this.
Other languages:
Bahasa Indonesia • ‎English • ‎Esperanto • ‎Nederlands • ‎Türkçe • ‎español • ‎français • ‎galego • ‎português do Brasil • ‎suomi • ‎svenska • ‎čeština • ‎русский • ‎українська • ‎中文 • ‎日本語 • ‎한국어

O ORES (/ɔɹz/)[1] é um serviço web e API que fornece o aprendizado de máquina as a service para os projetos da Wikimedia, mantido pela equipe de Plataforma de Pontuações. O sistema foi designado para ajudar a automatizar trabalhos nas wikis, como detecção e remoção de vandalismo. Atualmente, os dois tipos gerais de pontuações que o ORES gera são no contexto de “qualidade da edição” e “qualidade do artigo”. The system is designed to help automate critical wiki-work – for example, vandalism detection and removal. Currently, the two general types of scores that ORES generates are in the context of “edit quality” and “article quality.”

O ORES é um serviço de back-end, e não fornece uma maneira direta de usar as pontuações. Se você gostaria de usá-las, confira a nossa lista de ferramentas que usam pontuações do ORES. No caso do ORES ainda não estar disponível na sua wiki, veja as nossas instruções para solicitar suporte. If you'd like to use ORES scores, check our list of tools that use ORES scores. If ORES doesn't support your wiki yet, see our instructions for requesting support.

Tem dúvidas sobre o ORES? Confira as perguntas frequentes.

Qualidade da edição

Fluxo de qualidade de edições com o ORES. Diagrama descritivo de edições partindo da internet à Wikipédia retrata a qualidade “desconhecida” de edições antes do ORES e as qualidades “boa”, “precisa de revisão” e “prejudicial” possíveis após sua disponibilização.

Uma das questões mais críticas sobre os projetos abertos da Wikimedia é a revisão de contribuições (“edições”) potencialmente prejudiciais. Há também a necessidade de identificar contribuidores de boa-fé (os quais podem estar causando danos sem saberem) e oferecê-los ajuda. Estes modelos pretendem facilitar o trabalho no feed das mudanças recentes. Oferecemos dois níveis de ajuda pra os modelos de previsão: básico e avançado. There's also the need to identify good-faith contributors (who may be inadvertently causing damage) and offer them support. These models are intended to make the work of filtering through the Special:RecentChanges feed easier. We offer two levels of support for edit quality prediction models: basic and advanced.

Suporte básico

Assumindo que as edições mais prejudiciais serão revertidas e que as menos prejudiciais não serão revertidas, podemos usar o histórico de edições (e reversões) de uma wiki. Esse modelo é fácil de ser configurado, porém sofre do problema de várias edições serem revertidas por razões além de vandalismo. Para consertar isso, criamos um modelo baseado em palavras evitáveis. This model is easy to set up, but it suffers from the problem that many edits are reverted for reasons other than damage and vandalism. To help that, we create a model based on bad words.

  • reverted – prevê se uma edição será eventualmente revertida

Suporte avançado

Em vez de assumir, podemos pedir que os editores treinem o ORES sobre quais edições são, de fato, prejudiciais, e quais parecem ter sido feitas em boa-fé. Isso requer trabalho adicional da parte dos voluntários, mas resulta numa previsão mais precisa e matizada em assunto de qualidade. Várias ferramentas somente funcionarão se o suporte avançado estiver disponível para a wiki alvo. This requires additional work on the part of volunteers in the community, but it affords a more accurate and nuanced prediction with regards to the quality of an edit. Many tools will only function when advanced support is available for a target wiki.

  • damaging – prevê se uma edição causa danos
  • goodfaith – prevê se uma edição foi salva em boa-fé

Qualidade do artigo

Tabela de avaliação da Wikipédia inglesa. Captura de tela da tabela de avaliação (em 2014) da Wikipédia inglesa gerada pelo robô WP 1.0.

A qualidade dos artigos da Wikipedia é uma questão principal para os usuários. Novas páginas devem ser revisadas para garantir que spam, vandalismo e ataques não estejam presentes na wiki. Para artigos “sobreviventes” da primeira revisão, alguns wikipedistas avaliam periodicamente a qualidade dos artigos; porém, isso constitui um trabalho muito intenso, e na maioria das vezes as avaliações estão desatualizadas. New pages must be reviewed and curated to ensure that spam, vandalism, and attack articles do not remain in the wiki. For articles that survive the initial curation, some of the Wikipedians periodically evaluate the quality of articles, but this is highly labor intensive and the assessments are often out of date.

New article evaluation

Quanto mais rápido esboços problemáticos forem removidos, melhor. Revisar novas páginas pode ser um trabalho árduo. Assim como no problema de lutar contra vandalismo nas edições, as previsões por máquina podem ajudar revisores a enfocar nas páginas mais problemáticas primeiro. Com base em comentários de administradores sobre a remoção de páginas (veja a tabela de registro), podemos treinar um modelo para prever quais páginas precisarão de remoção rápida. Veja WP:ER para uma lista de motivos para eliminação rápida na Wikipédia lusófona. Já no modelo inglês, foram usados os critérios G3, G10 e G11 (vandalismo, ataque e spam, respectivamente). Curating new page creations can be a lot of work. Like the problem of counter-vandalism in edits, machine predictions can help curators focus on the most problematic new pages first. Based on comments left by admins when they delete pages (see the logging table), we can train a model to predict which pages will need quick deletion. See en:WP:CSD for a list of quick deletion reasons for English Wikipedia. For the English model, we used G3 "vandalism", G10 "attack", and G11 "spam".

  • draftquality – prevê se o artigo deverá sofrer eliminação rápida (spam, vandalismo, ataque…)

Existing article assessment

Para artigos “sobreviventes” da primeira revisão, algumas das maiores wikis avaliam periodicamente a qualidade dos artigos, usando uma escala que mais ou menos corresponde à escala de avaliação da Wikipédia 1.0 (qualidade do artigo). Ter ambas as avaliações será útil, pelo fato de elas nos ajudar a calibrar nosso progresso e identificar oportunidades perdidas (como artigos populares que estejam em baixa qualidade). No entanto, manter essas avaliações atualizadas é desafiador. É aí que o modelo de aprendizado de máquina da qualidade do artigo entra. Treinando um modelo para replicar as avaliações à qualidade dos artigos que humanos realizam, conseguimos avaliar automaticamente todos os artigos e todas as revisões com um computador. Having these assessments is very useful because it helps us gauge our progress and identify missed opportunities (e.g., popular articles that are low quality). However, keeping these assessments up to date is challenging, so coverage is inconsistent. This is where the articlequality machine learning model comes in handy. By training a model to replicate the article quality assessments that humans perform, we can automatically assess every article and every revision with a computer. This model has been used to help WikiProjects triage re-assessment work and to explore the editing dynamics that lead to article quality improvements.

O modelo qualidade do artigo baseia suas previsões em características estruturais do artigo, como o número de seções, as infocaixas, referências, se estas usam as predefinições {{Citar …}}… Esse modelo não avalia a qualidade da escrita ou se há ou não um problema com a tonalidade (ponto de vista). Entretanto, muitas das características estruturais dos artigos parecem correlacionarem-se fortemente com uma boa escrita e tonalidade, fazendo com que os modelos funcionem na prática. E.g. How many sections are there? Is there an infobox? How many references? And do the references use a {{cite}} template? The articlequality model doesn't evaluate the quality of the writing or whether or not there's a tone problem (e.g. a point of view being pushed). However, many of the structural characteristics of articles seem to correlate strongly with good writing and tone, so the models work very well in practice.

  • qualidade do artigo – prevê a classe de avaliação de um artigo ou esboço

Encaminhamento de tópicos

A travessia de um tópico. Apresenta uma vizualização do processo de rotulagem entre wikis. Os wiki-projetos da Wikipédia em inglês etiquetam os artigos por tópico de interesse. Os wiki-projetos são organizados em uma taxonomia de rótulos para os tópicos. Os rótulos dos tópicos são aplicados aos artigos de outras wikis através de ligações para os sites do Wikidata.

O modelo do ORES para o tópico de artigos aplica uma taxonomia de cima para baixo a qualquer artigo da Wikipédia -- até mesmo novos rascunhos de artigos. Este encaminhamento dos tópicos é útil para a curadoria de novos artigos, construção de lista de trabalhos, formação de novos wiki-projetos, e análise de falhas na cobertura dos assuntos.

Os modelos do ORES para tópicos são treinados por meio de imersões de palavras (word embedding) do conteúdo real. Para cada idioma, uma imersão específica para o idioma é aprendida e aplicada nativamente. Como esta estratégia depende do tópico do artigo, os tópicos previstos podem diferer entre idiomas, dependendo dos tópicos presentes no texto do artigo.

New article evaluation

Encaminhamento de novos artigos. Um diagrama mapeia o fluxo dos novos artigos na Wikipédia juntamente com os modelos 'draftquality' e 'articletopic' do ORES utilizados no encaminhamento.

A maior dificuldade ao revisar novos artigos é encontrar alguém familiar com o assunto para avaliar sua notoriedade, relevância, e precisão. Nosso modelo drafttopic visa encaminhar articos recém criados com base em seu tópico aparente para os revisores interessados. O modelo é treinado e testado com a "primeira revisão dos artigos" e assim é adequado ao uso com rascunhos de artigos novos.

  • drafttopic – prevê o tópico de um rascunho de artigo novo

Mapeamento de tópico de interesse

Exemplo de etiquetagem de artigo (Ann Bishop) Ann Bishop é etiquetado pelos wiki-projetos East Anglia, Women scientists, Women's history, e Biography da Wikipédia em inglês. É apresentada a tradução da taxonomia de tópicos e previsões. Note que as previsões incluem mais informações relevantes sobre os tópicos além das ligações de taxonomia.

O relacionamento entre tópicos de artigos é um conceito importante para a organização do trabalho na Wikipédia. Os grupos de trabalho por tópicos têm se tornado uma estratégia comum para gerenciar a produção de conteúdo e o patrulhamento na Wikipédia. Por vários motivos, ainda não está disponível uma hierarquia de alto nível ou que possa ser consultada. O resultado é que qualquer um que vise organizar um tópico ou fazer uma lista de trabalho tem que realizar uma quantidade significativa de trabalho para identificar os artigos relevantes. Com o nosso modelo articletopic, tais consultas podem ser feitas automaticamente.

Compatibilidade

A tabela de suporte ORES relata o estado de compatibilidade do ORES por wiki e modelo disponível. Caso não veja sua wiki listada ou compatibilidade para o modelo desejado, é possível solicitar suporte. If you don't see your wiki listed, or support for the model you'd like to use, you can request support.

Uso da API

O ORES oferece um serviço de API REST para recuperar informações de pontuação de revisões dinamicamente. Veja https://ores.wikimedia.org para mais informações sobre como usar a API.

Se estiver consultando pelo serviço um grande número de revisões, é aconselhável fazer batch de até 50 revisões dentro de cada solicitação, como descrito abaixo. É aceitável usar até 4 solicitações paralelas. Se você exceder esses limites, o ORES se tornará instável. Para números maiores de consultas, execute o ORES localmente.

Consulta de exemplo: http://ores.wmflabs.org/v3/scores/enwiki/?models=draftquality|wp10&revids=34854345|485104318

{
  "enwiki": {
    "models": {
      "draftquality": {
        "version": "0.0.1"
      },
      "wp10": {
        "version": "0.5.0"
      }
    },
    "scores": {
      "34854345": {
        "draftquality": {
          "score": {
            "prediction": "OK",
            "probability": {
              "OK": 0.7013632376824356,
              "attack": 0.0033607229172158775,
              "spam": 0.2176404529599271,
              "vandalism": 0.07763558644042126
            }
          }
        },
        "wp10": {
          "score": {
            "prediction": "FA",
            "probability": {
              "B": 0.22222314275400137,
              "C": 0.028102719464462304,
              "FA": 0.7214649122864883,
              "GA": 0.008833476344463836,
              "Start": 0.017699431000825352,
              "Stub": 0.0016763181497590444
            }
          }
        }
      },
      "485104318": {
        "draftquality": {
          "score": {
            "prediction": "OK",
            "probability": {
              "OK": 0.9870402772858909,
              "attack": 0.0006854267347843173,
              "spam": 0.010405615745053554,
              "vandalism": 0.0018686802342713132
            }
          }
        },
        "wp10": {
          "score": {
            "prediction": "Stub",
            "probability": {
              "B": 0.02035853144725939,
              "C": 0.021257471714087376,
              "FA": 0.0018133076388221472,
              "GA": 0.003447287158958823,
              "Start": 0.1470443252839051,
              "Stub": 0.8060790767569672
            }
          }
        }
      }
    }
  }
}
 

Resultado


Consulta de exemplo: https://ores.wikimedia.org/v3/scores/wikidatawiki/421063984/damaging

{
  "wikidatawiki": {
    "models": {
      "damaging": {
        "version": "0.3.0"
      }
    },
    "scores": {
      "421063984": {
        "damaging": {
          "score": {
            "prediction": false,
            "probability": {
              "false": 0.9947809563336424,
              "true": 0.005219043666357669
            }
          }
        }
      }
    }
  }
}
 

Resultado


Uso com EventStream

As pontuações do ORES também estão disponíveis em uma EventStream em https://stream.wikimedia.org/v2/stream/revision-score

Uso local

Para executar ORES localmente, pode instalar ORES com:

pip install ores # needs to be python3, incompatible with python2

Então deverá poder executá-lo com:

echo -e '{"rev_id": 456789}\n{"rev_id": 3242342}' | ores score_revisions https://ores.wikimedia.org enwiki damaging

Deverá ver como resultado

017-11-22 16:23:53,000 INFO:ores.utilities.score_revisions -- Reading input from <stdin>
2017-11-22 16:23:53,000 INFO:ores.utilities.score_revisions -- Writing output to from <stdout>
{"score": {"damaging": {"score": {"prediction": false, "probability": {"false": 0.9889349126544834, "true": 0.011065087345516589}}}}, "rev_id": 456789}
{"score": {"damaging": {"score": {"prediction": false, "probability": {"false": 0.9830812038318183, "true": 0.016918796168181708}}}}, "rev_id": 3242342}
 

Resultado


Notas

  1. Originalmente um acrônimo de Serviço Objetivo de Avaliação de Revisões, já depreciado.