Jump to content

Content translation/Product Definition/analytics/nl

From mediawiki.org
This page is a translated version of the page Content translation/Product Definition/analytics and the translation is 100% complete.

ContentTranslation is een extensie ontwikkeld door de Wikimedia Foundation om meertalige Wikipedia-editors te helpen bij het maken van pagina's. Om de impact van Content Translation te begrijpen, worden enkele metingen gedefinieerd.

Deze metingen kunnen worden verzameld met behulp van EventLogging en andere methoden: het analyseren van Wikipedia-dumps, directe vragen naar backend-opslaggegevens, enz.

Het idee van dit document is om een algemeen idee te hebben van wat we moeten meten, zodat we voor elk functie mogelijkheid een passend EventLogging schema kunnen plannen, passende loggingfuncties kunnen schrijven en passende vragen kunnen stellen.

Kernmetingen gedefinieerd voor Content Translation

Huidige metingen

Limn dashboard

Limn dashboards geven een overzicht van 90 dagen van sommige gebeurtenissen.

Special:ContentTranslationStats

Elke wiki waar CX wordt ingezet heeft een pagina Special:ContentTranslationStats, die statistieken toont voor die wiki en ook algemene statistieken voor alle talen.

Voorbeeld met de Portugese Wikipedia.

  • Gepubliceerde vertalingen — Dit zijn vertalingen die als volwaardige artikelen in de hoofd namespace zijn gepubliceerd. De groei van het aantal gepubliceerde artikelen in de loop van de tijd wordt ook als grafiek weergegeven.
  • Vertalingen in uitvoering — vertalingen die zijn gestart en worden opgeslagen als vertalingen in uitvoering.
  • Aantal vertalers — dit is het aantal gebruikers dat ten minste een vertaling heeft gepubliceerd. Er kunnen vertalers zijn die naar meerdere talen vertalen. De som in de tabel telt ze nu voor elke taal met hun vertalingen apart.

Andere tellingen die moeten worden toegevoegd of gecorrigeerd, komen uit Phabricator:

Ook:

  • Evolutie in de tijd voor het bovenstaande.

Meer queries en ruwe data

U kunt meer gedefinieerde query's en de resulterende gegevens in realtime controleren voor verschillende informatie, waaronder verwijderde pagina's en pagina's die per dag zijn gemaakt. Er zijn hiervoor geen visuele representaties, maar als u geïnteresseerd bent in de basisgegevens, er zijn genoeg getallen beschikbaar.

Rapporten op basis van query's:

Hoge prioriteiten voor productmanagement

  • Hoe vaak doel- en brontalen worden gebruikt. Dit is niet meteen uitvoerbaar, omdat de functie niet vanaf het begin naar alle talen zal worden uitgerold, maar het zal erg nuttig zijn voor ons om een idee te krijgen van wat de belangrijkste taalcombinaties zijn. Door dit per taal te analyseren, kunnen ook de talen worden geïdentificeerd die hun aantal artikelen dankzij het hulpmiddelen hebben uitgebreid.
    1. Technisch: Voor het hele cluster, welke bron- en doeltalen het vaakst worden gebruikt, per maand.
  • Hoeveel gebruikers ten minste één conceptvertaling hebben opgeslagen. Neem deze als een cohort en:
    1. Beschrijf hun CX-activiteit: aantal concepten dat via CX is gemaakt.
    2. Hoe vaak wordt het concept bewerkt door de gebruikers voordat het naar de hoofd namespace wordt verplaatst, en wie het bewerkt - de vertaler of andere gebruikers.
    3. Beschrijf de algemene bewerkingsactiviteit van de makers van het concept binnen dezelfde periode.
    4. Beschrijf het projectoverschrijdende gedrag van de makers van het concept.
  • Hoeveel conceptvertalingen er in elke taal worden gemaakt.
  • Hoeveel pagina's uiteindelijk als echte artikelen naar de hoofd namespace worden verplaatst.
    1. Welke bewerkingsactiviteit er is gedaan voordat het artikel naar de hoofd namespace werd verplaatst.
  • Hoeveel mensen op de rode link klikken.
    1. Van de mensen die op de link klikken, hoeveel mensen de uitnodiging accepteren en vervolgens gingen vertalen.

Andere statistieken over aangemaakte artikelen

Het belangrijkste doel van Content Translation is om de inhoud die in alle talen beschikbaar is, te vergroten. Nieuwe artikelen die met het hulpmiddel zijn gemaakt, zijn het belangrijkste element om te bekijken.

Hoeveelheid inhoud

  • Aantal artikelen die zijn gemaakt. Artikelen aangemaakt per week, per gebruiker, per taal.
  • Lengte van de artikelen. Dit geeft een idee van het soort artikelen dat wordt geproduceerd. Het kan nuttig zijn om de lengte van het originele artikel te vergelijken (bijvoorbeeld: "gebruikers vertalen gemiddeld slechts 30% van het originale artikel").
  • Links in/naar artikelen. Als een artikel links naar andere artikelen bevat, kan dat duiden op een completer artikel. Als een nieuw artikel gelinkt word, kan dat een teken zijn dat het als een bruikbaar artikel wordt beschouwd.
  • Tijd besteed aan het maken van een vertaling (per alinea). Hoe snel kunnen vertalers inhoud produceren?

Impact en kwaliteit

  • Aantal lezers van het oorspronkelijke artikel. Verlaagt de beschikbaarheid van een artikel in andere talen het aantal lezers van het oorspronkelijke?
  • Aantal lezers van de nieuwe artikelen. Aantal mensen dat naar het nieuwe artikel gaat.
  • Hoeveelheid machinevertaling.
  • Vertalingen tegen reguliere bewerkingen per gebruiker. Hoeveel gebruikers dragen alleen als vertaler bij? Zijn het productieve redacteurs die vertalingen doen of zijn het gebruikers die minder regelmatig bewerken?
  • Aantal vertalers (gebruikers die een vertaling hebben gemaakt).
  • Aantal artikelen dat een bestaand artikel vertaalt (mogelijk proberen een nieuwe alinea toe te voegen aan een bestaande vertaling).

Evolutie in de tijd

Verwijderingspercentage. Hoeveel artikelen die door het hulpmiddel zijn geproduceerd worden verwijderd door de gemeenschap. Het is nuttig de verwijderde artikelen te koppelen aan andere metingen (artikellengte, hoeveelheid automatische vertaling, bewerkingsvaardigheden van de gebruiker).

Algemene technische principes

  • Leg niet alles vast. Leg alleen vast wat nuttig is voor productmetingen.
  • Probeer meerdere schema's te maken, één per functie of zo. Dit zou gemakkelijker zijn om query's uit te voeren en het kan ook helpen om wijzigingen te voorkomen die de continuïteit zouden verstoren (elke keer dat we een schemaversie wijzigen, wordt er een nieuwe tabel gemaakt).
  • Logboekregistratie aan de serverzijde weerspiegelt niet direct gebruikersacties, omdat we veel aan caching en pre-fetching zullen doen.
  • We zijn geïnteresseerd in het verplaatsen van alinea's en segmenten, omdat het gevolgen heeft voor de caching.
  • Als we VisualEditor gebruiken, kunnen wijzigingen in het Document Model (in de browser) gemakkelijk worden geregistreerd (ze zijn al opgeslagen voor het ongedaan maken van de functie). Dit omvat in het algemeen gebruikersselectie-evenementen. Het VE DataModel (DM) bevat een weergave van de cursorselectie.

Tagging

Ter ondersteuning van het meten van de bovenstaande statistieken, worden de artikelen die door Content Translation zijn gemaakt, getagd. Met de tags kan (direct of indirect) de volgende contextinformatie worden geïdentificeerd:

  • Het artikel is gemaakt door Content Translation.
  • De taal van de vertaling.
  • Het bronartikel dat vertaald is.

Andere zaken om te meten - lagere prioriteit

Vertaal centrum

  • Dashboardgebruik: Terugkomen naar complete artikelen, artikelen half gereed achterlaten, enz.

Gebruikersinterface bij het vertalen

  • Knoppen en links in de weergave vertalen
    • Vertaling wissen.
    • Brontest invoegen.
    • "artikel bekijken". (triviaal, wie weet gebruikt niemand het)
  • Welke soorten interactieve segmenten worden gebruikt (suggesties, links, gewone segmenten, sjablonen, enz.) door de gebruikers.
  • Tijd op de pagina gebleven: seconden per paragraaf, woord, artikel.
    • Dit kan later worden gebruikt om mensen iets te zeggen als: "Het zal 20 minuten duren om dit artikel te vertalen".
  • Het is gemakkelijk om klikken te volgen, maar we willen misschien ook iets ingewikkelder, zoals het loggen van het selecteren en verwijderen van alles.

Misbruik machinevertaling

  • Is het gedrag van de gebruiker veranderd nadat die gewaarschuwd is over het overnemen van te veel machinevertaling?
  • Hoeveel gebruikers krijgen de waarschuwing over te veel overnemen van machinevertaling?
  • Hoeveel procent van de machinevertaling bevatte het artikel toen de waarschuwing werd getoond? Hoeveel procent machinevertaling bevatte het artikel toen het later werd gepubliceerd?

  • Hoe vaak wordt elke bron automatisch gekozen voor het vermoedelijke doel van de link:
    • Wikidata sitelinks
    • Wikidata labels
    • Wikidata aliasen
    • handmatige interlanguage links
    • machinevertaling
    • Woordenboek
  • Hoe vaak kiezen mensen handmatig een andere bron?
  • Hoe beïnvloedt de (niet-)beschikbaarheid van bepaalde bronnen deze keuze?
  • Hoe vaak verwijderen mensen deze (zoals bij het meten van veranderingen in de inhoud hierboven)

Woordenboeken

  • Hoe vaak wordt elk woordenboek voor elke taal gebruikt

Entry points

  • Hoe vaak wordt elk entry point gebruikt?
  • Hoe vaak beginnen mensen artikelen van het begin in plaats van een artikel te vertalen met CX?

Overige