Strukturerad data på Wikimedia

From mediawiki.org
This page is a translated version of the page Structured Data Across Wikimedia and the translation is 100% complete.

SDAW[1] var ett projekt för att hjälpa oss strukturera innehåll på wikitextsidor på ett sätt så att maskiner kan läsa och relatera det, göra det lättare att läsa, redigera och söka samt göra det mer tillgängligt på olika projekt och på internet.

Projektet skulle hjälpa användare associera innehåll mellan Wikimedias projekt, hjälpa läsare dyka djupare ner i Wikimedias ekosystem av kunskap och hjälpa bidragsgivare förmedla information på projekten och utanför dem på ett Wikidata-liknande sätt. Projektet skulle också erbjuda en plats att experimentera på med datorstödda redigeringsverktyg för att underlätta och tillgängliggöra redigering för flera redigerare runt om i världen.

Projektet pågick mellan 1 februari 2021 och 30 juni 2023.

Bakgrund

Projektet var en uppföljning på liknande utveckling som slutfördes på Commons som en del av tidigare SDC [2] och var delvis finansieras av ett treårsbidrag från Sloan Foundation. Arbetet med SDC gjorde oss medvetna om behovet av mer avancerad metadata för allt innehåll och alla API:er för att erbjuda bättre sökresultat, vilket i sin tur skulle göra innehåll mer tillgängligt, sökbart, översättbart och användbart för andra behov.

Projektet hade tre högt satta mål:

  1. Att möjliggöra för maskiner att känna igen innehåll på Wikimedia och att föreslå förhållanden med annat innehåll på Wikimedia. Vi utforskade detta först via bildförslagsprojektet.
  2. Att utforska ett sätt att strukturera artiklar och sidor för att aktivera nya innehållsformat – som innehåll i mindre bitar som läsare lättare kan använda och dela.
  3. Att ge Wikimedia-användare ett mer inbjudande och effektivare sätt att söka efter och hitta innehåll, bygga vidare på MediaSearch och utforska nya sätt att förbättra sökningar på Wikipedia med strukturerad data.

Vad kommer ändras

Projektets målsättning är att utforma och bygga en prototyp över ett nytt system som ska vara flexibelt nog att fungera med alla möjliga sorters metadata vi kan behöva stöd för i framtiden.

Vi har identifierat tre huvudprojekt som vi vill utveckla, som en del av vårt arbete:

  1. Bildförslag, en funktion där erfarna användare kan hjälpa till att illustrera artiklar på Wikipedia;
  2. Metadata för avsnitt, även känt som Avsnittsämnen, för att beskriva vad ett avsnitt i en Wikipediaartikel handlar om;
  3. Sökningsförbättringar, som kommer använda strukturerat innehåll för att ge användare en mer inbjudande och effektivare sätt att söka efter och hitta innehåll på Wikipedia.

Bildförslag

Se även: Bildförslag

Bildförslagsgränssnittet har som mål att utveckla system för strukturerad data på Wikimedias projekt.

Detta arbete kommer bygga vidare på arbetet som redan inletts som en del av strukturerade uppgifter-projektet "Lägga till en bild". Det kommer däremot att byta fokus till att förbättra processen för erfarna bidragsgivare. Vi kommer särskilt att rikta in oss på användare som har redigerat eller bevakat en viss artikel eller uppsättning artiklar, då det är mer sannolikt att de är experter i ämnet och har intresse av att se till att artikeln förbättras.

Ämnesavsnitt

Projektet Ämnesavsnitt kommer identifiera avsnitt i en artikel och skapa ämnen enligt dessa avsnitt, baserat på flera element:

  • en algoritm som upptäcker Wikidata objekt baserade på avsnittets blålänkar (vilka kommer utvecklas i samarbete med arbetslagen för strukturerad data, efterforskning och dataplattformarna);
  • förmågan att automatiskt identifiera avsnitt i en artikel (vilket kommer utvecklas i samarbete med arbetslagen för strukturerad data och dataplattformarna).

En av de första användningsområdena vi föreställde oss för avsnittsämnen kommer vara bildförslag på avsnittsnivåer, vilket kommer använda blålänksalgoritmen och strukturen för avsnittsidentifiering ovan och levereras både via nybörjarerfarenheter och via aviseringar för erfarna bidragsgivare. Detta kommer bygga vidare på arbetet med bildförslag och kommer utvecklas i samarbete med teamen strukturerad data, dataplattform, forskning, sökning, Android och Growth.

Dessa element kommer inte ändra eller påverka den nuvarande redigeringsupplevelsen. Alla dessa aktiviteter kommer vara automatiska och inte begära någonting från användaren som redigerar en artikel. Projektet befinner sig fortfarande i undersökningsstadiet och det finns fortfarande aspekter som kan kräva ytterligare undersökningar och/eller återkoppling från användarna.

Sökningsförbättringar

Projektet Sökningsförbättringar kommer använda strukturerat innehåll för att ge användare ett mer inbjudande och effektivare sätt att söka efter och hitta innehåll på Wikipedia. Genom att förbättra Special:Search vill vi ge användare möjligheten att hitta informationen de letar, efter eller det de kanske inte hade tänkt på, eller tidigare hittat i en tidigare sökning.

Vi har som målsättning att identifiera och definiera stigande förbättringar av "specialsökningar" som använder sig av strukturerat innehåll för att hjälpa användare hitta innehållet de letar efter, särskilt på språkversioner med få artiklar.

Vad vill vi inte göra?

  1. Utelämna användare från processen
  2. Överväldiga användare med för mycket innehåll att moderera
  3. Lägga till ytterligare partiskhet på Wikimedias projekt
  4. Öppna upp för fler sätt att vandalisera
  5. Göra våra system alltför invecklade

Statusuppdateringar

  • Den sista rapporten från DPLA-projektet[3] som finansierade SDAW[1] för att driva återanvändningen av beskrivna och attribuerade bilder publicerades.

  • Undersökning om aviseringar om bildförslag körs på portugisiska, ryska och indonesiska Wikipedia.

  • Bildförslags testningsfas inledes på katalanska, ungerska och norska (bokmål) Wikipedia.

  • Första omgången bildförslagstestning på portugisiska, ryska och indonesiska Wikipedia har framgångsrikt avslutats.
  • Projektsidor uppdateras för att spegla initiativets nya status.

  • Projektsidor uppdateras för att spegla hur långt den ursprungliga och de tre huvudprojekten som kommer utvecklas har kommit.
  • Indonesiska Wikipedia ansluter som den tredje testgemenskapen.

  • Etablera kontakt mellan den portugisiska och ryska Wikipediagemenskapen som två första testgrupper för bildförslag.

  • Projektet rör sig mot ett första teststeg, det vill säga att experimentera med hur aviseringar används för att meddela användare om potentiella användbara bilder i Wikipediaartiklar.

Maj-augusti 2021

  • Letar efter återkoppling för dessa idéer.
  • Arbetar med grova ramar och utkast för att göra det lättare att utforska idéerna.
  • Utforskar infrastrukturen för att stötta arbetet via forumet för tekniska beslut. Läs ärende T274181.

Andra halvan av 2020

Återkoppling

Projektåterkoppling välkomnas och kommer alltid välkomnas. Vi är särskilt intresserade av era idéer om i vilken utsträckningen ni vill behålla "människan i processen" igenom den relevanta processen för att skapa metadata. Vi ser fram emot att veta vad ni tycker om följande öppna frågor:

  1. Dina förväntningar av projektet
    1. Vad förväntar sig andra användare av projektet? Vilka nödvändiga åtgärder behöver vidtas?
    2. Hur förställer du dig att metadatan kan användas? Kan det kanske hjälpa dig i ditt arbete?
  2. Metadatamoderering
    1. Behövs det moderering för att undvika vandalisering och/eller partiskhet?
    2. Om moderering skulle behövas, hur ska det hanteras på bästa sätt?
  3. Lägga till och bekräfta metadata
    1. Vill användare kunna godkänna eller rata metadata som föreslagits av det automatiserade systemet?
    2. Vill användare kunna lägga till ytterligare metadata utöver det som föreslagits av det automatiserade systemet?
    3. Tror du det kanske räcker om användare har möjligheten att när det behövs skicka återkoppling med förslag på hur man förbättrar den maskingenererade metadatan?
  4. Privilegier för visualisering och redigering
    1. Vill vi att metadata ska vara synlig för alla användare eller bara för vissa användarklasser?
    2. Vill vi att metadata ska vara redigerbar för alla användare eller bara för vissa användarklasser?

Mer specifikt återkoppling för relaterade projekt kan oftast lämnas på projektets diskussionssidor:

Finansiering

Delvis finansiering för detta arbete tillhandahålls av ett begränsat bidrag med uppföljning från Alfred P. Sloan Foundation, för att fortsätta arbetet som utförts i den första omgången finansiering för att utveckla SDC[2].

Referenser

  1. 1.0 1.1 1.2 SDAW — Structured Data Across Wikimedia
  2. 2.0 2.1 SDC — Structured Data on Commons
  3. 3.0 3.1 DPLA — Digital Public Library of America