Aplikace Wikimedie/Tým/Android/Popisy článků s automatickou asistencí/Aktualizace
Novinky
Další změny
- Pro všechny experimenty jsme využili stejný strojově učený jazykový model (bez dalšího retrénování). Změny jsme dělali pouze v interakci uživatelů s modelem.
- Na základě offline hodnocení (leden až duben 2023) jsme pro piloting (květen až červen 2023) zavedli několik změn ve způsobu, jakým uživatelé s modelem interagují. Jednalo se zejména o to, jaké výstupy mohli vidět (jen ty s vyšší důvěrou) a úpravu toho, kdo mohl návrhy vidět, pokud se jednalo o biografii žijící či nežijící osoby.
- Na základě pilotní fáze byla provedena jedna poslední úprava pro navrhované popisy, které obsahovaly rok – zobrazovali jsme ho jen v případě, kdy rok odpovídal období popisovaném článku, snažili jsme se tak zabránit halucinacím. Tato změna je nyní součásí nasazeného modelu LiftWing (viz odkaz výše), který nyní vidí uživatelé Androidu.
- V tuto chvíli neplánujeme žádné další změny, kromě snahy o redukci latence modelu, aby uživatelé Androidu viděli návrhy rychleji. Pokud se k nám dostane zpěná vazba zahrnující chyby které budeme moci opravit, pokusíme se o to.
srpna 2024
- Na základě výsledků experimentu z ledna jsme se začali ozývat různým wiki ohledně implementace funkce.
Červenec 2024: Zpřístupnění API přes Liftwing
Děkujeme za trpělivost při spolupráci na migraci modelu na Liftwing s týmem Machine Learning. V srpnu vyčistíme kód na straně klienta, odstraníme testovací podmínky a přidáme vylepšení uvedená v aktualizaci z ledna 2024. V následujících měsících oslovíme různé jazykové komunity, abychom jim tuto funkci v aplikaci zpřístupnili.
Pokud jste vývojář a chcete vytvořit udělátko pomocí rozhraní API, můžete si přečíst dokumentaci zde.
Leden 2024: Výsledky experimentu
Jazyky zahrnuté v hodnocení
- arabština
- čeština
- němčina
- angličtina
- španělština
- francouzština
- gudžarátština
- hindština
- italština
- japonština
- ruština
- turečtina
Další jazyky monitorované členy týmu, které neměly komunitní hodnotitele:
- finština
- kazaština
- korejština
- barmština
- nizozemština
- rumunština
- vietnamština
Byl rozdíl mezi strojově přijatými a lidmi vytvořenými průměrnými a mediánovými známkami:
| Ohodnocené úpravy | Průměrná známka | Střední hodnota |
| Úpravy přijaté strojem | 4.1 | 5 |
| Úpravy generované člověkem | 4.2 | 5 |
- Poznámka: 5 bylo maximální hodnocení
Jak si modul vedl v porovnání mezi jazyky?
| Jazyk | Strojově přijaté Průměrná známka úpravy |
Úpravy generované člověkem Průměrné hodnocení |
Průměrná třída stroje Vyšší stupeň? |
Doporučení, zda by měla být funkce povolena |
| ar* | 2.8 | 2.1 | TRUE | Ne |
| cs | 4.5 | N/A | Ano | |
| de | 3.9 | 4.1 | FALSE | Vyžadováno více než 50 úprav |
| en | 4.0 | 4.5 | FALSE | Vyžadováno více než 50 úprav |
| es | 4.5 | 4.1 | TRUE | Ano |
| fr | 4.0 | 4.1 | FALSE | Vyžadováno více než 50 úprav |
| gu* | 1.0 | N/A | Ne | |
| hi | 3.8 | N/A | Vyžadováno více než 50 úprav | |
| it | 4.2 | 4.4 | FALSE | Vyžadováno více než 50 úprav |
| ja | 4.0 | 4.5 | FALSE | Vyžadováno více než 50 úprav |
| ru | 4.7 | 4.3 | TRUE | Ano |
| tr | 3.8 | 3.4 | TRUE | Ano |
| Jiné jazykové komunity | N/A | N/A | N/A | Lze aktivovat na požádání |
- Poznámka: Funkci nezavedeme bez prvotní konzultace s komunitou.
* Označuje jazykové komunity, kde nebylo mnoho návrhů na hodnocení, které by podle nás měly dopad na skóre
Jak často byly strojově navržené editace přijaty, modifikovány nebo zamítnuty?
| Typ úpravy | % z celkového počtu úprav strojem |
| Návrh stroje přijat | 23.49% |
| Návrh stroje byl upraven | 14.49% |
| Návrh stroje odmítnut | 62.02% |
- Poznámka: Odmítnutí znamená, že naržená editace nebyla vybrána i přes její dostupnost. Navržené editace byly skryté v nabídce nadepsané "Strojově navržené editace". Uživatelé, co si nezobrazili navržené editace vůbec, nebyli započítani mezi ty, co editaci odmítli. Odmítnutí znamená, že uživatel namísto využití strojového návrhu popisek napsal sám.
Jaká byla distribuce strojově navržených krátkých popisků se skóre 3 nebo vyšší?
| Rozsah | Přidělená procenta |
| < 3 | 10.0% |
| >= 3 | 90.0% |
Jak se měnilo skóre přijatých strojově vytvořených popisů v závislosti na zkušenosti editora?
| Zkušenosti editora | Průměrná známka pro úpravy | Střední hodnota |
| Pod 50 úprav | 3.6 | 4 |
| Více než 50 úprav | 4.4 | 5 |
Výzkum proběhl pro lepší přesnost ve dvou verzích. Aby se předešlo ovlivnění, umístění navržené editace se vždy změnilo. Výsledky jsou:
| Vybraný nosník | Průměrná známka pro úpravy | Přidělená procenta |
| 1 | 4.2 | 64.7% |
| 2 | 4.0 | 35.3% |
- Poznámka: Při spuštění této funkce bude zobrazena pouze verze 1.
Jak často jsou strojově generované příspěvky editovány?
| Typ úpravy | Distribuce modifikací |
| Nezměněné úpravy přijaté strojem | 61.85% |
| Změněné úpravy přijaté strojem | 38.15% |
Jak editace návrhu upravilo jeho přesnost?
| Strojově ohodnocené úpravy | Průměrný výsledek |
| Nezměněné | 4.2 |
| Změněné | 4.1 |
- Poznámka: Vzhledem k tomu, že edtiace návrhu neměla vliv na jeho přesnost, není nutné aby je přispěvatelé editovali. Chceme ale i tak udržet rozhraní, které editaci návrhu umožňuje.
Jak často hodnotitel uvedl, že by editaci zeditoval nebo revertoval na základě toho, jestli byla strojově navržena, nebo vytvořena člověkem?
| Ohodnocené úpravy: | % úprav bylo vráceno zpět | % úprav bylo přepsáno |
| Redaktor návrh přijal | 2.3% | 25.0% |
| Redaktor viděl návrh, ale místo toho napsal vlastní popis | 5.7% | 38.4% |
| Lidská úprava bez možnosti návrhů | 15.0% | 25.8% |
- Poznámka: Vrácení jsme definovali tak, že kontrolujícímu by nedávalo smysl editaci upravovat. Přepsání jsme definovali jako situaci, kdy kontrolující vylepší zveřejněnou editaci. V průběhu experimentu bylo ve všech projektech vráceno pouze 20 strojových úprav, což nebylo statisticky významné, takže jsme nemohli porovnat skutečné vracení, ale vycházeli jsme z doporučení hodnotitelů. Pouze dvě jazykové komunity mají své krátké popisy článků živě na Wikipedii, což znamená, že kontrolování je u většiny jazykových komunit méně časté díky tomu, že popisy jsou umístěny na Wikidatech.
Co jsme zjistili pomocí funkce reportování?
Funkci nahlásilo 0,5 % unikátních uživatelů. Níže je uvedeno rozdělení typů zpětné vazby, kterou jsme obdrželi:
| Zpětná vazba/odpověď | % rozložení zpětné vazby |
| Nedostatek informací | 43% |
| Nevhodný návrh | 21% |
| Nesprávná data | 14% |
| Není vidět popis | 7% |
| "Zbytečný háček" | 7% |
| Chybný pravopis | 7% |
Má tato funkce vliv na retenci?
| Doba uchování | Skupina 0 (Bez léčby) |
Skupiny 1 a 2 |
| Průměrná míra návratnosti za 1 den: | 35.4% | 34.9% |
| Průměrná míra návratnosti za 3 dny: | 29.5% | 30.3% |
| Průměrná míra návratnosti za 7 dní: | 22.6% | 24.1% |
| Průměrná míra návratnosti za 14 dní: | 14.7% | 15.8% |
- Poznámka: Uživatelé, kteří byli vystaveni strojově asistovaným krátkým popisům článků, měli nepatrně vyšší míru návratnosti ve srovnání s uživateli, kteří této funkci vystaveni nebyli.
Další kroky:
Experiment byl spuštěn na cloudových službách, což není udržitelné řešení. Existuje dostatek pozitivních ukazatelů pro zpřístupnění této funkce komunitám, které si ji přejí. Tým aplikací bude ve spolupráci s naším oddělením strojového učení pracovat na migraci modelu do systému Liftwing, po migraci a dostatečném otestování jeho výkonnosti znovu oslovíme naše jazykové komunity, abychom určili, kde funkci povolit a jaká další vylepšení lze v modelu provést. Úpravy, které jsou v současné době v popředí zájmu, zahrnují:
- Omezit biografie žijících osob (BLP): Během experimentu jsme umožnili uživatelům s více než 50 úpravami přidávat popisy do biografií žijících osob s pomocí strojové asistence. Uznáváme, že existují obavy z trvalého navrhování krátkých popisů článků u těchto článků. Přestože jsme nezaznamenali důkazy o problémech týkajících se Biografií žijících osob, jsme rádi, že se návrhy na BLP nezobrazují.
- Používejte pouze paprsek 1: Paprsek 1 trvale překonával paprsek 2, pokud jde o návrhy. V důsledku toho budeme zobrazovat pouze jedno doporučení, a to ze svazku 1.
- Úprava vstupních a orientačních pokynů: Během experimentu jsme měli obrazovku onboardingu o strojových návrzích. Při opětovném spuštění funkce bychom přidali zpět pokyny týkající se strojových návrhů. Bylo by užitečné vyslechnout si zpětnou vazbu od komunity ohledně toho, jaké pokyny by chtěli, abychom uživatelům poskytli ohledně psaní efektivních krátkých popisů článků, abychom mohli zlepšit onboarding.
Pokud se vyskytnou jiné zjevné chyby, zanechte prosím zprávu na naší diskusní stránce projektu, abychom se jimi mohli zabývat. Příkladem zjevné chyby je zobrazování nesprávných dat. Této chyby jsme si všimli během testování aplikace a přidali jsme filtr, který zabraňuje popisům doporučení, které obsahují data, jež nejsou sama uvedena v textu článku. Také jsme si všimli, že disambiguační stránky byly doporučovány podle původního modelu, a odfiltrovali jsme disambiguační stránky na straně klienta, což je změna, kterou plánujeme zachovat. Další věci, jako je psaní velkých písmen na začátku, by také byly obecnou opravou, kterou bychom mohli provést, protože existuje jasná heuristika, kterou bychom mohli použít k její implementaci.
U jazyků, kde model nefunguje dostatečně dobře, aby mohl být nasazen, je nejužitečnější přidat více krátkých popisů článků v daném jazyce, aby měl model při přeškolování k dispozici více dat. V tuto chvíli však není stanoveno datum ani frekvence, kdy bude model přeškolován, ale můžeme spolupracovat s týmem pro výzkum a strojové učení, aby to mělo prioritu, jakmile o to komunity požádají.
Červenec 2023: První poznatky z 32denní analýzy dat: Známkování a vzorce úprav
Analýzu dat nemůžeme dokončit, dokud nebudou všechny příspěvky oznámkovány, abychom měli přesné skóre známkování. Máme však první poznatky, o které se můžeme podělit. Tyto poznatky vycházejí z 32 dnů dat:
- 3968 článků se strojovými úpravami bylo vystaveno 375 editorům.
- Poznámka: Vystavené neznamená vybrané.
- 2125 strojových úprav bylo zveřejněno 256 editory
- Editoři s více než 50 editacemi provedli třikrát více editací na jeden unikát ve srovnání s editory s méně než 50 editacemi.
Květen 2023: Experiment deaktivován a dobrovolníci vyhodnocují krátké popisy článků
Experiment byl oficiálně deaktivován a nyní se nacházíme v období, kdy jsou úpravy hodnoceny.
Dobrovolníci v několika jazykových Wiki začali hodnotit krátké popisy článků vytvořené lidmi i strojově.
Všem dobrovolníkům vyjadřujeme upřímnou vděčnost a uznání a na stránku projektu jsme přidali oddělenou sekci na počest jejich úsilí. Děkujeme vám za vaši podporu!
Stále vítáme podporu následujících jazykových wikipedií pro třídění: V současné době jsou k dispozici Wikipedie v angličtině, arabštině, francouzštině, italštině, němčině, japonštině, ruštině, španělštině a turečtině.
Pokud máte zájem se k nám připojit v rámci tohoto úžasného projektu, obraťte se na Amal Ramadan. Těšíme se na spolupráci s nadšenými jedinci, jako jste vy!
Duben 2023: Často kladené dotazy a vzorová stránka
Tento měsíc jsme zveřejnili náš experiment v 25 jazycích mBART, který bude probíhat do poloviny května. Před vydáním jsme přidali kartu modelu do naší FAQ stránky, abychom poskytli přehled o tom, jak model funguje.
-
Navrhované úpravy domovské stránky
-
Modul navrhovaných úprav
-
Navrhované úpravy při zaškolování
-
Aktivní textové pole
-
Dialogové okno
-
Co se stane po klepnutí na návrhy
-
Ruční přidávání textu
-
Náhled
-
Klepnutím na příznak hlášení
-
Potvrzení
-
Text podpory pro genderové předsudky
Toto je proces zaškolení:
-
Popisy článků Nástupní proces
-
Zkrátka
-
Návrhy strojů
-
Popisek
Leden 2023: Aktualizované návrhy
Poté, co tým Android zjistil, že návrhy by mohly být vloženy do stávajícího úkolu krátkých popisů článků, provedl aktualizace našeho návrhu.
-
Popisek pro onboarding funkce
-
Jakmile je tooltip zavřen, klávesnice se stane aktivní.
-
Dialogové okno s návrhy se zobrazí, když uživatelé klepnou na "Zobrazit navrhované popisy".
-
Klepnutím na návrh se vyplní textové pole a tlačítko publikovat se stane aktivním.
Pokud uživatel nahlásí návrh, zobrazí se mu stejný dialog, jaký jsme navrhli v naší aktualizaci ze srpna 2022, jako když někdo klikne na tlačítko Nejsem si jistý.
Tento nový design znamená, že uživatelům umožníme publikovat jejich úpravy, stejně jako by to mohli dělat bez strojově generovaných návrhů. Náš tým však bude úpravy provedené v rámci tohoto experimentu kontrolovat, aby dobrovolné hlídače nepřetížil. Noví uživatelé navíc nebudou dostávat návrhy na Biografie žijících osob.
Listopad 2022: Vývoj API
Výzkumný tým nainstaloval model v nástroji Toolforge a otestoval výkon API. Počáteční poznatky ukázaly, že generování návrhů trvalo 5–10 sekund, což se také lišilo v závislosti na počtu zobrazovaných návrhů. Výkon se zlepšil s klesajícím počtem generovaných návrhů. Tento problém se řešil předběžným načtením některých návrhů, omezením počtu zobrazovaných návrhů při integraci do krátkých popisů článků a úpravou uživatelských toků tak, aby bylo možné návrhy generovat na pozadí.
Srpen 2022: Počáteční koncepty designu a zábrany pro zkreslení
Uživatelský příběh pro Discovery
Když používám aplikaci Wikipedie pro Android, jsem přihlášen/a a objevím popisek k nové funkci úprav, chci se o daném úkolu dozvědět více, abych mohl/a zvážit její vyzkoušení. Otevřená otázka: Kdy by se měl tento popisek zobrazovat ve vztahu k ostatním popiskům?
Uživatelský příběh pro vzdělávání
Když chci vyzkoušet funkci krátkých popisů článků, chci být o daném úkolu informován, aby moje očekávání byla správně nastavena.
Uživatelský příběh pro přidávání popisů
Když používám funkci krátkých popisů článků, chci vidět články bez popisu, chci mít zobrazeny dva vhodné popisy a možnost přidat vlastní popis, abych mohl vybrat nebo přidat popis pro více článků za sebou.
-
Koncept pro výběr navrhovaného popisu článku
-
Koncept návrhu pro uživatele, který se rozhodne, že popis by měl být alternativou k tomu, co je uvedeno
-
Koncept návrhu pro uživatele, který upravuje návrh před kliknutím na tlačítko Publikovat
-
Koncept návrhu pro to, co uživatelé vidí při stisknutí jiných
-
Obrazovka zobrazující možnosti pro případ, že si uživatel není jistý, jaký by měl být správný popis článku
Zábrany proti zaujatosti a újmě
Tým vytvořil možné zábrany proti předpojatosti a újmě:
- Poškození: Problematická textová doporučení
- Obrana: Seznam blokovaných slov, která se nikdy nepoužívají
- Obrana: Kontrola stereotypů – např. genderově podmíněný jazyk + povolání
- Poškození: Nízká kvalita doporučení
- Obrana: Minimální množství informací v článku
- Obrana: Ověření výkonu podle mezer ve znalostech
- Poškození: Doporučení pouze pro některé typy článků
- Obrana: Sledování distribuce úprav podle tématu