Wikimedia Apps/Team/Android/Machine Assisted Article Descriptions/Updates/it
Updates
Further changes
- We've used the same underlying machine-learning model for all of these experiments (so no re-training etc. of the actual model). What we've been adjusting throughout is how the user interacts with it.
- Our initial offline evaluation was of this model (Jan-April '23) lead us to put in place a few modifications to how users interacted with the model for the May-June 2023 piloting -- notably which outputs they could see (only higher confidence ones) and adjusting who could see the recommendations based on whether the article was a biography of a living person or not.
- The feedback from that pilot lead to us putting in place one final adjustment having to do with when a recommended article description included a year in it (only show it if there's support for that year in the article text because this was one source of hallucinations by the model). That's now part of the officially deployed model on LiftWing (the link I shared above) that Android users would see.
- At this point we aren't planning on any model updates beyond trying to reduce the latency of the model so Android users can see the recommendations more quickly. If we got feedback about errors that we thought we could address though, we'd try to make those fixes
agosto 2024
- We are beginning to reach out to some Wikis to implement the feature, based on the results from the experiment that was updated and published last January.
July 2024: API available through LiftWing
We appreciate everyone's patience as we've worked with the Machine Learning team to migrate the model to LiftWing. In August we will clean up the client side code to remove test conditions and add in improvements mentioned in the January 2024 update. In the following months we will reach out to different language communities to make the feature available to them in the app.
If you are a developer and would like to build a gadget using the API, you can read the documentation here.
Gennaio 2024: Risultati dell'esperimento
Lingue incluse nella valutazione:
- arabo
- ceco
- tedesco
- inglese
- spagnolo
- francese
- gujarati
- hindi
- italiano
- giapponese
- russo
- turco
Altre lingue monitorate dallo staff che non hanno avuto valutatori comunitari:
- finlandese
- kazako
- coreano
- birmano
- olandese
- rumeno
- vietnamita
C'è una differenza tra media e mediana della valutazione degli edit Machine Accepted e quelli generati da umani (Human Generated)?:
| Edit valutati | Valutazione media | Mediana |
| Machine Accepted Edits | 4.1 | 5 |
| Human Generated Edits | 4.2 | 5 |
| Graded Edits | Avg Grade | Median Grade |
| Machine Accepted Edits | 4.1 | 5 |
| Human Generated Edits | 4.2 | 5 |
- Nota: 5 è stato il punteggio più alto possibile
Come ha funzionato il modello nelle diverse lingue?
| Lingua | Machine Accepted
* Indica le comunità linguistiche in cui non ci sono stati molti suggerimenti da valutare che riteniamo abbiano avuto un impatto sul punteggio
Quante volte sono stati accettati, modificati o rifiutati i testi generati dal sistema ?
Qual è stata la distribuzione delle descrizioni brevi Machine Accepted con una valutazione di 3 o più?
Come cambia il punteggio delle descrizioni brevi Machine Accepted quando si considera anche l'esperienza degli utenti?
Il nostro esperimento ha testato due modalità per vedere quale fosse più precisa e performante. Per evitare distorsioni, il posizionamento del suggerimento all'utente cambiava di volta in volta posizione. I risultati sono:
Con quale frequenza le persone apportano modifiche al suggerimento della macchina prima di pubblicarlo?
In che modo gli utenti che modificano il suggerimento della macchina influiscono sull'accuratezza?
Nota: poiché non c'è un impatto sull'accuratezza se un utente modifica o meno il suggerimento, non vediamo la necessità di richiedere agli utenti di apportare una modifica alla raccomandazione, ma dovremmo comunque mantenere un'interfaccia utente che incoraggi le modifiche al suggerimento della macchina.
Quante volte un valutatore ha detto che avrebbe cambiato o riscritto una modifica in base al fatto che fosse suggerita dalla macchina o generata dall'uomo?
Nota: abbiamo definito "annulla" quando la modifica è così imprecisa che non vale la pena di provare a fare una piccola modifica per migliorarla come patroller. Il termine modifica è stato definito quando un patroller si limita a modificare ciò che è stato pubblicato dall'utente per migliorarlo. Nel corso dell'esperimento sono state annullate solo 20 modifiche automatiche in tutti i progetti, un dato non statisticamente significativo, quindi non abbiamo potuto confrontare gli annullamenti effettivi, ma ci siamo basati sulle raccomandazioni dei valutatori. Solo due comunità linguistiche hanno le loro descrizioni brevi degli articoli su Wikipedia, il che significa che il patrolling è meno frequente per la maggior parte delle comunità linguistiche, dato che le descrizioni sono ospitate su Wikidata.
Quali informazioni abbiamo ottenuto grazie alla funzione di reportistica della funzione?Lo 0,5% degli utenti ha segnalato la funzione. Di seguito è riportata una distribuzione del tipo di feedback ricevuto:
0.5% of unique users reported the feature. Below is a distribution of the type of feedback we received:
La funzione ha un impatto sulla retention?
|