CAPTCHA/it

I CAPTCHAs (abbreviazione di "'Completely Automated Public Turing test to tell Computers and Humans A''part") sono utilizzati sulle wiki di Wikimedia, tramite l'estensione, come mezzo per prevenire lo spam e scoraggiare gli spammer. Nella maggior parte delle wiki, un utente può trovarsi di fronte a un CAPTCHA quando cerca di creare un account, di creare una nuova pagina o di aggiungere un link esterno a una pagina.

Su pt.wiki, tra il 2008 e il 2013 il CAPTCHA è stato anche usato "temporaneamente" su ogni modifica di utenti non registrati e nuovi, in modo da ridurre il vandalismo (vedi discussione e 41745).

L'attuale implementazione del CAPTCHA presenta una serie di problemi.


 * Sono disponibili solo in inglese (5309): le parole utilizzate dai nostri CAPTCHA, comunque siano creati, dovrebbero essere nella lingua dell'utente. Un numero imprecisato di nuovi utenti e di modifiche viene perso da persone che non parlano inglese.
 * Violano i principi di accessibilità (4845).
 * Non impediscono efficacemente ai bot di fare spam.



Alternative che potrebbero essere implementate in futuro


Immagini CAPTCHA
Le immagini Captcha non richiedono l'inserimento di testo, il che è utile per i dispositivi mobili e per i problemi di internazionalizzazione. Alcune idee basate sulle immagini:


 * Trova quella differente (view prototype) Vengono mostrate diverse immagini della stessa categoria (per esempio, persone) mescolate con un'immagine di una categoria diversa (per esempio, gatti). Un umano dovrebbe essere in grado di riconoscere quella diversa. Si noti che in questo caso la domanda è sempre la stessa (trovare quella diversa) e le categorie utilizzate non sono esposte all'utente.
 * Trova tutte le immagini dello stesso tipo (view prototype). Immagini di due o più categorie sono mostrate insieme. All'utente viene chiesto esplicitamente di trovare tutte le immagini di un determinato tipo (ad esempio, tutte le immagini di persone che indossano occhiali).
 * Taggare le immagini (view prototype). All'utente vengono presentate immagini che contengono alcuni elementi etichettati e opzioni per scegliere l'etichetta corretta (ad esempio, è un uccello? è un aereo?).

La parte difficile è come creare immagini e verificare i dati in un modo che non sia sfruttabile dagli spambot. È necessario un insieme molto ampio di CAPTCHA (idealmente centinaia di migliaia), altrimenti un utente malintenzionato può semplicemente mappare il database dei CAPTCHA. Se si utilizza un archivio pubblico di immagini (come Commons) o una fonte pubblica di dati (come le categorie di Commons), è probabile che un utente malintenzionato possa associare il CAPTCHA alla fonte e scoprire la soluzione.



Sostituire il CAPTCHA con un honeypot
Una possibilità per evitare problemi di localizzazione con il CAPTCHA è semplicemente rimuoverlo e sostituirlo con un honeypot.



Un clone di reCAPTCHA sviluppato in casa
Scrivere una versione di reCAPTCHA che utilizzi immagini di documenti elaborati dall'estensione ProofreadPage di MediaWiki per Wikisource: WikiCAPTCHA. In altre parole, un CAPTCHA che fornisce dati a ProofreadPage per aumentare l'elaborazione OCR. Potreste basarvi su [//github.com/CristianCantoro/wikicaptcha codice esistente]. Vale la pena notare che "reCAPTCHA non detiene alcun brevetto specifico per la tecnologia che sta alla base dei suoi algoritmi CAPTCHA testuali (almeno nessuno di quelli di cui parla sul suo sito web o che si possono trovare sul sito dell'US Patents & Trademark Office", questo secondo un blogger ).

Discusso anche a Wikimania 2012 con la presentazione Wikicaptcha: una soluzione simile a ReCAPTCHA per Wikisource.

Il vantaggio di questo approccio è che possiamo trasformare la forza lavoro latente attualmente sprecata in CAPTCHA in profitto per un progetto Wikimedia (Wikisource) e che possiamo iniziare con un set di dati limitato. In effetti, lavorando nel modo di reCaptcha, potremmo creare una sorta di set di dati di bootstrap, quindi mostrare alle persone un mix di captchas con soluzioni note e sconosciute, e utilizzare quelle note per la verifica e quelle sconosciute per generare altri dati. Ma questo non è facile e dovrebbe essere oggetto di un'attenzione significativa nel progetto se si vuole un sistema CAPTCHA che sia di qualche utilità pratica alla fine.

Accessibilità
L'accessibilità del nostro attuale CAPTCHA è estremamente negativa. Se l'utente ha problemi di vista o utilizza uno screenreader, il CAPTCHA testuale è quasi del tutto inaccessibile. Alcuni dei nostri wiki più grandi risolvono questo problema attraverso un sistema di richiesta di account gestito da volontari. Alternative come i CAPTCHA immagine violano comunque i principi dell'accessibilità (4845), quindi si dovrebbe prendere in considerazione un'alternativa come un CAPTCHA audio.



Vedi anche

 * Admin tools development, il settore di Wikimedia Engineering responsabile di questo e altri strumenti
 * Bug 38640
 * Research:Account creation UX/CAPTCHA
 * You (probably) don't need ReCAPTCHA (2019)
 * TEDxCMU -- Luis von Ahn -- Duolingo: Il prossimo capitolo della computazione umana
 * Discussioni recenti
 * Captchas e persone che non parlano inglese, parte I e parte II.
 * Riparazione del CAPTCHA di Wikipedia (2011-11-03): "Ora che il CAPTCHA di Wikipedia è stato completamente smontato da Burzstein et. al. nel loro articolo "Text-based CAPTCHA Strengths and Weaknesses" [...] ho rielaborato lo script Python che genera le immagini CAPTCHA del 2005 nel motore CAPTCHA" - il codice è ancora in attesa di revisori.
 * Suggerimento: sostituire CAPTCHA con approcci migliori (luglio 2012)
 * Siti web importanti che non utilizzano il CAPTCHA
 * UK Parliament petitions website per https://www.gov.uk/service-manual/technology/using-captchas
 * Vecchie risorse
 * Asirra: A CAPTCHA that Exploits Interest-Aligned Manual Image Categorization, CCS’07, October 29–November 2, 2007, Alexandria, Virginia, USA. (Contains references to other userful papers on CAPTCHA.)
 * Philippe Golle. 2008. Machine learning attacks against the Asirra CAPTCHA In Proceedings of the 15th ACM conference on Computer and communications security (CCS '08). ACM, New York, NY, USA, 535-542. DOI=10.1145/1455770.1455838