CAPTCHA
CAPTCHA (ang. skrót od „Completely Automated Public Turing test to tell Computers and Humans Apart”) są stosowane na wikiach Wikimedii, za pomocą rozszerzenia ConfirmEdit, jako środek mający na celu pozorne zapobieganie spamowi i zniechęcanie spamerów. Na większości wiki użytkownik może natrafić na CAPTCHA podczas próby założenia konta, utworzenia nowej strony lub dodania linku zewnętrznego do strony.
Na pt.wiki, w latach 2008-2013 CAPTCHA była również „tymczasowo” wyświetlana przy każdej edycji dokonanej przez niezarejestrowanych i nowych użytkowników, rzekomo w celu ograniczenia wandalizmu (zobacz dyskusję oraz bugzilla:41745).
Obecna implementacja CAPTCHA ma szereg problemów.
- Są dostępne tylko w języku angielskim (bugzilla:5309): słowa używane przez nasze CAPTCHA, niezależnie od sposobu ich tworzenia, powinny być w języku użytkownika. Nieznana liczba nowych użytkowników i edycji jest tracona w przypadku osób nieposługujących się językiem angielskim.
- Naruszają one zasady dostępności (bugzilla:4845).
- Nie zapobiegają skutecznie spamowi generowanemu przez boty.
Alternatywy, które mogą zostać zaimplementowane w przyszłości
Obrazkowe CAPTCHA
Obrazkowe CAPTCHA nie wymagają wprowadzania tekstu, co ułatwia korzystanie na urządzeniach mobilnych i wspiera internacjonalizację. Kilka pomysłów opartych na obrazach:
- Znajdź różnicę (zobacz pierwowzór). Wiele obrazów z tej samej kategorii (np. ludzie) jest wyświetlonych wraz z jednym obrazem z innej kategorii (np. kot). Ludzie powinni być w stanie rozpoznać, który się różni. Zauważ, że w tym przypadku pytanie jest zawsze takie samo (znajdź różnicę), a użyte kategorie nie są ujawniane użytkownikowi.
- Znajdź wszystkie obrazy danego rodzaju (zobacz pierwowzór). Obrazy z dwóch lub więcej kategorii są wyświetlone razem. Użytkownik jest wyraźne zapytany o znalezienie wszystkich obrazów danego rodzaju (np. wszystkich obrazów przedstawiających osoby w okularach).
- Obrazy ze znacznikami (zobacz pierwowzór). Użytkownikowi przedstawiane są obrazy zawierające oznaczone elementy oraz opcje wyboru właściwego znacznika (np. czy to ptak? czy to samolot?).
Najtrudniejszą częścią jest to, jak tworzyć obrazy i weryfikować dane w sposób, który nie będzie podatny na ataki spamerów. Potrzebny jest bardzo duży zestaw kodów CAPTCHA (idealnie setki tysięcy), w przeciwnym razie atakujący może po prostu zmapować Twoją bazę danych kodów CAPTCHA. Jeśli korzystasz z publicznego repozytorium obrazów (takiego jak Commons) lub publicznego źródła danych (takiego jak kategorie Commons), istnieje duże prawdopodobieństwo, że atakujący będzie w stanie dopasować CAPTCHA do źródła i na jego podstawie znaleźć rozwiązanie.
-
Znajdź wszystkie pomysły CAPTCHA
-
Znajdź różniący się pomysł CAPTCHA
-
Pomysł na CAPTCHA panoramy
Zastępowanie CAPTCHA pułapką typu honeypot
Jedną z możliwości uniknięcia problemów z lokalizacją CAPTCHA jest po prostu usunięcie jej i zastąpienie pułapką typu honeypot.
Własny klon reCAPTCHA
Napisz wersję reCAPTCHA, która wykorzystuje obrazy dokumentów przetworzone przez rozszerzenie ProofreadPage MediaWiki dla Wikiźródła: WikiCAPTCHA. Innymi słowy, CAPTCHA która przekazuje dane do ProofreadPage w celu rozszerzenia przetwarzania OCR. Możesz budować na istniejącym kodzie. Warto zauważyć, że „reCAPTCHA nie posiada żadnych konkretnych patentów na technologię stojącą za algorytmami tekstowych CAPTCHA (przynajmniej nie na temat, który omawiają na swojej stronie internetowej, ani na stronie Urzędu Patentów i Znaków Towarowych Stanów Zjednoczonych”, jak podaje pewien bloger [1]).
Omówione również na konferencji Wikimania 2012 w ramach prezentacji Wikicaptcha: rozwiązanie typu ReCAPTCHA dla Wikisource
Zaletą tego podejścia jest to, że możemy przekształcić utajoną siłę roboczą, obecnie marnowaną na rozwiązywanie zadań CAPTCHA, w zysk dla projektu Wikimedia (Wikisource); możemy też zacząć od ograniczonego zestawu danych. W rzeczywistości, pracując metodą reCaptcha, moglibyśmy stworzyć pewnego rodzaju zestaw danych bootstrapowych, a następnie pokazać użytkownikom mieszankę captcha ze znanymi i nieznanymi rozwiązaniami, a następnie wykorzystać znane do weryfikacji, a nieznane do generowania większej ilości danych. Ale to nie jest łatwe i projekt powinien położyć na to szczególny nacisk, jeśli chcemy, aby system CAPTCHA miał praktyczne zastosowanie.
Dostępność
Dostępność naszego obecnego testu CAPTCHA jest wyjątkowo słaba. Jeśli użytkownik ma wadę wzroku lub korzysta z czytnika ekranu, tekstowa CAPTCHA jest dla niego niemal w całości niedostępna. Kilka naszych większych wiki rozwiązuje ten problem za pośrednictwem systemu wniosków o założenie konta prowadzonego przez wolontariuszy. Alternatywy takie jak obrazkowe CAPTCHA nadal naruszają zasady dostępności (bugzilla:4845), można rozważyć alternatywę w postaci dźwiękowego CAPTCHA, ale samo w sobie nie zapewni dostępności dla osób głuchoniewidomych.
Zobacz też
- Admin tools development - $1, dział inżynierii Wikimedia odpowiedzialny za to i inne narzędzia
- bugzilla:38640
- Research:Account creation UX/CAPTCHA
- You (probably) don't need ReCAPTCHA (2019)
- TEDxCMU -- Luis von Ahn -- Duolingo: The Next Chapter in Human Computation
- Ostatnie dyskusje
- CAPTCHA i osoby nieposługujące się językiem angielskim część I oraz część II
- Naprawa CAPTCHA Wikipedii (2011-11-03): «Now that the Wikipedia CAPTCHA has been comprehensively broken by Burzstein et. al. in their paper "Text-based CAPTCHA Strengths and Weaknesses" [...] I've reworked the 2005-era CAPTCHA-image-generating Python script in the CAPTCHA engine» – code still waiting for reviewers.
- Propozycja: wymienić CAPTCHA na lepsze podejścia (July 2012)
- Znane witryny internetowe, które nie używają CAPTCHA
- Inne zasoby
- Bots Are Better than Humans at Solving CAPTCHAs (on An Empirical Study & Evaluation of Modern CAPTCHAs, 2023)
- Asirra: A CAPTCHA that Exploits Interest-Aligned Manual Image Categorization, CCS’07, October 29–November 2, 2007, Alexandria, Virginia, USA. (Zawiera odwołania do innych przydatnych dokumentów o CAPTCHA.)
- Philippe Golle. 2008. Machine learning attacks against the Asirra CAPTCHA. In Proceedings of the 15th ACM conference on Computer and communications security (CCS '08). ACM, New York, NY, USA, 535-542. DOI=10.1145/1455770.1455838