Growth/Personalized first day/Structured tasks/Copyedit/hu

Ez az oldal egy „korrektúrázás” strukturált feladattal kapcsolatos munkát ír le, amely a strukturált feladat egyik típusa, amit a Növekedési csapat a kezdők honlapján keresztül ajánlhat fel. Ez az oldal tartalmazza a főbb eszközöket, terveket, nyitott kérdéseket és döntéseket. Az előrehaladásról szóló legtöbb apró frissítés az általános Növekedési csapat frissítések oldalára kerül, néhány nagyobb vagy részletes frissítés pedig ide.



Jelenlegi állapot

 * 2021-07-19: Projektoldal létrehozása és a háttérkutatás megkezdése.
 * 2022-08-12: kezdeti kutatási eredmények hozzáadása.
 * Next: teljes kézi értékelés.

Összefoglaló
A Struktúrált feladatok célja, hogy a szerkesztési feladatokat lépésről lépésre olyan munkafolyamatokra bontja, melyek értelmesek a kezdők számára és mobil eszközökön is. A növekedési csapat úgy véli, hogy az újfajta szerkesztési munkafolyamatok bevezetése lehetővé teszi, hogy több új szerkesztő vegyen részt a Wikipédia szerkesztésében, akik közül néhányan megtanulnak majd jelentősebb szerkesztéseket végezni és bekapcsolódni a közösségi életbe. Miután megvitattuk a strukturált feladatok ötletét a közösségekkel, úgy döntöttünk, hogy megépítjük az első strukturált feladatot: "hivatkozás hozzáadása".

Már az első feladat megépítése közben is gondolkodtunk azon, hogy milyenek lehetnek a későbbi strukturált feladatok; azt szeretnénk, ha a kezdők többféle feladattípus közül választhatnának, hogy megtalálják azokat, melyeket szívesen csinálnak, és melyek nehézségét növelni tudják, ahogy egyre többet tanulnak. A második feladat, amin dolgozni kezdtünk, a "kép hozzáadása" volt. De a strukturált feladatok ötletéről folytatott kezdeti közösségi megbeszéléseink során a közösségek által leginkább kívánt feladattípus a korrektúrázással kapcsolatos feladat volt – a helyesírással, nyelvtannal, írásjelekkel, stílussal stb. Itt vannak a kezdeti feljegyzéseink, melyeket ennek vizsgálatából és a közösségi tagokkal folytatott megbeszélésekből készítettünk.

Tudjuk, hogy sok nyitott kérdés van azzal kapcsolatban, hogy ez hogyan működne, sok lehetséges ok, amiért nem sikerülhet jól: milyen korrektúrázásról beszélünk? Csak a helyesírásról, vagy valami többről? Van valamilyen algoritmus, ami minden nyelven jól működik? E kérdések kapcsán reméljük, hogy sok közösségi tagtól halljuk a véleményét, és folyamatos vitát folytatunk, miközben eldöntjük, hogyan tovább.



Háttérkutatás


Célok

 * Szeretnénk megérteni, hogy milyen típusú korrektúrázási feladatokat lehetne algoritmusokkal segíteni.
 * Olyan algoritmust szeretnénk használni, amely különböző nyelvű szócikkek egy-egy típusú korrektúrázási feladataira tud javaslatot tenni.
 * Szeretnénk tudni, hogy az algoritmus mennyire jól működik (pl. tudni, hogy a meglévő modellek közül melyik modell működik a legjobban).



Irodalmi áttekintés

 * Milyen különböző részfeladatok számítanak korrektúrázásnak?
 * A korrektúrázás különböző szempontjainak azonosítása az egész spektrumban: a helyesírási/gépelési hibáktól a nyelvtanon át a stílusig/hangnemig
 * Milyen megközelítések léteznek a Wikipédiában a korrektúrázásra vonatkozóan?
 * Olyan közösségek, mint például a Copy Editors csoportja vagy a Typo csoport.
 * Karbantartási sablonok, mint például a copyedit-template.
 * Eszközök, mint például a moss-tool a helyesírási hibák azonosítására (JarBot is az arab Wikipédiában)
 * Milyen létező nyilvános, általánosan használt eszközök vannak a helyesírás-ellenőrzéshez/nyelvtanhoz stb., mint például a hunspell, LanguageTool, vagy Grammarly?
 * Tudjuk, hogy a közösségeink az átlátható algoritmusokat részesítik előnyben, így mindenki számára könnyen érthető, hogy honnan származnak a javaslatok.
 * Milyen modellek állnak rendelkezésre az természetesnyelv-feldolgozással és gépi tanulással kapcsolatos kutatásokból, például a nyelvtani hibák javítása feladatra.



A feladat meghatározása

 * A strukturált feladathoz a korrektúrázás mely aspektusát fogjuk modellezni?
 * A feladat típusa: helyesírás, nyelvtan, hangnem/stílus
 * Például: Mit tudnak a böngészők helyesírás-ellenőrzői?
 * Lépték – a feladat kiemelése a következő szinteken: szócikk, szakasz, bekezdés, mondat, szó, szórészlet.
 * A feladattól függ
 * Ismert elemek felszínre hozása (pl. sablonokból) vagy újak jelzése?
 * Csak azt jelezzük, hogy javításra van szükség, vagy javaslatot is teszünk a javítás lehetséges módjára?
 * A javítás módjára vonatkozó javaslat egyszerűbb feladatoknál könnyebb.
 * Csak kiemelni, hogy munkára van szükség, egyszerűbb az összetettebb feladatoknál (pl. stílus vagy hangnem)
 * Nyelvi támogatás: hány nyelv támogatására törekszünk?
 * A spanyol és a portugál mint célnyelvek felvétele az arab, a vietnámi, a bengáli és a cseh mellett.
 * Ideális esetben minden nyelvet szeretnénk lefedni, de reálisan a megoldásokat a nyelvi lefedettségük mélysége alapján kell majd értékelnünk.



Kiértékeléshez szükséges adathalmaz létrehozása

 * Generáljunk egy tesztadathalmazt (ideális esetben több nyelven) a feladathoz, mellyel összehasonlíthatjuk a különböző algoritmusokat. Ezt különböző módon lehet elérni
 * Egy meglévő benchmark-adatkészlet, például CoNLL-2014 megosztott feladat a nyelvtani hibajavításról, vagy megközelítések a korpuszok generálásához (a Wikipédiából)
 * Saját adatkészlet generálása a laptörténetekből sablonok (korrektúra) vagy szerkesztési összefoglalók (elírás) felhasználásával
 * A Wikipédiából származó mondathalmazon futtatott modellek kimenetének kézi kiértékelése.



Kutatási eredmények
A Kutatás teljes összefoglalója elérhető a MetaWikin: Research:Copyediting as a structured task



Irodalmi áttekintés
A háttérkutatás és az irodalmi áttekintés itt található: Copyediting as a structured task/Literature Review

Főbb megállapítások:


 * Az egyszerű helyesírás- és nyelvtani ellenőrző programok, mint például az LanguageTool vagy Enchant, a legalkalmasabbak a korrektúrázás támogatására számos nyelven, és nyíltak/ingyenesek.
 * A Wikipédia és a strukturált feladat kontextusához némi alkalmazkodásra lesz szükség a modellek érzékenységének csökkentése érdekében; a szokásos megközelítések szerint figyelmen kívül kell hagyni mindent, ami idézőjelben vagy linkelt szövegben áll.
 * A kihívás egy alapigazság-adatkészlet kifejlesztése lesz a backteszteléshez. Valószínűleg szükség lesz némi kézi kiértékelésre is.
 * Hosszú távon: Olyan modell kidolgozása, mely a korrektúrasablonok alapján kiemeli a szerkesztést igénylő mondatokat (anélkül, hogy feltétlenül javítást javasolna). Ez a helyesírás-ellenőrzéshez képest nagyobb kihívást jelentő korrektúrázási feladatok készletét biztosíthatná.

LanguageTool
A LanguageToolt azért jelöltük meg a cikkekben lehetséges korrektúrázások megjelenítésére, mert:


 * Nyílt, aktívan van fejlesztve, és több mint 30 nyelvet támogat
 * A szabályalapú megközelítés előnye, hogy a hibákhoz magyarázat is tartozik, hogy miért kerültek kiemelésre, és nem csak egy gépi tanulásos modell magas pontszáma miatt. Ezen túlmenően, a közösség által összeállított egyéni szabályok hozzáadására is lehetőséget biztosít. https://community.languagetool.org/
 * A LanguageTool korrektúrái túlmutatnak az egyes szavak helyesírás-ellenőrzésén egy szótár segítségével, a nyelvtani és stílushibákat is megtalálják.

Nagyon durva közelítést kaphatunk arról, hogy a LanguageTool mennyire jól működik a korrektúrák felismerésében a Wikipédia-szócikkekben, ha összehasonlítjuk a hibák mennyiségét a kiemelt szócikkekben és a korrektúrasablont tartalmazó szócikkekben. Úgy találjuk, hogy a teljesítmény sok nyelvben elfogadható, miután egy utólagos feldolgozási lépést alkalmaztunk, melyben a LanguageToolból kiszűrünk néhány hibát (pl. a linkekkel vagy félkövér szöveggel átfedésben lévőket). We find that the performance is reasonable in many languages after applying a post-processing step in which we filter some of the errors from LanguageTool (e.g. those overlapping with links or bold text).

Összehasonlítottuk az egyszerű helyesírás-ellenőrzők teljesítményét is, melyek több nyelven állnak rendelkezésre, mint amennyit a LanguageTool támogat. Ezek is sok értelmes hibát képesek felszínre hozni a korrektúrázás számára, de sokkal nagyobb a hamis pozitívok (téves hibásnak jelölések) aránya. Ez részben orvosolható a hibák kiszűrésére szolgáló utólagos feldolgozási lépésekkel. További hátrány, hogy a helyesírás-ellenőrzők a LanguageToolnál lényegesen rosszabbul teljesítenek a hiba helyes javításának javaslata terén. They can also surface many meaningful errors for copyediting but suffer from a much higher rate of false positives. This can be partially addressed by post-processing steps to filter the errors. Another disadvantage is that spellcheckers perform considerably worse than LanguageTool in suggesting the correct improvement for the error.

Egy potenciálisan jelentős javulás lehet egy olyan modell kidolgozása, mely a LanguageTool/helyesírás-ellenőrző által felszínre hozott hibákhoz megbízhatósági pontszámot rendel. Ez lehetőséget adna arra, hogy a strukturált feladatok korrektúrázási feladatához azokat a hibákat rangsoroljuk, melyek esetében nagy a bizonyossága annak, hogy valódi korrektúraigényről van szó. Néhány kezdeti gondolat: $1. This would allow us to prioritize those errors for the structured task copyediting task for which we have a high confidence that they are true copyedits. Some initial thoughts are in T299245.

További részleteket olvashatsz itt: Research:Copyediting as a structured task/LanguageTool

Értékelés
We have completed an initial evaluation of sample copy edits utilizing LanguageTool and Hunspell. To compare how each tool worked for Wikipedia articles, our research team created a list of sample copy edits for 5 languages: Arabic, Bengali, Czech, Spanish (Growth pilot wikis) and English (as a test-case for debugging).

Módszertan

 * Started with a subset of the 10,000 first articles from the HTML dumps using the 20220801-snapshot of the respective wiki (arwiki, bnwiki, cswiki, eswiki, and enwiki).
 * Extracted the plain text from the HTML-version of the article (trying to remove any tables, images, etc).
 * Ran LanguageTool and the Hunspell-spellchecker on the plain text.
 * Applied a series of filters to decrease the number of false positives (further details available in this Phabricator task).
 * Selected the first 100 articles for which there is at least one error left after the filtering. We only consider articles that have not been edited in at least 1 year. For each article, only one error was selected randomly; thus for each language we had 100 errors from 100 different articles.
 * Growth Ambassadors evaluated the samples in their first language, and decided if the suggested edit was accurate, incorrect, or if they were unsure, or if was unclear (the suggestion wasn't clearly right or wrong).

Hunspell
The precision for Hunspell copy edits were judged less than 40% accurate across all wikis. Suggestions were accurate for 39% of English suggestions, 11% for Spanish, and 32% for Arabic, 16% for Czech, and 0% for Bengali.

LanguageTool
LanguageTool first evaluation (V1 sample): LanguageTool currently supports ~30 languages, so only two of the Growth team pilot languages are supported: Spanish and Arabic. LanguageTool's copy edits were judged at 50% accurate or higher across all three wikis. Suggestions were accurate for 51% of English suggestions, 50% for Spanish, and 57% for Arabic. LanguageTool second evaluation (V2 sample): We completed a second evaluation of LanguageTool as a way to surface copy edits in Wikipedia articles. We evaluated suggested errors in Arabic, English, and Spanish. In the previous evaluation we determined that certain rules often resulted in incorrect suggestions, so we added functionality to filter certain rules. You can see that we ended with results with a higher level of accuracy than in the V1 sample.

Common Misspellings
For this evaluation we simply used a list of common misspellings curated by Growth pilot Ambassadors, and then checked for those misspellings in Wikipedia articles. Results looked promising, but we ended up with a fairly small sample in some languages. This might be a solution to help provide coverage to languages that aren't supported by LanguageTool, however, if we pursue this option further we will test again with a longer list of misspellings to see if we can get  a more representative & significant results (and a better sense of what level of coverage this solution would provide).



Következő lépések
Consider how to better handle highly inflected and agglutinated languages, which likely won't benefit much from standard spell-checking approaches.

Further improving LanguageTool filters to decrease the number of false positives and thus further improve accuracy.

For languages not supported by an open source copy editing tool, we will consider a rule-based approach, i.e. only looking for very specific errors which could be based on a list of common misspellings. We will set up an additional test to estimate the accuracy and coverage of this type of approach.