Jump to content

Help:Extension:Wikisource/Wikimedia OCR/nl

From mediawiki.org
This page is a translated version of the page Help:Extension:Wikisource/Wikimedia OCR and the translation is 100% complete.

De functie Wikimedia OCR van de extensie Wikisource voegt een werkbalkinterface toe aan de werkbalk voor bewerken bij het bewerken in de namespace Page, om snel tekst uit de pagina-afbeelding te extraheren en toe te voegen aan het tekstvak van de pagina. OCR staat voor Optische karakterherkenning en is het proces waarbij tekst in een fotografische afbeelding kan worden omgezet in bewerkbare tekst en zo aan een wiki kan worden toegevoegd.

De knop en het menu.

Als u deze functie wilt gebruiken, klikt u op de knop Schermafbeelding van een knop met de tekst 'Tekst transcriberen'. aan de rechterkant van de hoofdwerkbalk voor bewerken. Hiermee wordt het OCR-proces uitgevoerd en wordt de tekst in het veld page body in het bewerkingsformulier geplaatst (vervangt alle tekst die er al is). Aan de bovenkant van het venster wordt een knop 'undo' getoond, waarmee u indien gewenst terug kunt keren naar de vorige toestand van het veld.

In zijn basisvorm is dat de functionaliteit van Wikimedia OCR, maar er zijn een paar geavanceerde functies die in sommige omstandigheden nuttig kunnen zijn, beschikbaar via het dropdown menu rechts van de knop 'Extracteer tekst'. Met deze geavanceerde functies kunt u een andere OCR-engine kiezen; een lijst van talen instellen om de software te helpen woorden te detecteren; of een kleinere deel van de pagina kiezen om tekst uit te halen. Dit wordt allemaal hieronder uitgelegd en let op dat alle, behalve de keuze van de engine, beschikbaar zijn via het menu item "Geavanceerde opties", waarmee een nieuw tabblad wordt geopend.

The Advanced options form.

Engines

Er zijn nu drie OCR-engines beschikbaar: Tesseract, Google en Transkribus. Tesseract is een open source hulpmiddel dat in eigen beheer wordt uitgevoerd en een breed scala aan talen en andere opties ondersteunt. Google OCR is een eigen service, die ook veel talen ondersteunt, maar met minder opties. Transkribus wordt ondersteund door een EU-coöperatieve READ-COOP en heeft een samenwerking met de Wikimedia Foundation om een beperkt aantal gratis credits te bieden om het project 'Wikisource Loves Manuscripts' te ondersteunen.

De keuze welke te gebruiken is, kan variëren afhankelijk van de aard van het de verwerken afbeelding.

Om van engine te wisselen, selecteer de betreffende radio-knop in het dropdown menu. Uw keuze zal worden onthouden voor uw huidige device en kan op elk moment worden gewijzigd.

Talen

Door op het menu-item Geavanceerde opties te klikken, wordt er een tabblad geopend met een transcriptieformulier met een veld om de taal of talen te selecteren die in de te extraheren tekstpagina worden gebruikt.

Dit is nuttig omdat de OCR-engines veel nauwkeuriger kunnen zijn als ze weten welke talen te verwachten zijn.

Niet alle talen worden door alle engines ondersteund, en als u de engine wijzigt, verandert ook de lijst met beschikbare talen.

Als uw taal niet op de lijst staat, kunt u het veld Taal leeg laten en zal de OCR-machine proberen welke tekst ze er uit kan halen. Dit kan verschillende resultaten hebben, en het is het proberen waard.

Crop gebied

The crop button.

Om tekst uit slechts een deel van een afbeelding te halen (bijvoorbeeld een enkele kolom van een pagina uit een krant), is het mogelijk om een gebied te selecteren. Do this by first clicking the crop button (, see screenshot at right), and then clicking and dragging over the page image to draw a rectangle. De afbeelding kan worden gezoomd en gepand, en de te selecteren rechthoek kan naar wens worden verplaatst en verkleind. Er zijn knoppen boven de afbeelding waarmee u kunt wisselen tussen verplaatsen en snijden. Als u het gewenste gebied heeft geselecteerd, klikt u op 'Gebied extraheren' en wordt de tekst voor alleen dat gebied getoond in het tekstvak rechts.

Terug uit Geavanceerde opties

Nadat u het formulier met geavanceerde opties heeft gebruikt om tekst te extraheren, moet u die resulterende tekst kopiëren en plakken in het hoofdtekstveld van het bewerkingsformulier. Om dit een beetje sneller te maken, is er een Copy to clipboard op het clipboard.

Eerste gebruik

Bij het openen van een pagina voor bewerking wordt op de knop Extract text een pulserende blauwe punt weergegeven. Als u op deze punt of op een van de knoppen klikt, wordt er een pop-up geopend waarin wordt uitgelegd wat deze functie is. Nadat deze pop-up is gesloten, wordt deze op hetzelfde apparaat niet meer weergegeven.

Aandachtspunten

Als u problemen ondervindt met het gebruik van Wikimedia OCR, meld dan deze aan Phabricator, onder de tag Wikisource OCR .

PD Let op: Als u deze pagina bewerkt, gaat u akkoord met het vrijgeven van uw bijdragen onder de CC0. Zie Helppagina’s Publiek Domein voor meer informatie. PD