OCR

Sådan køres tesseract på GIF-fil i Linux

Sådan køres tesseract på GIF-fil i Linux
Tesseract er et OCR-system (Optical Character Recognition), blandt de bedste. OCR-software er i stand til at forstå tekst fra billeder og scannede dokumenter (inklusive håndskrift, hvis du træner den). Et OCR-system kan være nyttigt til mange opgaver som ordtælling af scannede dokumenter, automatisk transkription, konvertering af tegn fra billede til tekst og mere.

LinuxHint har allerede offentliggjort en tutorial, der forklarer, hvordan man installerer og forstår Tesseracts træning.

Denne tutorial viser Tesseracts installationsproces i Debian / Ubuntu-systemer, men udvides ikke med hensyn til træningsfunktioner, hvis du ikke er fortrolig med denne software, kan det være en god introduktion at læse den nævnte artikel.  Derefter viser vi dig, hvordan du behandler et GIF-billede med Tesseract for at få teksten ud af det.

Tesseract installation:

Løb:

apt installere tesseract-ocr

Nu skal du installere imagemagick, som er en billedkonverter.

Når vi er installeret, kan vi allerede teste Tesseract, for at teste det fandt jeg et gif, der er licenseret til genbrug.

Lad os nu se, hvad der sker, når vi kører tesseract på gif-billedet:

tesseract 2002NY40.gif 1result

Gør nu en "mindre" på 1resultat.txt

minus 1 resultat.txt

Her er billedet med dets tekst:

I denne Tesseracts standardindstillinger er ret nøjagtige, normalt for at få en sådan nøjagtighed kræver det træning. Lad os prøve et andet gratis billede, jeg fandt på Wiki Commons, efter at have downloadet det:

tesseract Actualizar_GNULinux_Terminal_apt-get.gif 2result

Kontroller nu filens indhold.

mindre 2result.txt


Det var resultatet, mens det oprindelige billedes indhold var:

For at forbedre karaktergenkendelsen har vi mange muligheder og trin til at følge, som blev beskrevet i vores tidligere tutorial: fjernelse af grænser, fjernelse af støj, størrelsesoptimering og siderotation blandt andre funktioner som afgrøde.

Til denne tutorial bruger vi textcleaner, et script udviklet af Freds ImageMagick Scripts.

Download scriptet og kør:

./ textcleaner -g -e stretch -f 25 -o 10 -s 1
Actualizar_GNULinux_Terminal_apt-get.gif-test.gif

Bemærk: inden du kører scriptet, skal du give det eksekveringstilladelser ved at køre “chmod + x tekstrens”Som rod eller med sudo præfiks.

Hvor:

tekstrens: kalder programmet

-g: Konverter billedet til gråtoner

-e: enache

-f: filterstørrelse

-s: sharpamt, den mængde pixelslibning, der skal anvendes på resultatet.

For information og eksempler på brug med textcleaner besøg http: // www.fmwconcepts.com / imagemagick / textcleaner / index.php

Som du ser ændrede textcleaner baggrundsfarven, hvilket øgede kontrasten mellem skrifttypen og baggrunden.

Hvis vi kører tesseract, bliver resultatet sandsynligvis anderledes:

tesseract test.gif testoutput

mindre testoutput

Som du ser blev resultatet virkelig forbedret, selv når det ikke er helt nøjagtigt.

Kommandoen konvertere leveret af imagemagick giver os mulighed for at udtrække rammer fra gif-billeder til senere behandling af Tesseract, dette er nyttigt, hvis der er ekstra indhold i forskellige rammer af gif-billedet.

Syntaksen er enkel:

konvertere

Resultatet genereres som antal filer som rammer i gif, i det givne eksempel vil resultaterne være: output-0.jpg, output-1.jpg, output-2.jpg, etc.

Derefter kan du behandle dem med tesseract og instruere det i at behandle alle filer med et jokertegn, der gemmer resultatet i en enkelt fil ved at køre:

for jeg i output- *; gør tesseract $ i outputresultat; Færdig;

Imagemagick har et stort udvalg af muligheder for at optimere billeder, og der er ikke en generisk tilstand, for hver slags scenarie skal du læse konverterings kommandoside.

Jeg håber, du fandt denne vejledning om Tesseract nyttig.

Sådan installeres og afspilles Doom på Linux
Introduktion til undergang Doom-serien opstod i 90'erne efter frigivelsen af ​​den originale Doom. Det var et øjeblikkeligt hit, og fra den tid af har...
Vulkan til Linux-brugere
Med hver nye generation af grafikkort ser vi spiludviklere skubbe grænserne for grafisk troskab og komme et skridt tættere på fotorealisme. Men på tro...
OpenTTD vs Simutrans
Oprettelse af din egen transportsimulering kan være sjovt, afslappende og ekstremt lokkende. Derfor skal du sørge for at prøve så mange spil som mulig...