












Pro strojové vytěžení dat z obrázků se užívají OCR (neboli Optical Character Recognition) programy. Lze tak činit i v Linuxu? Jistě, ale...
Gocr je textový (konzolový) OCR program. Žel nevyniká kvalitou, pro alespoň trochu použitelný výsledek vyžaduje min 300 dpi / 12 pt "normální" font, jinak je výsledek žalostný. Příkaz je takovýto: gocr -i vstupní_obrázek -o výstup.txt -f UTF8. V mých úložištích se nachází balíček Kde-servicemenu-image2text, který po své instalaci přidá do kontextové nabídky v KDE položku Činnosti -> Převést obrázek na text. Skriptíček využívá Gocr. Stačí na obrázek klepnout pravým tlačítkem myši a zvolit výše uvedenou položku. Vedle ve stejném adresáři pak vznikne textový soubor stejného jména s příponou txt. Avšak znovu - s méně kvalitním skenem si neporadí.
Asi Vás napadne použít nějaký freeware pro Běžný operační systém, tedy něco pro Wine. Ovšem to také není výhra. Samotné rozpoznání písma bývá sice na lepší úrovni než je tomu v případě GOCR, ale zase neznají češtinu, takže to v konečném součtu vyjde nastejno. Typickým příkladem je třeba TopOCR. Instalace - viz. obecný postup instalace EXE balíčků. Neumí PNG.
Ruská firma ABBYY je špičkou v oboru. FineReader je vynikající OCR software pro Běžný operační systém, tedy něco pro Wine. Vstupem může být nejen obrázek, ale i PDF obrázek obsahujicí, výstupem pak kromě obligátního TXT spousta dalších formátů, především pak formátovamý DOC. Text z obrázku "vydoluje" perfektně a to i z obrázku nízké kvality. Na skenování však zapomeňte - aplikace okamžitě spadne. Program je to komerční s cenou něco přes 3.000 Kč (Home Edition cca 1.200 Kč). K dispozici je však demo. Tedy je - aktuální verze je 10, je všude, i na českých serverech, ovšem furt po mě chtěla registrační číslo. Starší ABBYY FineReader 9.0 (Trial) (zde, zde, nebo Google) je v pohodě. Je to trial na 15 dní nebo 50 stránek, .wine se však "formátuje" celkem snadno... :-D Po instalaci nevytvoří ikonu na ploše, ani položku v Nabídce, spouští se klepnutím myši na soubor /home/UŽIVATEL/.wine/drive_c/Program Files/ABBYY FineReader 9.0/FineReader.exe
Online OCR. Uploadujete obrázek (JPG, GIF, TIF - PNG neumí), vrátí se text. Výborná kvalita i z horšího obrázku, není třeba nic instalovat. Na druhou stranu, sken s heslem k účtu bych jim neposlal... :-) Tuto vynikající službu naleznete na adrese www.free-ocr.com.
Další online OCR. Uploadujete obrázek (JPG, GIF, TIF, PNG), vrátí se text. Výborná kvalita i z horšího obrázku, není třeba nic instalovat. Na druhou stranu, sken s heslem k účtu bych jim neposlal... :-) Tuto vynikající službu naleznete na adrese www.onlineocr.net. Je lepší než předchozí - obrázek může mít až 4MB a výstupem může být i formátovaný DOC. Hlavně je však výstup SUPERKVALITNÍ!!!
V tabulce se můžete podívat, jak si jednotlivé programy poradí se skenem nižší kvality (pro Top OCR a Free OCR byl navíc převeden do JPG).
| Software | Kvalita a použitelnost | Výsledek (ze špatné předlohy) |
| GOCR | Velmi špatná až dobrá | Výsledek |
| TopOCR | Dobrá až velmi dobrá (Bez diaktriky!!!) | Výsledek |
| ABBYY FineReader | Velmi dobrá až špičková | Výsledek |
| Free OCR | Dobrá až velmi dobrá | Výsledek |
| Online OCR | Velmi dobrá až špičková | Výsledek |
Žel nativní OCR pro Linux, co si budeme namlouvat, je na dvě věci. Pro rozumnou práci musím tedy doporučit Wokenní ABBYY FineReader nebo webovou službu Online OCR. Vítěz kvality je překvapivě Online OCR, trumfne i placený ABBYY.
Autor: Miroslav Cyroň
Datum: 14 ledna 2011
Jak někteří z Vás vědí, jsem těžce invalidní, mobilní jen na invalidním vozíku. Práci na tomto webu věnuji cca 12 hodin denně.
V oblasti financování provozu tohoto webu (HW, hostingu, a podobných věcí) nemohu vše financovat ze svého, proto jsem nucen některé jeho části zpoplatnit. Nechci vydělávat, jen udržet provoz.
Zpoplatněny jsou: obrovský repozitář (50 GB!) plný špičkových her (freeware, demoverze), repozitář s demoverzemi žádaného WINE software (Flash, IE, Photoshop), repozitáře "i586" (32 bit), náročnější odborné články. Repozitáře "x86_64" (64 bit) jsou přístupny volně.








