17.02.2015 | 23:34
Imam 200 A4 listova tehničkih tablica koje moram vratiti u elektronički oblik.
Stvar je isprintana iz Excela, nekim običnastim Arial-olikim fontom (možda je Calibri, možda je Tahoma, nemam oko da to razlikujem, ali uglavnom radi se o sans-serifnim slovima), sve crnom bojom, na bijelom papiru. Ćelije su u najobičnijem rasteru - pune linije standardne debljine, i horizontalno, i vertikalno.
(Iz prilično glupih društveno-političkih razloga ne mogu do izvornog elektroničkog dokumenta niti imam ikakvu alternativu da ga nabavim. Ne dirajte u ljutu ranu.
Jedina mi je opcija OCR iz ovih papira.)
Papire ću dobiti skenirane kao TIFFove 1-bit color depth, maksimalne rezolucije koju skener podržava bez interpolacije.
Postoje kolone samo s brojevima i kolone s tekstom (na hrvatskom, čćžđ...)
Radi se o ogromnoj količini podataka pa naknadna ručna kontrola i ispravljanje APSOLUTNO NE dolazi u obzir.
Zato mi je bitno da je točnost OCR-a što je veća moguća,
osobito za brojke.
Također bi bilo bitno da OCR kuži da se radi o tablici i formatira izlaz kao tablicu. Bilo da koristi TABove ili CSV ili kako god.
Cijena softvera bi se morala uklopiti u ne više od $150-200. Poželjno je i manje.
Online OCR servisi nisu baš poželjna opcija, ali ne isključujem ih a priori.
Zahvalan na svim prijedlozima i idejama!