Optické rozpoznávání znaků (Optical character recognition, OCR) . Programy pro optické rozpoznávání znaků: ABBYY FineReader, CuneiForm

Obsah

Oblasti použití OCR
Proces určování přesnosti textu
Optická technologie pro Braillovo písmo
Výběr programů pro rozpoznávání textu
Populární software pro mobilní zařízení
Dokumenty Google
Optické rozpoznávání Abbyy
Cloudová služba Adobe Acrobat
Nejlepší bezplatný software
Rozpoznávání znaků v systému Linux

Technologii OCR (Optical Character Recognition) lze použít k převodu tištěné kopie dokumentu na elektronickou verzi. Pokud je například naskenována vícestránková instance do souboru TIFF, načte se do programu OCR, který rozpozná text, a poté se převede do upravitelného souboru. Některé aplikace vám umožňují skenovat stránky a převádět obsah do dokumentu v jednom kroku.

Zatímco technologie byla původně vyvinuta pro optické rozpoznávání tištěných znaků, může být také použita pro ručně psané znaky. Například poštovní služby jako USPS používají software OCR pro automatické zpracování dopisů a balíků čtením adresy.

Oblasti použití OCR

OCR znamená optické rozpoznávání znaků. Jedná se o rozšířenou technologii rozpoznávání textu uvnitř obrázků ve formě naskenovaných dokumentů a fotografií. Tato technologie se používá k převodu téměř jakéhokoli typu obrázků obsahujících psaný, ručně psaný nebo tištěný text na strojově čitelná textová data.

OCR se stala populární počátkem 90. let při pokusu o digitalizaci historických materiálů. Metoda od té doby prošla významnými vylepšeními a nyní poskytuje téměř dokonalou přesnost optického rozpoznávání znaků. Používají se pokročilé techniky jako Zonal OCR pro automatizaci složité pracovní postupy založené na převodu strojopisů na digitální dokumenty. Jakmile je naskenovaný materiál zpracován, lze text upravovat pomocí programů, jako jsou Microsoft Word nebo Dokumenty Google, které jsou textovými editory.

Než tato technologie přišla, jedinou možností digitalizace tištěných dokumentů bylo ruční psaní. Nejenže to trvalo dlouho, ale také to vedlo k nepřesnostem a chybám při přehrávání kopie. OCR se často používá jako "skrytá" technologie v mnoha známých systémech a službách, které zahrnují automatizaci zadávání dat a indexování pro vyhledávače, automatické optické rozpoznávání znaků poznávacích značek a pomoc nevidomým a zrakově postiženým lidem.

Proces určování přesnosti textu

Každý krok procesu OCR je důležitý pro určení přesnosti konečného textu. Začíná transformací tištěného dokumentu. Pokud má stopy, skvrny a špatný kontrast, software při rozpoznávání udělá chyby a výsledek bude nesprávný. Abychom se těmto problémům vyhnuli, lze provést vylepšenou fotokopii tisku.

Prvním krokem práce je skenování tištěného textu. Software OCR pracuje s obrazovými soubory. Skener nebo dobrý digitální fotoaparát vytváří jasné fotokopie dokumentů. Lepší je převést naskenované soubory černobíle. Proces je binární. Pomocí černé na obrázku je OCR OCR OCR OCR OCR a bílá zase působí jako pozadí.

Druhou fází je definice symbolů. Rychlost tohoto procesu závisí na použitém programu OCR. Většina analyzuje každý prvek jeden po druhém. Účelem aplikace je identifikovat znaky, ale dobré programy rozpoznávají nejen text, ale také tabulky a další prvky rozvržení.

Proces není dokonalý, tak jak jíst přesnost ovlivňuje mnoho faktorů. Jaké programy jsou určeny pro optické rozpoznávání znaků, zvažte níže. A Uživatel si sám vybere, co je lepší. OCR mají vestavěné kontroly pravopisu a zvýrazňují chybně napsaná slova. Některé z nich jsou tak složité, že si všimnou nesouladu slov a gramatických chyb, uživatel musí provést pouze potřebnou úpravu.

Posledním krokem je uložení hotového dokumentu v požadovaném formátu. Pokud aplikace neposkytuje potřebné, můžete použít mnoho bezplatných konvektorů online.

Optická technologie pro Braillovo písmo

Technologie Optical Character Recognition (OCR) poskytuje nevidomým nebo zrakově postiženým lidem možnost definovat text a vyslovit jej nahlas. Používá výstup řeči a také zobrazuje informace na Braillově displeji.

Existují tři hlavní prvky systémů optického rozpoznávání znaků: získávání obrazu, rozpoznávání a čtení textu. Nejprve je tištěný dokument zachycen kamerou, poté jej software OCR převede na rozpoznané znaky a slova a poté syntezátor v systému nahlas vysloví určitý materiál nebo zobrazí Braillovo písmo na displeji. Informace mohou být uloženy v elektronickém formátu na zařízení spuštěném OCR nebo v paměti samostatného zařízení.

Proces bere v úvahu logickou strukturu jazyka. Systém vyvozuje, že například unie "to" na začátku věty je chyba a měla by číst jako "to". Používá lexikon a používá metody kontroly pravopisu podobné technikám používaným v mnoha textových editorech.

Všechny systémy OCR vytvářejí dočasné soubory obsahující symboly a rozvržení stránky. V některých systémech je lze převést do formátů, které lze najít pomocí široce používaných počítačových aplikací, jako je textový editor, tabulka a databáze.

Výběr programů pro rozpoznávání textu

Doporučuje se vědomě přistupovat k výběr softwaru software pro rozpoznávání textu. Je lepší provést vlastní testování nebo vzít v úvahu názor pokročilých uživatelů.

Testování se provádí s přihlédnutím k následujícím faktorům:

Přesnost odlišuje dobrý OCR od špatného. Je však nereálné očekávat 100% přesnost od aplikace pro rozpoznávání rukopisu. Faktory jako kvalita originálních dokumentů a rozlišení obrázku výrazně ovlivňuje konečný výsledek. Dobré OCR dosahují 98% při použití moderního skeneru a zdrojů v uspokojivém stavu.
Vícejazyčnost - dnes má většina programů tuto vlastnost. OCR skenuje samostatný znak, definovat to. Pokud je určen k rozpoznání pouze anglických písmen, nebude schopen přesně interpretovat speciální znaky, například písmena s důrazem na "e". Takový software bude reprezentovat tyto znaky s nejbližším ekvivalentem v angličtině. Při použití aplikace, která podporuje vícejazyčnost, určete Jazyk dokumentu, aby byla zajištěna přesnost rozpoznávání.
Podpora rukopisu. Text vytvořený pomocí klávesnice je snadno rozpoznatelný jakýmkoli programem. Ručně psaný je však velmi odlišná metoda skenování. Lidé mají velmi odlišné rukopisy. Někteří píšou úhledně, zatímco jako většina rukopisy nejsou dostatečně čitelné. Kvalitní OCR dokáže rozpoznat jakýkoli rukopis. Proto pro archivaci ručně psaného materiálu budou vyžadovány programy pro ručně psaný text.
Úroveň automatizace. OCR lze spustit automaticky nebo interaktivně. Pokud potřebujete skenovat mnoho stránek najednou, je lepší zvážit automatické programy. Pomocí této funkce můžete skenovat dokumenty několika kliknutími a současně provádět další úkoly a je snadné najít výsledný soubor PDF, TXT nebo doc. Většina bezplatných programů pro rozpoznávání textu má omezenou automatizaci.
Uložení rozvržení. Hlavním účelem těchto programů je překlad textu do elektronické podoby. Někteří nezachovávají rozložení původního dokumentu. Proto musíte finální verzi dlouho upravovat. Dobrý program by měl zachovat původní rozložení, pak konečná kopie bude vyžadovat drobné úpravy. Takové aplikace ukládají sloupce, tabulky a grafické obrázky jako v původní verzi.

Populární software pro mobilní zařízení

OCR je skvělý pro přenos textu z fyzických zdrojů přímo do digitálního dokumentu. Existují různé typy programů a aplikací pro stolní počítače a mobilních zařízení. Liší se cenou a mají své klíčové rozlišovací funkce.

Nejoblíbenější "Android"-snímač:

Office Lens-poskytuje skenování stránek a OCR pro uživatele Android zdarma. Pro převod je nutné připojení k internetu.
Skenery PDF (například ABBYY TextGrabber, CamScanner, MDScan, OCR Instantly) - provádějí skenování následované OCR. V softwaru neexistují žádná omezení počtu naskenovaných stránek a žádné vodoznaky.
Online OCR. Najdete ji na internetu, služba je velmi jednoduchá a snadno použitelná. Charakteristickým znakem je, že podporuje 46 jazyků, výstupní dokument váží maximálně 5 MB, lze jej snadno převést do formátu Microsoft Word, Excel nebo prostého textového formátu. Po registraci je možné převést vícestránkové soubory PDF, RTF, Excel a soubory až do velikosti 100 MB. Pro větší objemy rozpoznávání existuje placená verze.

Dokumenty Google

Pro ty, kteří jsou již obeznámeni s Dokumenty Google, lze použít OCR zabudovaný do Disku Google. Pro dosažení nejlepších výsledků musí být písmo nastaveno na Arial nebo Times New Roman. Výsledek lze zlepšit zajištěním, že skenovaný obraz má rovnoměrné osvětlení a jasný kontrast. Fotografické materiály lze zpracovávat jednotlivě v souborech: jpg, png, gif nebo ve vícestránkových dokumentech PDF. Rozšíření podporuje většinu jazyků.

Google Má existuje mnoho výukové programy a možnosti cloudového zpracování. Mnoho uživatelů věří, že služba nemá dostatečně pokročilé funkce a možnosti. Pokud se však používá aplikace Disk Google pro Android, je možné skenovat stránky přímo z aplikace pomocí fotoaparátu na smartphonu. V opačném případě nahrajte dokumenty pomocí skeneru připojeného k počítači nebo jiným způsobem a začněte zpracovávat rozpoznávání na Disku Google. Pro jednotlivce nabízí Disk Google bezplatnou úroveň úložiště přibližně 19 GB s možností rozšíření na 100 GB prostřednictvím služby Google One za 1,99 USD. USA.

Optické rozpoznávání Abbyy

Abbyy FineReader pracuje s dokumenty již dlouho. Jedná se o komplexní řešení jak pro firmy, tak pro běžné uživatele. V něm můžete získat všechny potřebné funkce pro extrakci obsahu textů ze skeneru s plnou čitelností, úhledně uspořádané digitalizované materiály. Kromě rozpoznávání textů a převodu do PDF, Microsoft Office nebo jiných formátů je program může také porovnat, přidat anotace a komentáře.

Abbyy FineReader dokáže převést materiál v dávkovém režimu a zpracovat mnoho výstupních formátů v 192 různých jazycích. Existují doprovodné mobilní aplikace, když potřebujete provést rychlé skenování z telefonu.

Software není nejmodernější, ale je jednoduchý, funkční a odvádí skvělou práci. Nástroj má silnou pověst jedné z nejlepších možností v oblasti optického rozpoznávání znaků. Můžete použít bezplatnou zkušební verzi. Po začíná na 199,99 $ . USD za standardní jednorázovou trvalou licenci.

Pokud se to někomu zdá jako drahá volba, můžete použít dobrou alternativu k ABBYY FineReader-online verzi. Je omezena na skenování pouze 10 stránek měsíčně. Ale přichází se všemi ostatními funkcemi prémiové verze. K získání přístupu bude nutná registrace. Podporuje tolik formátů vstupních souborů a je možné vybrat výstupy jako PDF, Word, Excel, PowerPoint a e-Pub.

Cloudová služba Adobe Acrobat

Adobe Acrobat se hodí k účtu a nabízí působivý seznam funkcí a možností, i když cena je o něco chladnější než konkurence. Pro všechny funkce optického rozpoznávání textu vyberte Pro verzi Adobe Acrobat. DC znamená "cloud dokumentů" a integruje se docela jasně s cloudovým řešením Adobe, pokud potřebujete přistupovat ke svým souborům z libovolného počítače. K dispozici je také jednoduchá a bezproblémová integrace se všemi ostatními službami Adobe, jako je Photoshop.

Pokud se uživatel rozhodne zaplatit za verzi Adobe Acrobat DC Pro, získá všechny nástroje pro rozpoznávání textu, Možnost přidat komentáře a zpětnou vazbu k obsahu, specializovanou službu pro skenování tabulek, schopnost rychle porovnat dva dokumenty dohromady. Materiály lze upravovat přímo na obrazovce několik sekund po jejich skenování.

Značka Adobe zaručuje určitou úroveň kvality a uživatelé jsou ohromeni intuitivností a schopnostmi Adobe Acrobat DC. Předplatné služby začíná na 12,99 USD. USA.

Nejlepší bezplatný software

Free OCR to Word je nejlepší bezplatný software pro optické rozpoznávání znaků využívající nejnovější mechanismy. Tesseract je nejvýkonnějším nástrojem pro tento typ softwaru a je považován za jednu z nejpřesnějších metod. Program podporuje více obrazových formátů a TIFF více stránek. Tuto službu lze použít zcela zdarma k extrahování textu z poskytovaného fotografického materiálu.

Motor Tesseract byl původně vyvinut společností Hewlett Packard Labs v letech 1985-1994. Některé změny byly provedeny v roce 1996. V roce 1995 byl zařazen mezi tři nejlepší rozpoznávací mechanismy. Funguje s Windows, Linux a Mac OS X. FreeOCR dokáže zpracovat obrázky, které mají vícejazyčný a vícejazyčný text. Zpracovává formáty PDF a podporuje zařízení TWAIN jako skenery, má rozšířené rozhraní s dvojitým oknem, jehož nastavení lze snadno pochopit.

Free OCR to Word může ušetřit spoustu času, aniž byste museli znovu zadávat již napsanou práci. Program vezme dokument, naskenovaný objekt nebo obrázek a převede jej na čitelný, upravitelný a přesný materiál. Software lze zdarma stáhnout do aplikace Word. OCR to Word Optimalizováno pro provoz se všemi typy skenerů a má hodnocení přesnosti 98%, moderní rozhraní, které umožňuje snadný přístup ke všem úkolům, jsou k dispozici funkce otáčení v případě, že fotografie není správně umístěna na obrazovce. Software extrahuje text ze zachycených snímků pomocí smartphonů nebo digitálních fotoaparátů s vysokou přesností a kvalitou.

Rozpoznávání znaků v systému Linux

Sada OCRFeeder poskytuje uživatelsky přívětivé Linux GUI, což je v podstatě front-end pro některé obrázky, OCR a textové nástroje, jako je tisk nebo kontrola pravopisu. Nečte znaky samy o sobě, ale místo toho používá jiné aplikace OCR prostřednictvím takzvaného nastavení "rozpoznávacích mechanismů". Má předdefinované parametry pro Tesseract, CuneiForm, GOCR a Ocrad.

Uživatel musí do Ubuntu nainstalovat pouze vybrané motory - jeden nebo více a poté je detekovat v nastavení zdroje. Můžete přidat další motory a změnit tyto parametry jsou ručně. Jedna aplikace může mít několik různých motorů. Hlavní okno Feeder umožňuje za běhu vybrat, které z nich použít pro konkrétní oblast, existuje také nastavení pro výběr jednoho ve výchozím nastavení. Chcete-li vybrat jazyk čteného textu, v případě Tesseract a CuneiForm, musíte přidat přepínač "-l" s příslušným kódem jazyka / skriptu, například "- L pol "pro polštinu nebo"-L dan-frak " pro dánštinu do nastavení daného motoru

Technologie optického rozpoznávání tištěných znaků "Tesseract" na začátku byl schopen rozpoznat text pouze v angličtině, verze 2.x ji učinila vícejazyčnou. V případě potřeby lze nastavit více než jeden slovník. Nové verze digitalizují text na základě ISO 963-2.

Po úspěšné instalaci použijte příkaz "tesseract>cesta k obrazu>základní název výstupního souboru". Tesseract automaticky dá víkend dokument rozšíření ".txt", můžete zadat možnost "-l", následuje Jazykový kód. Pro verze Tesseract starší než třetí je velmi důležité, aby byl obrázek ve formátu souboru hodnoty značky a měl příponu ".tif", a ne ".tiff". Příkazový řádek by měl vypadat takto:"$ tesseract ~ / input.tif output".

Kde "input.tif" - toto je dokument pro převod umístěný v domovské složce a "output" - věci, které Tesseract vytvoří jako "output.txt". Naskenované texty jsou často uloženy jako rastrový obrázek ve velkém dokumentu PDF. Pomocí ImageMagick lze jednotlivé stránky extrahovat jako soubory TIFF pro zpracování pomocí Tesseract. Následující skript může pomoci automatizovat tento proces.

Program CuneiForm je další systém optického rozpoznávání textu, který byl původně vyvinut a založen na otevřených zdrojích společnosti Cognitive Technologies. Verze Windows, který má vlastní GUI, může být spuštěn s některými výsledky ve Wine. Jeho linuxový Port je vyvíjen na Launchpadu a přestože v současné době nemá nativní GUI, CuneiForm lze úspěšně spustit z grafického uživatelského rozhraní OCRFeeder.

Níže je uveden příklad, jak úspěšně převést některé screenshoty obrázků .webp vývěsky na webu do užitečných textových souborů.

Pdfocr je skript, který provádí OCR pro vícestránkové soubory PDF a také jej implementuje zpět jako prohledávatelnou textovou vrstvu. Může použít "Tesseract" nebo klínové písmo jako rozpoznávací mechanismus. Samotný skript lze získat z GitHubu nebo z PPA. Chcete-li spustit příkaz, zaregistrujte se v terminálu: "pdfocr -i input.pdf -o output.pdf".

Technologie OCR nestojí na místě, v perspektivě uznání inteligentního systému optického rozpoznávání znaků-ICR. Tento standard je špičkový. Většina ICR má samoučící se systém zvaný neuronová síť, který automaticky aktualizuje databázi pro nové vzorky rukopisu. Rozšiřuje užitečnost skenovacích zařízení pro účely zpracování dokumentů od rozpoznávání tištěného textu (funkce OCR) po ručně psané materiály a může dosáhnout více než 97% míry přesnosti při čtení ručně psaného materiálu ve strukturovaných formách.