OCR – Optical Character Recognition

Čo je OCR?

OCR (Optical Character Recognition), v slovenskom preklade optické rozpoznávanie znakov, je technológia počítačového videnia, ktorá umožňuje rozpoznávať a extrahovať text z obrazových súborov, naskenovaných dokumentov alebo fotografií. Systémy OCR analyzujú vizuálnu podobu znakov a prevádzajú ich do strojovo čitateľného textového formátu. Moderné riešenia často využívajú technológie umelej inteligencie a hlbokého učenia na zvýšenie presnosti rozpoznávania.

Ako OCR spracováva obraz?

Proces optického rozpoznávania znakov prebieha v niekoľkých fázach. Najprv sa vstupný obraz predspracuje – upraví sa kontrast, odstráni šum a vyrovná sklon textu. Následne algoritmus segmentuje obraz na jednotlivé riadky, slová a znaky.

V ďalšom kroku sa každý znak porovnáva s databázou známych vzorov alebo sa využíva neurónová sieť natrénovaná na rozpoznávanie písma. Výstupom je text, ktorý možno ďalej editovať, vyhľadávať alebo spracovávať inými aplikáciami. Niektoré systémy OCR dokážu spracovať aj ručne písaný text, hoci s nižšou presnosťou ako pri tlačenom písme.

Princípy rozpoznávania textu

Tradičné metódy OCR využívali porovnávanie s predloženými šablónami znakov. Moderné prístupy založené na strojovom učení analyzujú charakteristické črty jednotlivých písmen – oblúky, čiary, proporcie. Konvolučné neurónové siete (CNN) sa ukázali pri spracovaní obrazových dát vrátane rozpoznávania textu ako efektívne.

Presnosť rozpoznávania závisí od viacerých faktorov: kvality vstupného obrazu, typu písma, jazyka dokumentu a prítomnosti grafických prvkov. Pri štandardných tlačených dokumentoch dosahujú súčasné systémy vysokú presnosť, zatiaľ čo historické dokumenty alebo degradované texty predstavujú väčšiu výzvu.

Vieš, že
Vieš, že…

…prvé komerčné systémy OCR vznikli už v 50. rokoch 20. storočia a slúžili na čítanie poštových smerovacích čísel?

Príklady použitia OCR

Technológia optického rozpoznávania znakov nachádza uplatnenie v mnohých oblastiach. V bankovníctve sa využíva na spracovanie šekov a faktúr. Logistické spoločnosti ju používajú na automatické čítanie adries a čiarových kódov. V zdravotníctve pomáha digitalizovať lekárske záznamy.

Ďalšie aplikácie zahŕňajú automatické spracovanie formulárov, digitalizáciu knižničných fondov, preklad textov z fotografií v reálnom čase alebo sprístupnenie tlačených dokumentov pre zrakovo postihnutých používateľov prostredníctvom prevodu na reč. V kontexte AI sa OCR pre komplexnejšiu analýzu extrahovaného textu často kombinuje s ďalšími technológiami ako spracovanie prirodzeného jazyka (NLP).

Zdroje a odkazy

Použité zdroje:

  • IBM Think – What is Optical Character Recognition (OCR): https://www.ibm.com/think/topics/optical-character-recognition

Odporúčané zdroje:

  • AWS – What is OCR: https://aws.amazon.com/

Uvedené informácie sú orientačné a môžu sa líšiť v závislosti od verzie, implementácie a prostredia.