Tehnologia OCR

Ce este şi ce face OCR?

OCR (Recunoașterea optică a caracterelor) e un software care permite unui computer să citească imagini statice de text și să le transforme în date editabile, care pot fi căutate. OCR presupune identificarea electronică și codificarea digitală a textului tipărit, cu ajutorul unui scanner optic și al unui software specializat.

E o metodă obișnuită de digitalizare a textelor tipărite, astfel încât să poată fi editate electronic, căutate, stocate mai compact, afișate online si utilizate în procese automate precum: calculul cognitiv, traducerea automată, conversie text în vorbire, date cheie sau extragerea textului.

OCR e folosit pe scară largă pentru transformarea datelor din înregistrări în date tipărite pe hârtie (indiferent dacă sunt documente de identitate, facturi, extrase bancare, chitanțe computerizate, cărți de vizita, posta sau orice documentație adecvată).

OCR implică 3 paşi

scanning_albastru

Pasul 1

Deschiderea + scanarea unui document în software-ul OCR

fast-forward_albastru
document_albastru

Pasul 2

Recunoașterea documentului din software

fast-forward_albastru
floppy-disk_albastru

Pasul 3

Salvarea documentului produs de software într-un format ales de tine

Caracteristici de bază, specificații și recomandări ale OCR

Modul de imagine

Încarci și salvezi imagini în formate variate, cum ar fi BMP, PNG, TIFF, PDF și JPEG. Folosești compresia JPEG2000 și JBIG2 (extensie separată).

Posibilitate de preprocesare

Cureți imaginile originale, cu caracteristici precum: binarizarea adaptivă, filtrele de despeckle, funcția de deskew sau rotirea documentelor. Cu o extensie separată, mai poți: îndepărta marginile întunecate, elimina liniile și abandona culoarea. 

Recunoaşte 137+ limbi

Recunoaște 137+ limbi cu diferite suplimente: asiatice, ebraice, arabe, fonturi bancare, ICR.

Recunoaste barcode-uri

Modulul nostru de recunoaștere a codurilor de bare este capabil să recunoască codurile de bare populare 1D cum ar fi codul 39, codul 128, EAN, UPC. O extensie suplimentară permite decodarea codurilor de bare 2D pentru recunoașterea PDF417, cod QR și matrice de date.

Salvarea documentelor în mai multe formate

Formatele de iesire a documentelor în IRIS OCR sunt: PDF, PDF / A, HTML, XML, RTF, TXT, ODT, WordML, SpreadsheetML, CSV, DOCX, XLSX și XPS. Un modul suplimentar de compresie generează fișiere comprimate folosind tehnologia noastra iHQC in PDF și XPS.

Procesarea paginilor

Tehnologia OCR are capacitatea de recunoaștere zonală și recunoaște automat orientarea paginii. Corectează automat perspectiva documentelor fotografiate și are capacități de îndepărtare automată a găurilor de perforare.

 

Scrierea de mana

OCR nu recunoaște scrierea de mână cursivă, pentru că „recunoașterea optică a caracterelor” e definită doar pentru textele tipărite. Textul scris de mână poate fi recunoscut doar dacă toate caracterele sunt scrise separat („text imprimat manual”). Acest scenariu de recunoaștere e numit ICR și cel mai des utilizat pentru: Recunoașterea zonală (OCR, ICR) si Prelucrarea formularelor

Rezoluția imaginii

Recomandăm scanarea documentelor cu rezoluție de 300 dpi. Pentru fonturi de 8-10 pct se recomandă utilizarea rezoluției de 300 dpi, iar pentru fonturi mai mici de 8 pct, recomandăm  o rezoluție de 400-600 dpi.

O rezoluție mai mică duce la o degradare a calității și vitezei. Pentru cea mai bună calitate și viteză, recomandăm dimensiunea fontului să fie între 12 și 20 de puncte.

Scanarea

În general, caracterele scrise pe fundaluri gri sau colorate pot duce la erori de recunoaștere, fiindcă aceste fundaluri îngreunează citirea caracterelor. Datorită tehnologiei noastre de ultimă generație, culorile sunt interpretate separat și pot fi eliminate în procesul de recunoaștere dacă au caractere suprapuse.

Prin urmare, recomandarea noastră e să scanezi color dacă documentele au zone de culoare. Totuși, chiar și dacă documentele sunt doar alb-negru, noi tot recomandăm scanarea color pentru a menține un flux uniform, (diferența de viteză dintre scanarea color și scanarea alb-negru e minimă).

IRIS – Furnizor de Tehnologie OCR

Denumirea IRIS provine de la Image Recognition Integrated Systems (sisteme integrate de recunoaștere a imaginii). Cei de la IRIS construiesc software-uri și produse care ajută oamenii să-și crească productivitatea în timp ce scanează și convertesc documente.

IRIS dezvoltă tehnologii și produse pentru recunoașterea inteligentă a documentelor și își comercializează portofoliul la nivel mondial prin parteneriate puternice. Rețeaua de parteneri e unul dintre cei trei piloni ai IRIS Products & Technologies Division, împreună cu partenerii OEM și soluțiile proprii.

Mai puțină hârtie, mai mult conținut e deviza IRIS, pentru că poate ajuta la reducerea utilizarii hârtiei prin scanarea, editarea și partajarea fișierelor digitale. IRIS este printre pionierii în domeniul recunoașterii textului și astăzi sunt lideri în soluții care aduc valoare reală pentru investiții.

IRIS gestionează extragerea informațiilor din ambele surse (hârtie & fișiere), permițând utilizatorilor să exploateze conținutul din ele la cel mai ieftin cost și la cel mai mare randament al investiției.