Mi az ocr? »Meghatározása és jelentése

Az OCR optikai karakterfelismerő vagy spanyolul optikai karakterfelismerésként is ismert. Az OCR olyan szoftver, amely lehetővé teszi a szövegfelismerést, előállítva róla egy képet, hogy karakterekké alakítsa, majd elmentse azokat egy adott formátumban, amely felhasználható az adott szövegszerkesztő programokban. Más szavakkal, ennek az új technológiának köszönhetően bármilyen típusú szöveg vagy dokumentum, beleértve a PDF fájlokat, a beolvasott papírokat vagy akár a digitális fényképezőgépekről készített képeket, átalakítható adatokká a szerkesztés lehetőségének lehetővé tétele érdekében.

Ez a szoftver a következõ módon mûködik: elõször elemzi a kérdéses dokumentum képének minden részét; terjessze az oldalt többek között táblázatokban, képekben, szövegblokkokban; akkor a sorokat szavakkal osztják szét, hogy később karakterekké váljanak; és mivel a karaktereket már jelezték, a szoftver összehasonlítja a minta képcsoportját. Ez a hipotézisek szerint halad előre arról, hogy mi az egyes karakter; és ezen hipotézisek alapján elemzi a vonalak szavakra és szavakra karakterekre bontásának különféle változatait. És a hipotézisek nagyszámú elemzése és feldolgozása után a program végül bemutatja a már felismert és új formátummal átalakított szöveget.

Meg kell jegyeznünk, hogy ma már számos olyan program van, amelyet a számítógéppiac OCR alapján kínál, mint például az OmniPage, az Abbyy Fine Reader vagy a READiris. YY, akik képesek nemcsak elemezni és felismerni a szöveget, hanem felismerik a formátumot és a stílust is, de bizonyos korlátozásokkal, ezért megkövetelik, hogy a szöveget elemzés után szerkesszék a szükséges módosítások elvégzéséhez megkövetelik.