Огляд «інтелектуальної системи оптичного розпізнавання»

Розпізнавання: крок за кроком
Інтеграція FineReader в Microsoft Word
швидкість розпізнавання

Призначення продукту і установка

Програмні додатки оптичного розпізнавання даних часто позначають просто - «OCR». Розшифровується ця абревіатура як Optical Character Recognition. Дані можуть бути будь-якого роду: книга, газета, журнал, факс - будь-який документ, що містить текст, який треба перенести в комп'ютер.

Маючи на руках документ і необхідність перевести його в електронну форму, у користувача є вибір: передрукувати документ, відновивши його початкове оформлення (таблиці, колонки, ілюстрації і так далі) або використовувати сканер і OCR-додаток, що набагато швидше і простіше, в разі якщо OCR-додаток розпізнає документ з достатньою точністю.

Знайомство з програмою FineReader компанії ABBYY у мене почалося ще в 1995 році. Тоді компанія ABBYY називалася більш милозвучно, на мій погляд, «BIT Software», а OCR-додаток мало порядковий номер 2.0. Версії 1.0 жоден з відомих мені людей не бачив, хоча, це абсолютно не важливо, бо ті ж Windows реально почали використовувати лише починаючи з версії 3.0.

Хотів би відзначити відразу, що офіційна назва програми - ABBYY FineReader 1.0 / 2.0 / 3.0 і так далі. Але, хай вибачать мене співробітники ABBYY, кожен раз назва компанії ми вказувати не будемо, тому, як і так ясно про що йде мова.

«Двійка» в тому далекому вже 1995 році вміщувалася на п'яти дискетах, і вимагала цілих 10 мегабайт на жорсткому диску.

У той час планшетний сканер був далеко не у всіх, люди користувалися ручними сканерами. Сканування тривало неймовірно довго, а подальша «склейка» зображення (ручний сканер ледь захоплював половину аркуша А4) не завжди давала коректний результат. Проте, сканування вже тоді дозволяло значно скоротити час, необхідний на оцифровку тексту, і, зрозуміло, чим введене оцифроване зображення розпізнавати було також важливо.

Реальних конкурентів у FineReader тоді, втім, як і зараз, не було. Так, був Presto! OCR 3.0, був CuneiForm, актуальною на той момент версії 2.95 з дистрибутивом всього в 4,3 МБ від російського розробника Cognitive Technologies. Але все це були розробки з менш зручним інтерфейсом, з дещо меншою точністю розпізнавання, а Presto !, як продукт західної розробки, або зовсім не працював з російською мовою, або результати розпізнавання доводилося довго і посилено правити. Правда, варто відзначити, що CuneiForm прийнятно працював на повільних комп'ютерах, тоді як у FineReader з цим були деякі труднощі.

FineReader 3.0 Professional, що вийшов в 1996 році на той момент був уже досить серйозним, закінченим продуктом. Список протестованих і підтримуваних сканерів демонстрував 28 моделей, серед них були і апарати Hewlett-Packard, для роботи з якими використовувалася власні розробки HP, що накладало певні труднощі в роботі для більшості програм розпізнавання. Програма вже вміла використовувати MMX-інструкції, і процес розпізнавання на швидких комп'ютерах був значно прискорений. Дистрибутив OCR-додатки при цьому можна було придбати на дискетах, кількість яких варіювався від дев'яти до одинадцяти, залежно від версії програми.

Розробники Cognitive Technologies теж не сиділи склавши руки, і версія CuneiForm 97 v4.0 стала гідною альтернативою FineReader. Мови розпізнавання можна було підключати окремо, а інтерфейс був в деяких випадках більш продуманим і зручним, ніж у продукту BIT Software. Також нову версію CuneiForm вигідно відрізняла ціна (але чи багато в той час людей купували ліцензійні продукти?) І більш ефективне використання оперативної пам'яті комп'ютера.

Чаша терезів помітно змістилися в бік FineReader з виходом на початку 98-го року FineReader 4.0. Нова версія з'явилася якраз тоді, коли непоганий планшетний сканер вже стало можливо купити за 150 дол. «Четвірка» стала однією з найбільш поширених програм розпізнавання даних на комп'ютерах користувачів, до всього іншого вона стабільно працювала під Windows NT 4.0, правда, це накладало необхідність встановлювати Service Pack 3 в обов'язковому порядку. Тому дистрибутив на диску займав цілих 320 мегабайт, але якщо покопатися, то можна було виявити, що 295 з них займав SP3 для різних мов.

Коментар спеціаліста ABBYY: в четвертій версії введена процедура повторної обробки невпевнено розпізнаних або нерозпізнаних слів. Завершивши аналіз сторінки, система знову зверталася до тих об'єктів, які не вдалося впевнено розпізнати при першому проході. До цього моменту класифікатори встигали навчитися на матеріалі всієї сторінки, і отримували можливість пізнати б тоді, що не «далося» спочатку.

Четверта версія FineReader запам'яталася також великою кількістю оновлень. Найбільш ходовими стали версії 4.64 і 4.72. У багатьох, в тому числі і у мене, 4.72 «жила» на комп'ютері довше за інших. На тлі цього вихід CuneiForm 99 OCR v5.00 пройшов практично непомітно. У всякому разі, користувачів, які працювали з новим продуктом Cognitive Technologies, було в рази менше.

Помітним кроком у бік «руху вперед не буде» користувачів був зроблений в п'ятій версії програми. Майстер сканування дозволив повністю позбавити від такої незрозумілої багатьом функції, як «сегментування», інтерфейс і навігація були максимально полегшені і спрощені. Це дало можливість FineReader 5.0 стати улюбленим інструментом багатьох користувачів, а все основи, закладені в цій версії, використовувалися у всіх подальших. Що ж стосується особисто мене, то я залишив собі версію 4.72, так як не помітив відчутної різниці в швидкості розпізнавання, а ось спрощення інтерфейсу сприйняв, як багато автомобілістів свого часу сприйняли автоматичну коробку передач у автомобіля, вишукуючи безліч аргументів на користь механіки.

FineReader 6.0 чомусь багатьом користувачам попередньої версії не сподобався, хоча, за великим рахунком, помітних кардинальних зовнішніх відмінностей від FineReader 5.0 в новій версії програми, чекати якої довелося майже два роки, по суті, не було. Основні зміни торкнулися внутрішнього устрою програми і непосвяченим користувачам були неочевидні. Від разу до разу розробники FineReader говорили про поліпшення алгоритмів розпізнавання і про підвищення, відповідно, швидкості розпізнавання. Саме в шостій версії FineReader був наділений ще двома технологіями, які отримали назви «адаптивної бинаризации» і «фільтрації текстур». Обидві вони були спрямовані на поліпшення розпізнавання «проблемних» документів, де текст розташований на кольоровому тлі або ж має яскравості дефекти, що утворилися при передачі по факсу або в силу інших причин.

У попередніх версіях FineReader необхідно було привести оцифровувати документ в однобітний растровий формат, що кілька ускладнювало розпізнавання, коли необхідно було зісканувати документ з кольоровими фотографічними елементами, зберігши при цьому первозданний форматування. Застосовуваний в FineReader 6.0 механізм адаптивної бинаризации сам визначав для кожного слова оптимальні параметри яскравості і контрастності, з тим, щоб після приведення до режиму Black & White / Lineart він став якомога більш чітким. Після цього вступав у справу алгоритм очищення, який був реалізований ще в четвертій версії, він аналізував вміст документа і видаляв з нього дрібні точки, залишаючи лише великі заповнені масиви, які ймовірно могли виявитися символами.

Іншим важливим оновленням в FineReader 6.0 стала можливість роботи з PDF-файлами, точніше, додалася функція імпорту з PDF, тоді як експорт в PDF був реалізований ще в четвертій версії. Тепер у користувача з'явилася можливість не тільки розпізнавати дані, введені за допомогою сканера, але і файли, які, як правило, можна було лише прочитати такими утилітами, як Adobe Acrobat. Це було дуже до речі, так як формат набрав помітну поширеність, а шляхів швидко перевести файл з формату PDF в той же Microsoft Word майже не було. Люди часто просто розпечатували PDF-файли, а потім сканували роздруковане. Правда, розробники ABBYY пішли тоді на хитрість, підтримка формату PDF була не "нативной». Насправді FineReader 6.0 перед розпізнаванням за допомогою безкоштовної утиліти PDF2BMP перетворював файл в растрове однобітний зображення і далі працював як з зісканували документами. Для коректної передачі багатомовних документів разом з новою програмою поставлявся набір шрифтів Type 1 кількох основних типів з розширеною таблицею символів.

Була значно вдосконалена і система попереднього редагування розпізнаних сторінок. Внутрішній редактор тепер представляв собою не просто вікно редагування тексту, а повноцінне WYSIWYG-простір, де відображався точний макет комплексного підсумкового документа (наприклад, Багатоколоночних текст, окремі текстові блоки і так далі).

Змінився і інтерфейс програми. Починаючи з того, що піктограми стали більш «мультяшно-кольоровими», як в системі Windows XP, закінчуючи з'явилася настроюється панеллю інструментів, що дозволяє винести найбільш часто використовувані функції і прибрати непотрібні.

Шоста версія два рази кілька перероблялася, судячи з випуску сервіс-паків для програми.

Чергова, сьома версія FineReader, вийшла у вересні 2003 року абсолютно тихо і не помітно. Як завжди було оголошено про вдосконалення алгоритмів і швидкості розпізнавання, більш якісній роботі з PDF-файлами, збільшенні числа мов розпізнавання, підтримку формату XML і тісної інтеграції з Microsoft Office 2003. Заявлено про вдосконалення системи перевірки орфографії, а також «дуже актуальною» для багатьох користувачів підтримки розпізнавання штрих-кодів, в тому числі двомірних типу PDF-417.

Нижче ви зможете порівняти інтерфейси FineReader 6-ий і 7-ий версій. Як можете помітити, відмінностей практично немає. ABBYY FineReader 6.0
ABBYY FineReader 7.0

Можливо, звичайно, мною були упущені деякі ключові моменти, але, скачавши Try & Buy версію FineReader 7.0, вивчивши список додавань і змін, вагомих підстав для переходу на нову версію виявлено не було. До речі кажучи, до сьомої версії можна оновити програму ще з версії 4.0 Standart або Professional.

А що CuneiForm? У квітні 2000 року була випущена оновлена версія CuneiForm 2000 R2, на цьому розвиток проекту зупинилося. З одного боку - це зрозуміло, підтримувати гідну конкуренцію FineReader дуже нелегко, з іншого - дуже шкода, що ринок втратив єдиного реального конкурента компанії ABBYY, а тільки конкуренція більшою мірою впливає на розвиток ринку і технологій.

За відсутності конкуренції, компанія ABBYY два роки працювала над наступною версією свого пакета, вже восьмий в ряді продуктів FineReader.

Що нового в FineReader 8.0 Professional Edition? Ось що говорить розробник:

«Нова версія ABBYY FineReader 8.0 Professional Edition поєднує в собі неперевершену точність розпізнавання, простоту використання і широкий діапазон налаштувань. Підвищено якість розпізнавання факсів та документів, відсканованих з низьким дозволом, на новий рівень виведено розпізнавання зображень, отриманих за допомогою цифрової камери. Новий швидкий режим розпізнавання дозволяє в кілька разів прискорити обробку якісно надрукованих документів. Реалізовано автоматизоване виконання типових задач розпізнавання, в тому числі і за власними сценаріями. Швидше і точніше стало перетворення PDF-файлів, додана функція захисту PDF-файлів паролем. Тепер в комплект поставки системи входить утиліта для розпізнавання скріншотів ».

На сьогоднішній день існує дві версії ABBYY FineReader 8.0: Professional Edition і Corporate Edition. Остання відрізняється від «професійної» тим, що призначена для роботи в корпоративній мережі з можливістю спільної роботи над розпізнаванням документів.

Підвищена точність розпізнавання включає в себе, крім традиційного поліпшення самого алгоритму розпізнавання, підвищення точності розпізнавання «спеціалізованих» текстів, а також розпізнавання цифрових фотографій.

Підвищення точності розпізнавання спеціалізованих текстів обумовлено з'явилася можливістю підключати при розпізнаванні словника Microsoft Word, хоча, звичайно, при його відсутності перевага цієї функції буде неочевидно.

Розпізнавання зображень, знятих за допомогою цифрової камери, можливо, здасться не зрозуміло яким досягненням, але, тим не менш, варто врахувати, що з точки зору OCR-системи, цифрові фотографії значно відрізняються від відсканованих зображень. На знімках нерідко зустрічаються спотворення: нерівномірне висвітлення, погана фокусування, «вигнуті» рядки на краях документа, і т.д. Крім того, в файлах цифрових фотографій часто відсутня інформація про дозвіл.

Можливість розпізнавання кольорових зображень, закладена ще в шостій версії, вже тоді дозволяла робити дану нехитру операцію з високою часткою успіху. Гідність FineReader 8.0 в тому, що той навчився відрізняти сфотографовані документи від відсканованих і застосовувати при цьому для обробки знімків нову адаптивну технологію розпізнавання. З огляду на значно більшу поширеність цифрових фотоапаратів, ніж сканерів, дана функція може бути досить корисною для багатьох користувачів.

Тим не менш, не варто особливо радіти. Дійсно прийнятних результатів можна досягти на пристойній камері рівня 4 Мпікс. Освітлення при зйомці має бути достатнім і рівним, а фотографія - чіткої, без «размиленностей» і помітного шуму. Ви можете робити фотознімки має сенс зберігати в форматі TIFF, а не застосовувати JPEG-стиснення, щоб не вносити додаткових спотворень. Для досягнення гарантованого результату має сенс використовувати при зйомці штатив. Виконавши всі ці вимоги, можна буде без особливих проблем передавати зображення навіть в дозволі 1280х1024 і витрачати мінімум часу на подальше коректування після розпізнавання.

Подальший розвиток в FineReader 8 отримала технологія розпізнавання PDF-файлів. У новій версії вдосконалено технологію обробки PDF-файлів. Як відомо, деякі PDF-файли містять так званий текстовий шар, причому його вміст може не повністю відповідати видимому на екрані документу. FineReader 8.0 попередньо аналізує вміст файлу і для кожного текстового блоку приймає рішення: розпізнати його або витягувати відповідний текст з текстового шару.

Також з'явилася можливість захисту PDF-файлів паролем. Пароль може бути встановлений як на відкриття файлу, так і на інші дії з документом (друк, витягання вмісту, можливість редагування, внесення коментарів, додавання / видалення сторінок і ін.). Передбачена можливість вибрати один з трьох рівнів шифрування: 40-бітний, 128-бітний на основі стандарту RC4, 128-бітний рівень, заснований на стандарті AES (Advanced Encryption Standard).

Додана можливість роботи з додатковою інформацією PDF-файлів (заголовок, предмет, автор, ключові слова). Цю інформацію можна витягувати, редагувати або ставити заново на свій розсуд

При перетворенні PDF-файлу та зберігання тексту у формати Microsoft Word, PDF і HTML FineReader 8.0 за замовчуванням відновлює всі гіперпосилання, знайдені в вихідному документі. До таких належать як посилання на зовнішні джерела (інтернет-сайти, інші файли, і т.п.), так і внутрішні посилання, що ведуть на інші сторінки того ж документа.

Одним з декларованих моментів є те, що розпізнані PDF-документи тепер можна відразу, без попереднього збереження на диск, передавати в Adobe Acrobat. Реальної користі від цієї функції, крім як попередній розпізнається документа з подальшим збереженням в PDF придумати складно.

Тепер ABBYY FineReader 8.0 здатний відкривати графічні файли формату TIFF, стислі за алгоритмом LZW. З'явилася можливість зберігати результати розпізнавання в формат Microsoft Reader eBook (LIT), один з найбільш популярних форматів для створення електронних книг. Під час зберігання тексту в будь-якому з форматів PDF, HTML, PPT, DOC, RTF, можна задавати кольоровість картинок - кольорова, сіра або чорно-біла. Наприклад, якщо в документі багато кольорових ілюстрацій, може бути корисно зберегти деякі з них як сірі або чорно-білі. Це істотно зменшить розмір отриманого файлу.

Крім того, з'явилися додаткові опції збереження картинок при експорті в PDF, HTML і PPT. При збереженні в PDF тепер можна вибрати метод стиснення ілюстрацій, при збереженні в HTML і PPT - формат файлів із зображеннями (JPEG або PNG). Налаштування кольоровості і якості можна змінювати як для окремої картинки, так і для всіх сторінок пакета.

Автоматична обробка документів - Процес розпізнавання документів дуже часто складається з одного и того ж набору операцій. Например, сканування, розпізнавання, Збереження розпізнаного тексту в Певної форматі. Для економії часу користувача в FineReader 8.0 передбача можлівість автоматизації однотипних Дій. Для цього описано кілька найбільш поширених сценаріїв обробки документів. Для запуску сценарію досить просто натиснути одну кнопку - вся інша робота буде виконана системою автоматично, відповідно до настройками сценарію.

Так, наприклад, ми створили власний сценарій, що дозволяє зісканувати документ, розпізнати всі сторінки, щоб переглянути результат, зробити проміжне збереження в xls-файл і передати для роботи в Microsoft Excel.

При попередній обробці зображень з'явилася спеціальна опція виправлення дозволу. Ця настройка збільшує точність розпізнавання в тих випадках, коли зображення відскановано з низьким дозволом, отримано за допомогою цифрової камери або є скріншот екрану. Якщо обробляти такі зображення без попередньої корекції, якість виявиться невисоким. Тому FineReader 8.0 при додаванні зображень в пакет перевіряє кожне з них. У випадках, коли дозвіл зображень виявляється невідповідним для системи оптичного розпізнавання, електронний блок робить його корекція. При бажанні користувач може встановлювати дозвіл зображень вручну.

В ABBYY FineReader 8.0 з'явилася функція обрізання зображення; передбачені автоматичний і ручний режими. Функція призначена для видалення чорних полів (вони іноді виникають при скануванні книг), для приведення сторінок пакета до однакового розміру, для видалення з фотографій документів областей, що не містять тексту.

Однією з найцікавіших нових функцій, як мені здається, стало «випрямлення» рядків. Найчастіше при скануванні товстих книг і журналів рядки тексту поблизу згину виявляються викривлені. Схожа проблема зустрічається при фотографуванні: рядки викривляються поблизу країв документа. У восьмій версії FineReader з'явилася функція, що дозволяє усунути подібні спотворення і збільшити, таким чином, якість розпізнавання.

І, напевно, одне з найбільш вагомих нововведень - підтримка технологій Intel Dual Core і Hyper-Threading, що дозволяє підвищити швидкість розпізнавання у фоновому режимі під час роботи на сучасних процесорах Intel.

до змісту Для тих, хто раніше не працював з FineReader

Установка ABBYY FineReader проста і досить стандартна. Вставте диск в дисковод, програма установки повинна запуститися автоматично.

Якщо піти по шляху вибіркової установки, то новачка може вразити кількість мов, доступних для розпізнавання. ABBYY FineReader 8.0 підтримує 179 мов розпізнавання, включаючи 36 мов з підтримкою словників. Користувачі, що не потребують розпізнаванні, наприклад, каталанского, естонського або, скажімо уйгурського мови, сміливо можуть залишити лише російська, англійська, німецька та французька мови. Кому-то, можливо, знадобиться італійську чи іспанську. Можна розпізнавати тексти, написані на формальних мовах, таких як мови програмування (Pascal, Basic, C / C ++), можна працювати з штучними мовами (есперанто, ідо, інтерлінгва). Загалом - є простір для вибору.

Процес установки дозволить вам випити чашечку чаю, навіть якщо у вас потужний і швидкий комп'ютер. Спочатку жорсткий диск буде активно працювати якийсь час, а потім вже піде зчитування даних з CD.

Після установки, запустивши програму, вона попросить у вас здійснити активацію програми. Найбільш простий і оперативний спосіб - здійснити активацію через Інтернет. У цьому випадку від вас не буде потрібно майже ніяких дій і не складе ніяких труднощів (зрозуміло, якщо програма придбана легально).

Після реєстрації вас також попросять провести ще одну активацію, яка дозволить працювати з програмою ABBYY Screenshot Reader, поставляються в складі FineReader 8.0. Про цю утиліту ми розповімо трохи пізніше.

Для тих, хто не знайомий з процесом сканування і розпізнавання документів, найбільш оптимальним варіантом буде скористатися допомогою «Майстра Scan & read», він крок за кроком проведе через всі етапи введення і розпізнавання даних, в залежності від вихідного документа і необхідного результату.

Якщо ви випадково прибрали «майстра», а як діяти далі не уявляєте, то досить просто натиснути на яскраву кнопку «Scan & Read», або на стрілочку праворуч від кнопки і вибрати потрібну дію.

Якщо у вас немає бажання вдаватися в подробиці сканування, то це все, що вам потрібно знати. Решта FineReader зробить за вас все сам. Програма, мабуть, як ніколи раніше дружня недосвідченому користувачу, і навіть при мінімумі знань про роботу сканера і відповідних додатків можна домогтися потрібних результатів. інтерфейс

Інтерфейс програми майже не змінився з часів шостої версії, але це і зрозуміло, функціональність і очевидність його досягла, мабуть, свого оптимуму ще в FineReader 6.0.

до змісту

Розпізнавання: крок за кроком

Більш досвідченим користувачам, які бажають тримати процес розпізнавання під своїм контролем, необхідно виконати 4 кроку.

Натисніть кнопку Сканувати (або Відкрити, в залежності від джерела), щоб почати сканування. Відкриється вікно програми сканування. У більшості випадків оптимальним дозволом буде 300dpi, режим сканування при цьому краще встановлювати, орієнтуючись на те, які елементи присутні в документі (тільки текст, текст з графіками або діаграмами, текст з ілюстраціями).

Для того, щоб відсканувати кілька сторінок поспіль, натисніть на стрілку праворуч від кнопки Сканувати, виберіть команду Опції ... і в діалозі Опції відзначте пункт Сканувати декілька сторінок. У багатосторінкових PDF- і TIFF-файлах можна відкрити тільки для частини сторінок, а тільки ті, що потрібні вам. Для цього вкажіть номери (або діапазони) сторінок, розділяючи їх комою, наприклад: 1,2,8-12.

Далі, зіскановані зображення (або зображення) необхідно розпізнати. Розпізнати можна як поточне зображення, так і всі зображення, введені в рамках даної сесії в програму зі сканера.

При цьому пам'ятайте, мову розпізнавання повинен відповідати мові, на якому написаний документ. Для багатомовних документів можна вказати кілька мов. Однак не рекомендується вибирати більш двох-трьох мов.

Користувачі, які бажають розпізнавати і працювати тільки з тими сегментами документа, які потрібні їм, можуть скористатися кнопкою «Аналіз макета сторінки». Наші читачі, які давно працюють з FineReader, цю кнопку знають більше як «Сегментування».

Перевірку можна здійснити вручну, користуючись вбудованим WYSIWYG-редактором, який забезпечує максимально точне відтворення всіх деталей оформлення документа: колонки тексту, таблиці та малюнки відображаються в редакторі точно так же, як вони були розташовані на вихідному зображенні. Це зручно: якість збереження форматування можна перевірити відразу, не чекаючи експорту документа в Microsoft Word або веб-браузер.

Також можна скористатися діалогом Перевірка, в якому показується слово з помилкою, його зображення на вихідному документі і варіанти заміни. При цьому слід враховувати, що підсвічуються і відображаються в діалозі «Перевірка» ті слова, в яких є невпевнено розпізнані символи, тобто такі, для яких оцінка впевненості найкращою гіпотези з усіх, висунутих системою, менше якогось заданого рівня. Зовсім не факт, що невпевнено розпізнані символи - помилкові.

Для того, щоб зберегти результати розпізнавання в файл, натисніть на стрілку праворуч від кнопки Зберегти та виберіть команду Зберегти сторінки ... розпізнаний текст можна зберегти в наступних форматах: RTF, DOC, Word XML, XLS, PDF, HTML, PPT, TXT, DBF, CSV, LIT.

Зрозуміло, можна передати розпізнаний документ відповідними програмами, щоб продовжити роботу з ним з використанням звичних інструментів.

Для кожного формату можна вибрати налаштування збереження. Вони знаходяться на відповідній закладці діалогу Формати (настройки формату PDF знаходяться на закладці PDF і т.д.). Для того щоб відкрити діалог Формати, натисніть на стрілку праворуч від кнопки Зберегти, виберіть команду Опції ... і в діалозі натисніть кнопку Формати ...

до змісту

Інтеграція FineReader в Microsoft Word

Інтеграція FineReader в Microsoft Word дозволяє обійтися без виклику «великого» FineReader, обмежившись лише спрощеним інтерфейсом. Це може бути досить зручно, коли ви точно знаєте, що за документ вам потрібно розпізнавати і подальша обробка буде більш раціональною в Word.

Виклик інтерфейсу здійснюється за допомогою помітною червоною кнопки, яка з'являється на панелі інструментів відразу після установки FineReader на комп'ютер.

До слова сказати, старий значок FineReader - якийсь техногенний очей (знайомий багатьом користувачам ще по четвертій версії FineReader) був куди більш стильним, на мій погляд, чим це «червоне щось», що з'явилося в FineReader 8.0.

швидкість розпізнавання

Читачів, які очікують побачити в даному розділі дані про збільшену в кілька разів швидкості розпізнавання, ми змушені засмутити. Заміри, проведені з секундоміром на швидкість розпізнавання ідеального (з точки зору програм розпізнавання) тексту, надрукованого на аркуші А4 лазерним принтером 12-им шрифтом, а також статті, надрукованій в газеті дрібним шрифтом з істёртимі в деяких місцях рядками, показали, що на сучасному комп'ютері швидкість розпізнавання в шостий і восьмий версіях майже однакова. Виграш в швидкості у FineReader 8.0 присутній, але назвати його приголомшливим не можна. Економія часу досягається в першу чергу за рахунок більш точного, а не більше швидкого розпізнавання, а також при розпізнаванні багатолистових документів. Тут FineReader 8.0 може допомогти заощадити корисні хвилини, які можна провести за іншим заняттям.

до змісту ABBYY Screenshot Reader

За допомогою ABBYY Screenshot Reader ви можете створювати «знімки» екрану і розпізнавати знаходяться на «знімках» текст і таблиці. Результати можна зберігати в файл, копіювати в буфер обміну або експортувати в Microsoft Word і Microsoft Excel.

Як ми вже говорили, для роботи з даною утилітою необхідно пройти активацію. Зроблено це, очевидно, в якості одного з елементів засобів захисту програми, але ось чи багато втратять люди, які не скористалися активацією в принципі, ми зараз спробуємо розібратися.

Говорячи простою мовою, ABBYY Screenshot Reader - програма, яка дозволяє розпізнавати текст з екрану комп'ютера. Для запуску ABBYY Screenshot Reader в меню Пуск виберіть Програми -> ABBYY FineReader 8.0 -> ABBYY Screenshot Reader.

Зовнішній вигляд програми простий і невигадливий

При натисканні на кнопку «Знімок» з'являється сітка захоплення, і якщо ви відзначили деяку область мишею, з'явиться наступне вікно:

Далі з'явиться вікно, в якому необхідно вказати мову розпізнавання скриншота і додаткові налаштування, в залежності від наявності або відсутності зображень в раніше виділеної області екрану.

Якість розпізнавання далеко від ідеального, але прийнятно для швидкої і термінової обробки документа, який з якихось причин неможливо зберегти в одному з поширених форматів.

Як приклад ми «захопили» частина інформації з html-сторінки, відкритої в браузері ...

... і перевели її в Word

як можна бачити, картинка, яка є також і посиланням, розпізнати некоректно.

При розпізнаванні «захопленої» області тексту з ілюстраціями також виявляються деякі недоліки.

Так, якщо текст розпізнається коректно і правильно (навіть якщо в слові допущена помилка, як, наприклад, зі словом «тработает»), то ілюстрації передаються з спотвореннями.

«Захоплення» і розпізнавання таблиць також не позбавлений недоліків. Результат перекладу таблиці, відображений браузером в html (ліворуч) можна подивитися на правій ілюстрації.

У загальному і цілому - все непогано і дещо спрощує завдання, якщо таблицю просто копіювати через буфер і потім обробляти. Шкода, що деякі прикрі огріхи розпізнавання кілька псують загальне враження. Так, перші 36 рядків в першому стовпці наполегливо перетворювалися в Excel як одна клітинка.

Утиліта досить цікава просто, тому що реалізує нові можливості. Реальне ж її застосування не є очевидним. Рідко коли потрібно розпізнавати дані, вже представлені в цифровому вигляді.

до змісту Висновки

Новий продукт (а, точніше, оновлений) ABBYY вийшов, як і раніше, - якісним і функціональним. Продуманий інтерфейс, велика кількість налаштувань і можливостей, дозволять користувачеві ефективно заощаджувати час, переводячи в цифровий вигляд різні джерела. Покращена робота з файлами формату PDF істотно розширює функціонал програми. Чи є резон переходити на FineReader 8.0, з більш ранніх версій? Якщо ваша робота не обмежується лише скануванням пари сторінок в місяць, а має на увазі інтенсивну роботу з документами, а також і з файлами в форматі PDF, то резон є, і він очевидний. Якщо для вирішення всіх ваших завдань вам вистачає чётвёртой або п'ятої версії, то, як то кажуть, «краще - ворог хорошого». Я свій вибір зробив, ABBYY FineReader 8.0 зайняв гідне місце в списку програм, які необхідно встановити в першу чергу, після чергового перевстановлення Windows :-)

При написанні статті використовувалися матеріали сайту ABBYY
Але чи багато в той час людей купували ліцензійні продукти?
А що CuneiForm?
Professional Edition?
З більш ранніх версій?

IRC-сервер - Irc.Online.com.ua

Огляд «інтелектуальної системи оптичного розпізнавання» - ABBYY FineReader 8 Professional Edition

Розпізнавання: крок за кроком

Інтеграція FineReader в Microsoft Word

швидкість розпізнавання