Программы для сканирования и распознавания. Samsung Scan OCR Program - что это за программа? В каких же случаях такой софт необходим

Программы для распознавания текста позволяют конвертировать сфотографированные или отсканированные документы непосредственно в предложения.

Дело в том, что текст на изображении представлен в виде растра, набора точек. Упомянутый софт осуществляет превращение набора точек в полноценный текст, доступный для редактирования и сохранения.

Распознавание букв призвано оптимизировать процесс оцифровки бумажных печатных или рукописных книг, документов.

Такой метод оцифровки на порядки превосходит скорость ручного набора с изображения. Широко применяется при оцифровке библиотек и архивов. Далее рассмотрим пятерку лучших представителей семейства подобных программ.

ABBYY FineReader 10

FineReader безоговорочный лидер среди всех программ, распознающих текст на изображении. В частности, софта, более четко обрабатывающего кириллицу нет. Вообще в активе FineReader 179 языков, текст на которых распознается чрезвычайно успешно.

Единственное обстоятельство, которое может разочаровать пользователей, состоит в том, что программа платная. Бесплатно распространяется только пробная версия на 15 дней. За этот период разрешено сканирование 50-ти страниц.

Дальше за пользование программой придется платить. FineReader легко «кушает» любое более-менее качественное изображение. Источник при этом совершенно неважен. Будь то фотография, скан страницы или любая картинка с буквами.

Достоинства:

  • точное распознавание;
  • огромное количество языков чтения;
  • толерантность к качеству изображения-источника.

Недостаток:

  • пробная версия на 15 дней.

OCR CuneiForm

Бесплатная программа для считывания текстовой информации с изображений. Точность распознавания на порядок ниже, чем у предыдущей рассматриваемой программы. Но как для бесплатной утилиты, функционал все-таки на высоте.

Интересно! CuneiForm распознает блоки текста, графические изображения и даже различные таблицы. Более того, считыванию поддаются даже неразлинованные таблицы.

Для обеспечения точности к процессу распознавания подключаются специальные словари, которые пополняют словарный запас из сканируемых документов.

Достоинства:

  • бесплатное распространение;
  • использование словарей для проверки правильности текста;
  • сканирование текста с ксерокопий плохого качества.

Недостатки:

WinScan2PDF

Это даже не полноценная программа, а утилита. Установка не потребуется, а исполнительный файл весит всего в несколько килобайт. Процесс распознавания происходит предельно быстро, правда, полученные в его результате документы сохраняются исключительно в формате PDF.

Фактически весь процесс выполняется при нажатии трех кнопок: выбор источника, места назначения и, собственно, запуска программы.

Утилита предназначена для быстрой пакетной обработки множества файлов. Для удобства пользователей предусмотрен большой языковой пакет интерфейса.

Достоинства:

  • портативность;
  • быстрая работа;
  • простота в использовании.

Недостатки:

  • минимальный размер;
  • единственный формат файлов на выходе.

SimpleOCR

Отличная небольшая программа для распознавания текстов с изображений. Поддерживает даже чтение рукописей. Беда в том, что русский не входит ни в языковой пакет интерфейса, ни в список поддерживаемых для распознавания языков.

Однако если необходимо отсканировать английский, датский или французский, то лучшего бесплатного варианта не найти.

В своей области программа обеспечивает точную расшифровку шрифтов, удаление шума и извлечение графических изображений. К тому же в интерфейс программы встроен текстовый редактор, практически идентичный WordPad, что значительно повышает удобство использования программы.

Достоинства:

  • точное распознавание текста;
  • удобный текстовый редактор;
  • удаление шума с изображения.

Недостатки:

  • полное отсутствие русского языка.

Freemore OCR

Программа позволяет оперативно извлекать текст и графику с изображений. Софт поддерживает работу с несколькими сканерами без потери производительности. Извлеченный текст может быть сохранен в формате текстового документа или документа MS Office.

Кроме того предусмотрена функция многостраничного распознавания.

Распространяется Freemore OCR бесплатно, однако, интерфейс только на английском. Но это обстоятельство никак не влияет на удобство пользования, потому как организованы элементы управления интуитивно понятным образом.

Достоинства:

  • бесплатное распространение;
  • возможность работы с несколькими сканерами;
  • достойна точность распознавания.

Недостатки

  • Отсутствие русского языка в интерфейсе;
  • Необходимость загрузки русского языкового пакета для распознавания.

Как только человек изобрел компьютер, он стал переносить в него свои знания. Поскольку главным носителем знаний до появления компьютерной техники были книги, возникла задача - каким образом накопленную информацию можно быстро перевести в "цифру"? Глупо было бы использовать для этого самый простой и очевидный способ перевода книг в цифровой формат - набор вручную. Человечество тысячелетиями накапливало различные тексты, поэтому процесс их повторного "написания" занял бы невероятно много времени. Для решения этой задачи необходимо было найти какой-то простой и эффективный способ автоматизации процесса повторного набора текста. Так возникли различные технологии оптического распознавания текста или сокращенно OCR (optical character recognition). В наши дни с процедурой перевода машинописного листа в текстовый документ знаком каждый студент и школьник. Печатный текст сканируется (или фотографируется), затем с помощью специального программного обеспечения компьютер анализирует снимок текста, выделяет на изображении отдельные элементы и создает новый документ, в который заносит все распознанные буквы и символы. Такой документ, как правило, является редактируемым, благодаря чему можно исправлять ошибки машинного распознавания и работать с ним как с набранным текстом. В зависимости от сложности исходного текста и качества отсканированного изображения, процесс обработки документа OCR-приложением занимает больше или меньше времени. К счастью, сегодня процедура перевода набранного текста в формат электронного документа занимает намного меньше времени, чем несколько лет назад - аппаратные возможности компьютеров за последние десять лет заметно увеличились, а благодаря постоянным усовершенствованиям алгоритмов анализа изображения процент ошибок стал намного меньше. Более того, теперь распознавание текста можно доверить даже онлайновым сервисам, преимущества которых перед обычными настольными приложениями очевидны - не нужно раскошеливаться на дорогостоящее ПО и тратить время на установку приложения. Наконец, используя для распознавания онлайновые средства, можно получить редактируемый текст из снимка даже на таких компьютерах, где просто нет возможности устанавливать программы, например, на публичном ПК в библиотеке.

⇡ FineReader Online

Начнем с онлайнового сервиса компании ABBYY. Нет ничего удивительного в том, что она использует в качестве системы для распознавания текста популярную программу FineReader. В рекламе этот продукт не нуждается - сегодня это приложение можно считать одним из лучших вариантов OCR.

Причин успешного продвижения этой программы очень много. Прежде всего, это отшлифованный алгоритм идентификации печатных символов. Движок самой популярной системы оптического распознавания текста, FineReader, совершенствовался годами, механизм анализа изображения улучшался от версии к версии. В программу вносились различные изменения и улучшения, которые уменьшали количество нераспознанных или некорректно определенных символов при обработке сканированного изображения. FineReader включает в себя множество средств и вспомогательных инструментов, которые дают возможность выполнить тонкую настройку программы, улучшить качество исходного изображения, определить тип распознаваемых символов, установить области для обработки и т.д. Онлайновый сервис является бесплатным проектом, который дает возможность пользователям оценить точность работы FineReader. Одно из его главных достоинств - поддержка большого количества определяемых языков (всего доступно 37 языков). Для того чтобы воспользоваться сервисом, необходимо пройти регистрацию. Поскольку этот проект носит отчасти рекламный характер, возможности распознавания текста в нем существенно ограничены. Во-первых, анализ изображения происходит в полностью автоматическом режиме. Пользователь может лишь указать язык распознавания и включить опцию, которая позволит получить ссылку на результат распознавания на введенный адрес электронной почты. Во-вторых, объем файла, загружаемого на сервер, не должен превышать 10 мегабайт. Но самое неприятное ограничение - небольшое количество документов, которое можно распознать. Зайдя под одной учетной записью, можно обработать не более десяти файлов. Однако и это, согласитесь, неплохо. FineReader Online может также обрабатывать тексты, содержащие любые комбинации поддерживаемых языков. При этом сервис не позволяет выбирать более трех языков распознавания для одного документа. Разработчики мотивируют это тем, что подобная функция существенно замедлила бы процесс распознавания текста. Готовый результат распознавания текста может быть сохранен в один из форматов - MS Word (.doc), MS Excel (.xls), PDF, PDF/A, RTF и TXT. В принципе, сервис справляется с поставленной задачей и определяет текст. Однако, справедливости ради, следует сказать, что даже очень хорошее качество исходного изображения не дает стопроцентной гарантии распознавания. Даже такое "идеальное" изображение, как скриншот всплывающей подсказки на странице сервиса, FineReader Online распознал с ошибками.

⇡ ocrNow!

ocrNow! - британский сервис, который также использует в качестве системы для распознавания текста FineReader. Уже на этапе регистрации можно выбрать формат, в котором по умолчанию будут сохранены данные - RTF, PDF, XLS, XLM, TXT или Web Archive. Изменить формат можно при загрузке каждого нового файла. Кроме этого, есть возможность получить текст по почте. Стоит отметить, что результаты могут быть запакованы в ZIP-архив, благодаря чему время на загрузку полученного файла сократится. Сервис поддерживает загрузку изображений в форматах TIF, PNG и JPG (JPEG), а также PDF. Кроме этого, можно загрузить ZIP-архивы, содержащие файлы поддерживаемых типов, и они будут распакованы и обработаны автоматически. ZIP-архив удобен не только тем, что позволяет уменьшить размер файлов, которые необходимо загрузить на сервер, но и тем, что благодаря ему можно загрузить несколько файлов за один раз.

OcrNow! работает с шестнадцатью языками, в том числе с документами на русском английском, французском, чешском, испанском, итальянском. Выбор языка осуществляется при загрузке файла. Даже если не указать язык, сервис попытается определить его автоматически, правда, не исключено, что он ошибется, поэтому лучше все же выбрать язык вручную. Стоит заметить, что выбрать можно лишь один язык. Каждому зарегистрированному пользователю предоставляется два бесплатных кредита, которые можно использовать для распознавания двух страниц формата A4. Если необходимо работать с бо льшим количеством данных, необходимо купить кредиты. Их стоимость зависит от того, сколько кредитов вы решите приобрести за один раз. Например, если купить 20 кредитов, то распознавание одного листа A4 обойдется в 0,1 фунта стерлингов (около 4,6 рубля), а если приобрести сразу 500, то стоимость распознавания одного листа снизится примерно до 2,96 рубля. Создатели сервиса предлагают специальную утилиту , позволяющую использовать его совместно с Apple iPhone. При помощи этой программы можно фотографировать документы, а затем отсылать их на сервис и получать результаты. Бесплатная версия этой программы дает возможность обработать десять фотографий, а коммерческий вариант, снимающий это ограничение, обойдется в 14 долл.

Пользователям, которые часто обращаются к услугам сервиса со своего настольного компьютера, предлагается скачать утилиту Unimessage Solo, предназначенную для сканирования файлов. Особенность этой программы в том, что в ней реализована интеграция с сервисом ocrNow! Кроме этого, созданные с ее помощью файлы можно загрузить на Facebook.

⇡ OnlineOCR.ru

Данный сервис является коммерческим. Для работы с ним необходимо приобретать кредиты, каждый кредит - возможность распознавания одной страницы документа. Однако даже в демонстрационном режиме с его помощью можно переводить небольшие фрагменты текста. Сервис предлагает очень удобную загрузку файлов - на сервер можно загружать одновременно несколько изображений, упаковав их в ZIP-архив. Максимальный размер файла - 20 мегабайт, но можно использовать и файлы большего размера, однако для получения такой возможности необходимо связаться с администрацией сервиса. В качестве исходного формата графического файла можно использовать TIFF (поддерживаются в том числе и многостраничные документы), JPEG/JPG, BMP, PCX, PNG, GIF, PDF.

Если с помощью данного сервиса распознается многостраничный документ, например, PDF, можно указать только отдельные страницы для распознавания. Для этого в настройках распознавания необходимо установить флажок напротив "Многостраничный документ" и в поле для диапазона страниц указать необходимые страницы через запятую (или диапазон страниц через дефис). Если указать, скажем "4,13", сервис распознает только четвертую и тринадцатую страницы. В демонстрационном режиме сервис OnlineOCR.ru распознаёт не весь текст, а только его часть. Всего сервис поддерживает 28 языков, включая русский, английский, белорусский, венгерский, голландский, греческий, датский, испанский, латвийский, латинский, немецкий, польский, шведский, финский, французский, украинский и др. Сервис позволяет хранить файлы с результатом распознавания в виртуальном рабочем кабинете online, редактировать, отправлять их по почте и выводить на печать.

⇡ NewOCR.com

Проект NewOCR.com не требует ни регистрации, ни дополнительных денежных трат со стороны пользователя. Сервис имеет минималистический интерфейс, и его настройки сводятся к выбору языка. Если загруженное изображение имеет неправильную ориентацию, например, повернуто в процессе сканирования на 90 градусов, в выпадающем меню сервиса можно установить угол поворота картинки. Качество обработки графического файла оставляет желать лучшего - конечный документ содержит многочисленные ошибки распознавания, поэтому вряд ли стоит использовать этот сервис для обработки большого числа страниц. Этот недостаток несколько смягчает то обстоятельство, что проект поддерживает работу с 29 языками (включая русский).

Распознавать можно изображения в форматах JPEG, PNG, GIF, BMP, а также многостраничные файлы TIFF. Размер файлов не должен превышать пять мегабайт, а для многостраничных PDF-документов лимит составляет 20 мегабайт. После обработки отсканированного изображения сервис продемонстрирует результат в отдельном поле, рядом с копией загруженного изображения. Распознанный текст можно экспортировать в формат.doc или.txt.

⇡ Free-OCR.com

Этот сервис можно использовать бесплатно, причем регистрация не требуется. Для защиты от спама используется контрольное изображение (Captcha). Однако, выбрав этот сервис для обработки своих файлов, следует учитывать ограничения, которые касаются обрабатываемых изображений. Так, размер загружаемых на сервер файлов ограничен двумя мегабайтами. Еще одно ограничение сервиса, которое касается загружаемых файлов, - разрешение каждого из графических изображений не должно превышать 5000 точек по ширине. Кроме этого, Free-OCR.com устанавливает лимит на количество обработанных документов. В час можно загрузить не более десяти изображений.

На данный момент сервис не умеет распознавать многостраничные документы PDF или TIFF, поэтому при обработке таких файлов распознается только первая страница. Сервис позволяет обрабатывать страницы с многочисленными столбцами текста. В настройках Free-OCR.com нельзя выбрать более одного языка, поэтому, если попробовать распознать, например, русский текст с английскими терминами, ошибок будет предостаточно. Общее количество поддерживаемых языков, которые можно выбирать для распознавания, довольно много - двадцать девять, в том числе и русский. Качество распознавания документов удовлетворительное.

⇡ Заключение

Далеко не все услуги онлайновых сервисов для распознавания текста предоставляются бесплатно. Однако цена, которую просят их создатели, заметно ниже стоимости специализированного ПО. Естественно, если вам необходимо распознавать десятки документов ежедневно, то платить создателям онлайнового сервиса для вас вряд ли будет выгодно - гораздо дешевле будет один раз заплатить за лицензию программы. Но если вы пользуетесь подобными средствами лишь время от времени, то проще заплатить за распознавание необходимого числа страниц или попытаться обойтись полностью бесплатными сервисами.

Foxit’s Maestro Server OCR converts paper and scanned documents into searchable PDF files. Engineered for automated, high-volume document scanning & OCR needs, Maestro replaces manual document processes with fast, cost-efficient operations.

Maestro automates the OCR process by converting any document as it enters a watched folder according to configurable settings chosen by the user. Beyond OCR automation, Maestro incorporates unlimited multi-threading and batch OCR to accommodate high-volume scanning, up to billions of pages per year to make Maestro a robust enterprise OCR software solution.

Maestro is designed for high OCR accuracy, speed, and simplicity. The software delivers highly accurate text recognition rates by utilizing in-house PDF expertise as well as a proprietary voting OCR engine. Further, Maestro can process up to 6,000 pages per hour per core (on average) to handle the highest volume environments while accelerating business processes and improving labor productivity. It is a flexible OCR solution which integrates easily into existing document imaging workflows while providing multiple workflow accessibility, allowing users to perform many image processing functions beyond OCR.

Server OCR Use Cases

Convert Scanned Documents to Searchable PDF

Generate searchable PDF assets from paper and image documents from a scanner, fax, or MFP that can be utilized more effectively in your systems and workflows.

Enable Insights and Automation

Maestro provides high OCR accuracy to reduce errors and automatically create great data to feed into your RPA, document indexing, and big data analytics systems.

Improve Employee Productivity with Faster Information Search

Replace costly, manual information hunting with simple, instant keyword search using Optical Character Recognition software.

Enable Compliance with Regulatory Submission Requirements

Regulated environments often require full text-searchable PDF submission, such as when applying for NDAs to the FDA in the life sciences space.

Create More Accessible Documents

Screen readers and other assistive technologies require text layer data to function properly. Create more accessible documents with automated OCR.

Optimize Document Archiving and Mitigate Legal Exposure

Comply with records retention requirements by converting TIFFs, JPGs, BMPs, and paper to digital, ISO-certified PDF/A documents.

Maestro Server OCR Software Features

OCR Software for Highly Efficient Document Scanning, Storage and Retrieval

Enterprises, government agencies, and growing organizations utilize Maestro Server OCR to reliably and efficiently convert their scanned paper and image documents to text searchable PDF files. Maestro combines image pre-processing and a proprietary voting OCR engine to deliver high text recognition accuracy out of the box, substantially reducing errors compared to manual document processing from human error.

In addition, the OCR software utilizes automation and multiple high-volume processing capabilities to streamline document scanning, storage, and archiving workflows even at an enterprise scale. Faster OCR pushes documents through business processes faster, facilitating shorter response times to customers, better CSAT, and places your organization in a better position to generate new revenue as a result.

OCR Accuracy, Reliability in Maestro Server OCR

Highly accurate OCR can replace hours spent manually searching for critical information with a simple, instant keyword search. The OCR engine within Maestro is one of the most accurate OCR products available. Maestro"s OCR recognizes difficult text often missed by competing products, including text within low resolution captured documents, documents containing multi-directional text, and documents containing low-contrast color text.

More accurate OCR results translate into greater efficiency in indexing, searching for, and working with scanned documents. It also enables more accurate data extraction, data mining for big data applications, and more efficient employees. With Maestro, users are able to instantly locate a single word within a multi-page document that may contain 1 or 1,000 pages; this is analogous to finding the needle in a haystack.

Image Processing

Maestro Server OCR also offers advanced image processing capabilities. With Maestro, images can be de-skewed & de-speckled for enhanced document quality. Maestro also supports IP features including auto-rotation, auto color inversion, auto-cropping, and color re-sampling. Maestro"s robust image processing functionality provides enhanced image quality prior to processing with highly accurate OCR.

Advanced PDF Control

Maestro Server OCR provides superior PDF control including: PDF linearization, advanced security, PDF/A compliance, metadata insertion, PDF display control, Bates stamping, and headers & footers. Maestro can output a linearized PDF for fast web view, allowing users to view a specified page within the PDF immediately while the rest of the document loads in the background. Maestro also provides advanced security functionality, including options for edit-protection, print-protection, and read-protection. With Maestro, users can reliably archive their documents with PDF/A compliance.

OCR Software Feature Summary

Intel Pentium Processor or compatible 2.0 GHz and higher

Cores

At least 2 cores is recommended

RAM

1GB RAM per core (At least 2GB per core is recommended)

OS

Windows 10 / 8.1 / 8 / 7 / 2012 / 2008

Linux Users

Run Windows emulation using VirtualBox 3 or later (VirtualBox is freeware)

Mac Users

The following are two methods in which you can run Foxit software on a Mac:

  • Mac OS X running on an emulation (VM Fusion 2.0) of Windows
  • Mac running on a Windows Operating System (directly or using Bootcamp)

Необходимость работы с текстом, представленным в виде графических файлов, появляется довольно часто. Будь то картинка, отсканированный документ или фотокопия, ручной набор информации, представленной в них, может занять довольно продолжительное время.

Обзор программ

Программ для этой цели существует большое количество. Для начала работы с ними достаточно иметь изображение или отсканированный документ, который нужно перевести в текст. Большинство из них похожи своими функциями, но в то же время обладают и уникальными инструментами, подходящими для конкретных целей. Как не потеряться в их разнообразии, и на какие из них стоит обратить свое внимание? Это мы рассмотрим далее.

CuneiForm

Первой и программ, на которой мы остановимся, является CuneiForm. Это свободно распространяемый софт от компании Cognitive Technologies. Его основное предназначение – оптическое распознавание текстов, представленных в виде электронных копий или картинок. Он быстро переводит графический файл в текст, с которым можно работать в любом офисном приложении.

Основные особенности программы:


F reemore OCR

Подобной по своим функциям является и Freemore OCR. Это простая и находящаяся в свободном доступе программа, с помощью которой можно извлечь текст из изображений в разных форматах и PDF документов. После завершения сканирования полученный результат можно сохранить в файле, который открывается блокнотом или Word.

Freemore OCR – это:


Обратите внимание! Работа подобных приложений с документами в формате PDF может занимать больше времени, чем с обычным графическим файлом, что объясняется большим объемом исходного материала.

FreeOCR

FreeOCR – еще одно удобное приложение для оптического распознавания текста. Обладает интуитивно понятным интерфейсом и содержит набор всех необходимых для этого инструментов. Стоит заметить, что меню программы на английском языке, но благодаря необычному подходу к его дизайну, оно понятно каждому пользователю. Утилита поддерживает работу с множеством изображений в разных форматах и PDF-файлами.

Особенности FreeOCR:

  1. возможность конвертации изображений во всех популярных форматах;
  2. отсутствие стандартного меню, вместо которого пользователю предлагаются большие иконки с изображением нужного действия;
  3. минималистичность интерфейса, в котором сохранено только самое необходимое;
  4. поддержка распознавания множества языков, в том числе и русского;
  5. низкие системные требования.

Важно! Для установки FreeOCR необходимо подключение к сети Интернет. После запуска программа в автоматическом режиме обновит свою базу данных и скачает недостающие словари из онлайн-хранилища. Во время работы, при обнаружении незнакомых символов или языка, FreeOCR также может предложить обновление.

Видео: распознаем текст с картинки

SimpleOCR

SimpleOCR – аналогичная программа для распознавания текста после сканирования. Она отлично подходит для работы с иностранными языками, так как обладает большим и постоянно совершенствующимся словарем. Помимо стандартного набора функций, обладает возможностью поиска слова или сочетания в полученном тексте и расширенными опциями форматирования. Хорошо подходит для обработки объемных текстов.

Отличительные черты SimpleOCR:


RiDoc

RiDoc – приложение, основной функцией которого является работа с отсканированными копиями документов и их конвертации в обычный текст. В нем все готово для сканирования – достаточно подключить принтер и начать работу, после чего программа начнет обработку выбранных файлов.

Кроме этого, оно позволяет уменьшить размер документа без потери качества исходного материала. Функции RiDoc:

  1. большой набор инструментов для работы с принтерами, поддержка большинства популярных моделей;
  2. возможность объединения нескольких документов в один файл, их редактирование и компоновка;
  3. создание галереи, в которой хранятся все полученные результаты;
  4. экспорт в MS Word, PDF и графические файлы;
  5. отправка результата по электронной почте прямо из интерфейса приложения;
  6. создание водяных знаков, защищающих полученный результат;
  7. быстрота и удобство.

img2txt

img2txt – стандартное приложение, преобразующее различные виды графических файлов в текстовый материал. Программа поддерживает большинство известных форматов, легка в использовании и находится в свободном доступе.

Основные функции и особенности:

  1. конвертация изображений в разных форматах в текстовые файлы;
  2. распознавание сканов документов и фрагментов текста на картинках;
  3. предельно простое меню, содержащее достаточный набор инструментов;
  4. сохранение результата в различных форматах;
  5. бесплатность распространения.

Обратите внимание! img2txt, как и другие подобные приложения, имеет свою онлайн-версию, на разработке и улучшении которой сейчас сосредоточили свое внимание ее создатели.

SunnyPage

SunnyPage – удобная утилита, позволяющая загружать и конвертировать различные виды изображений, будь то отсканированная копия документа, картинка или же фото в хорошем качестве. Поддерживает она и работу с PDF-документами. В состав программы входит обширный словарь и функция автоматического распознавания языка.

Помимо этого, SunnyPage:

  1. поддерживает загрузку дополнительных словарей и ручное добавление новых слов и фраз;
  2. работает с большими объемами с возможностью их сохранения в единый файл;
  3. обладает набором функций для редактирования изображения, автоматической настройки их яркости и избавления от дефектов;
  4. «читает» большинство известных форматов;
  5. позволяет сохранять полученный результат в файл Word;
  6. обладает многоязычным интерфейсом.

Программа для сканирования и распознавания текста Abbyy Finereader

ABBYY FineReader – заслуженно лучшая в своем роде программа для распознавания текста. Ее популярность обусловлена наличием всех необходимых функций, которые пользователь ищет в подобных приложениях. Она полностью совместима с Microsoft Office, что позволяет начать работу с документом сразу поле окончания процесса конвертации.

Что может ABBYY FineReader?


Capture2Text

Capture2Text – портативное приложение, обладающее большим набором функций для работы с документами. Его отличительной особенностью является возможность создания снимка экрана или его части и сохранение в виде изображения. После этого можно приступать к работе, перенося полученную информацию в документ традиционных форматов.

Capture2Text не требует установки и может запускаться с флеш-накопителя. Это делает ее применимой во многих сферах и просто незаменимой для тех, кому всегда необходимо иметь под рукой простой и мощный конвертер.

Capture2Text обладает множеством интересных функций:

  • стандартной конвертацией изображений (картинок, сканов, фотокопий) в документы формата Word;
  • распознавание речи (в том числе и русской) и голосовой набор;
  • возможность назначения горячих клавиш;
  • захват текста с рабочего стола или его части и последующей обработкой.

Google Документы

Помимо всех вышеперечисленных утилит, функция оптического распознавания текстовых фрагментов присутствует в Google Документах. Данный сервис поддерживает работу как с файлами в форматах JPG, PNG и GIF, так и многостраничными PDF –документами. Исходниками могут служить изображения, полученные с помощью сканеров, а также обычные фотографии.

Стоит заметить, что при использовании данного сервиса, в результате не всегда сохраняется оригинальное форматирование. Некоторые структуры, как, например, списки, колонки и сноски, могут быть утеряны.

На это в значительной степени влияет качество загружаемого графического файла. Полученные документы могут быть сохранены на сервисе Google Диск, затем скачаны на компьютер или отосланы на электронную почту.

Каждая из рассмотренных программ обладает достаточным инструментарием для выполнения своего первоначального предназначения – конвертации файлов различных форматов в текстовые документы. Однако они отличаются своим набором дополнительных функций, интерфейсом и поддерживаемыми языками. Для работы стоит выбрать то приложение (или несколько), которое отвечает вашим нуждам и способно наиболее точно справиться с поставленной задачей.

>

22

Будет ли программное обеспечение OCR надежно переводить изображение, например, в список значений?

Более подробно задача заключается в следующем:

У нас есть клиентское приложение, в котором пользователь может открыть отчет. Этот отчет содержит таблицу значений. Но не каждый отчет выглядит одинаково - разные шрифты, разные интервалы, разные цвета, может быть, отчет содержит много таблиц с различным количеством строк/столбцов...

Пользователь выбирает область отчета, содержащую таблицу, Использование мыши.

Теперь мы хотим преобразовать выбранную таблицу в значения - используя наш инструмент OCR.

В то время, когда пользователь выбирает прямоугольную область, я могу запросить дополнительную информацию, чтобы помочь с процессом OCR, и попросить подтверждения, что значения были правильно распознаны.

Первоначально он будет экспериментальным проектом и, следовательно, скорее всего с инструментом OCR OpenSource - или, по крайней мере, одним, который не стоит денег для экспериментальных целей.

  • 7 ответов
  • Сортировка:

    Активность

18

Простой ответ: ДА, вы должны просто выбрать нужные инструменты.

Я не знаю, может ли с открытым исходным кодом приблизиться к 100% точности на этих изображениях, но на основе ответов здесь, вероятно, да, если вы потратите некоторое время на обучение и решите проблему анализа таблицы и тому подобное.

Когда мы говорим о коммерческом OCR, таком как ABBYY или другом, он предоставит вам 99% + точность из коробки, и он автоматически обнаружит таблицы. Нет обучения, ничего, просто работает.Недостатком является то, что вы должны заплатить за него $$. Кто-то возразил бы, что для открытого источника вы платите свое время, чтобы настроить его и приложить, но все решают для себя здесь.

Однако, если мы говорим о коммерческих инструментах, на самом деле есть выбор. И это зависит от того, чего вы хотите. Изделия в штучной упаковке, такие как FineReader, на самом деле нацелены на преобразование входных документов в редактируемые документы, такие как Word или Excell. Поскольку вы действительно хотите получать данные, а не документ Word, вам может потребоваться изучить другую категорию продукта - Data Capture, которая по существу является OCR и дополнительной логикой для поиска необходимых данных на странице. В случае счета-фактуры это может быть название компании, общая сумма, дата погашения, статьи в таблице и т. Д.

Сбор данных сложный вопрос и требует некоторого обучения, но при правильном использовании может обеспечить гарантированную точность при захвате данных из документы. Он использует разные правила для перекрестной проверки данных, поиска в базе данных и т. Д. При необходимости он может отправлять данные для ручной проверки. Предприятия широко используют приложения Data Capture для ввода миллионов документов каждый месяц и в значительной степени полагаются на данные, извлеченные в их каждодневном рабочем процессе.

И есть также OCR SDK, который даст вам доступ к API для результатов распознавания, и вы сможете запрограммировать, что делать с данными.

Если вы более подробно описываете свою задачу, я могу предоставить вам советы, в каком направлении легче идти.

UPDATE

Так что вы делаете это в основном приложение Сбор данных, но не полностью автоматизирован, используя так называемый «нажмите на индекс» подход. На рынке существует множество приложений: вы просматриваете изображения и клики оператора на текст на изображении (или рисуете прямоугольник вокруг него), а затем заполняете поля в базу данных. Это хороший подход, когда количество изображений для обработки относительно невелико, а ручная рабочая нагрузка недостаточно велика, чтобы оправдать стоимость полностью автоматизированного приложения (да, есть полностью автоматизированные системы, которые могут делать изображения с разными шрифтами, интервалом, макетом, количеством строки в таблицах и т. д.).

Если вы решили развить материал и вместо того, чтобы покупать, то все, что вам нужно, это выбрать OCR SDK. Весь пользовательский интерфейс, который вы собираетесь написать сами, не так ли? Большой выбор - решить: с открытым исходным кодом или коммерческий.

Лучший открытый источник - это Tesseract OCR, насколько я знаю. Это бесплатно, но может иметь реальные проблемы с анализом таблицы, но с ручным зонированием это не должно быть проблемой. Что касается точности OCR - люди часто обучают OCR шрифту, чтобы повысить точность, но это не должно быть для вас, поскольку шрифты могут быть разными. Поэтому вы можете просто попробовать tesseract и посмотреть, какую точность вы получите - это повлияет на количество ручной работы, чтобы исправить это.

Commercial OCR даст более высокую точность, но будет стоить вам денег. Я думаю, вы все равно должны посмотреть, стоит ли это, или tesserack достаточно для вас. Я думаю, что самым простым способом было бы загрузить пробную версию какого-либо окна OCR prouct, например FineReader. Вы поймете, какая точность будет в OCR SDK.

5

О каком OCR вы говорите?
Будете ли вы разрабатывать коды на основе этого OCR или вы будете что-то использовать с полок?

он реализовал документ чтения исполняемого файла, так что вы можете кормить целую страницу в, и он будет извлекать символы для вас. Он довольно хорошо распознает пробелы, он может помочь с интервалом табуляции.

0

Привет Gary , да, я уже начал смотреть на Tesseract, но после первых двух экспериментов не повезло. Для примера растрового изображения, которое я отправил с вопросом, получаю результат «Пустая страница». Но, может быть, мне просто нужно указать правильные параметры? - GarethOwen 30 май. 11 2011-05-30 07:39:55

1

Я использую OCR для своих исследований уже несколько лет. Я почти никогда не получаю пустую страницу, если я ее не поставлю. Тем не менее, иногда я получаю их, потому что 1) binerization @ tesseract отфильтровывает большую часть ценной информации 2) даже после хорошей бинеризации, символы не могут быть распознаны, потому что a) между интервалами между символами слишком мал (символы слишком плотно собраны). б) персонажи не то, что Тессерак использовал для обучения Для 2а, попробовали ли вы увеличить изображение, чтобы сказать 400%% исходного изображения? Мне повезло с этим! - Gary Tsui 30 май. 11 2011-05-30 07:44:43

0

+1: Я удалил белые линии из своего тестового изображения, увеличен на 400%, а затем Tesseract сделал 100% точное распознавание второго столбца значений (первое значение игнорируется). Выглядит многообещающе, но мне нужно сделать еще несколько экспериментов. - GarethOwen 30 май. 11 2011-05-30 08:15:41

3

Это действительно зависит от реализации.

Есть несколько параметров, которые влияют на способность OCR распознавать:
1. Насколько хорошо OCR обучен - размер и качество базы данных примеров
2. Как хорошо обучаются для обнаружения «мусора» (кроме того, зная, что такое письмо, вам нужно знать, что НЕ является буквой).
3. Конструкция и тип OCR
4. Если это Nerural Network, структура Nerural Network влияет на ее способность учиться и «решать».

Итак, если вы не делаете свой собственный, это просто вопрос тестирования разных видов, пока вы не найдете тот, который подходит.

15

Если у вас всегда есть твердые границы в вашей таблице, вы можете попробовать это решение:

Else документ есть без полей таблицы, вы можете попробовать следовать этой линии:

оптического распознавания символов является довольно удивительные вещи, но это ISN» t всегда совершенен. Чтобы получить наилучшие результаты, вы можете использовать самый чистый вход. В моих первоначальных экспериментах я обнаружил, что, выполняющий OCR на весь документ, действительно работал довольно хорошо, как, когда я удалил границы ячеек (длинная горизонтальная и вертикальная линии). Однако программное обеспечение сжимало все пробелы в пустое пространство. Поскольку в моих входных документах было несколько столбцов с несколькими словами в каждом столбце, границы ячеек терялись. Сохранение отношения между ячейками было очень важным, поэтому одним из возможных решений было нарисовать уникальный символ, например «^» на каждой границе ячейки - то, что OCR все равно распознает и что я может использовать позже, чтобы разделить полученные строки,

Я нашел всю эту информацию в этой ссылке, прося Google «OCR to table». Автор опубликовал a full algorithm using Python and Tesseract , оба решения с открытым исходным кодом!

Если вы хотите попробовать власть Тессеракта, может быть, вы должны попробовать этот сайт:

Мы также боролись с проблемой распознавания текста в таблицах. Есть два решения, которые делают это из коробки, ABBYY Recognition Server и ABBYY FlexiCapture. Rec Server - это серверный инструмент OCR с большим объемом, предназначенный для преобразования больших объемов документов в формат, доступный для поиска. Хотя он доступен с API для этих видов использования, мы рекомендуем FlexiCapture. FlexiCapture обеспечивает низкий уровень контроля над извлечением данных из форматов таблицы, включая автоматическое обнаружение элементов таблицы на странице. Он доступен в полной версии API без переднего конца или в оффшорной версии, которую мы продаем. Подойдите ко мне, если хотите узнать больше.

3

Я был OCR"ing отсканированных документов с "98.Это повторяющаяся проблема для отсканированных документов, особенно для тех, которые включают повернутые и/или перекошенные страницы.

Да, существует несколько хороших коммерческих систем, и некоторые из них могут обеспечить, когда-то хорошо настроенную, потрясающую скорость передачи данных, запрашивая помощь оператора только для тех самых деградированных полей. Если бы я был вами, я бы опирался на некоторые из них.

Если коммерческий выбор угрожает вашему бюджету, OSS может протянуть руку. Но «нет бесплатного обеда». Таким образом, вам придется полагаться на кучу специально разработанных сценариев, чтобы поднять доступное решение для обработки вашей документации. К счастью, вы не одиноки. Фактически, за последние десятилетия многие люди сталкивались с этим. Так, ИМХО, лучший и краткий ответ на этот вопрос не предусмотрено настоящей статьей:

  • Сергей Савенков

    какой то “куцый” обзор… как будто спешили куда то