Главная » Программное обеспечение » ABBYY FlexiCapture для потокового сканирования
Окт
04

Предназначен для потокового ввода и обработки любых шаблонов документов, а также извлечения из них необходимой информации.

Объем документов: средний, большой, очень большой (для любого объема).

Результат работы хранится в форматах: форматы сохранения данных (XML, XLS, DBF, CSV, TXT) и изображений (TIFF, JPEG, JPEG 2000, PDF, PDF/A, PCX, BMP, PNG).


Программа подразумевает работу в несколько этапов:

  • Подготовительный этап – установка системы и настройка шаблонов для обработки документов
  • Стадия обработки (сканирование, распознавание, верификация, экспорт) – непосредственная обработка документов

 

За разные стадии обычно отвечают разные пользователи – администратор и операторы.


ABBYY FlexiCapture состоит из компонент:
  • Станция настройки
  • Станция сканирования
  • Станция верификации данных
  • Станция верификации
  • Станция администрирования и мониторинга
  • Удаленная станция сканирования
  • Удаленная станция верификации данных
  • Консоль удаленного администрирования и мониторинга


Администратор осуществляет настройку процесса потокового ввода данных, подготовку шаблонов документов, также осуществляет предварительное тестирование. На данном этапе осуществляется задание правил обработки, подготовка обрабатываемых шаблонов/бланков.

 

В администрирование входят модули:

  • ABBYY FormDesigner (Дизайнер форм) – модуль для создания и тиражирования бланков, можно самостоятельно создавать формы шаблонов в формате PDF.
  • ABBYY FlexiLayout Studio –инструмент для создания гибких описаний для документов с нежесткой структурой, позволяет системе извлекать из документов с нежесткой структурой необходимые данные, как то: текстовые строки, штрих-коды, даты, валютные символы, числа, разделители, таблицы.
  • Document Definition Editor (Редактор шаблонов документов) – специальный модуль для создания шаблонов для любого типа документов. Позволяет указывать, какие данные необходимо извлечь и как их следует детектировать на документах, распознавать, проверять, верифицировать и экспортировать.

 

Оператор осуществляет ввод и обработку данных, сканирование документов, распознавание, верификацию, экспорт.


Система покрывает этапы общего ЖЦ:
  • Сканирование
  • Распознавание
  • Верификация
  • Экспорт информации

 


Этап сканирования

 

Поскольку ABBYY FlexiCapture способна самостоятельно классифицировать поступающие документы, у пользователя нет необходимости предварительно сортировать страницы или вручную добавлять страницы-разделители. Пользователи могут задавать сценарии для потокового ввода, предусматривающие повторяющиеся страницы или нефиксированный порядок страниц в документе. Поддерживается технология чтения штрих-кодов.

 

Документы сканируются в соответствии с настроенными шаблонами документов. Формы шаблонов документов могут быть предусмотрены для любых типов документов:

  • Формы с жесткой структурой/структурированные документы: анкеты, экзаменационные тесты, бланки, страховые формы, запросы на выплату медицинской страховки, налоговые декларации и т.п.
  • Слабоструктурированные документы: счета, заказы на покупку, транспортные накладные и т.п.
  • Неструктурированные документы: письма, контракты, статьи и т.п.

 

Описание шаблонов документов и всех соответствующих настроек осуществляет администратор.

 

Система поддерживает удаленные станции сканирования. Удаленные станции сканирования позволяют отправлять отсканированные документы на обработку через HTTP-протокол.

 

Бумажные документы могут быть импортированы в программу при помощи сканирующего устройства (сканера или МФУ), поддерживающего протокол сканирования TWAIN или ISIS.


Этап распознавания

 

В качестве источника информации могут выступать как отсканированные документы, так и документы, помещенные для обработки в  папку или в «горячую папку».

 

Поддерживаемые графические форматы: PDF, BMP, PCX, PNG, JPEG, JPEG 2000, DjVu и TIFF, DCX.

 

Документы всех типов идентифицируются и обрабатываются автоматически без использования каких-либо дополнительных модулей или другого программного обеспечения.

 

Поддерживает технологии распознавания рукопечатных символов (ICR) для более чем 100 языков и печатных символов (OCR) для более чем 187 языков. Содержит технологию распознавания штрих – кодов (поддерживаются типы 1D и 2D).

 

Поддерживается экспорт в формат PDF с возможностью полнотекстового поиска.


Этап распознавания включает в себя:

  • Предварительная обработка изображений – корректировка ориентации страниц, инвертированию, удалению перекосов и шума.
  • Автоматическая классификация документов – наложение существующих шаблонов на импортируемые документы. Для идентификации различных типов документов в обрабатываемом потоке используется технология интеллектуального распознавания документов (IDR, Intelligent Document Recognition) и технология FlexiCapture (обе – собственные разработки ABBYY).
  • Извлечение данных и текста – извлечение на основании наложенных шаблонов необходимых полей
  • Автоматический контроль данных – на основании заданных администратором правил контроля, включает в себя проверку формата чисел и дат, проверку по базе данных, проверку сумм, замену значений из списка, нормализацию дат и цен.

 

Стадии распознавания выполняются автоматически.


Этап верификации

 

Когда распознавание закончено, каждому символу присваивается статус:

  • «надежно распознанный»
  • «ненадежно распознанный»
  • «нераспознанный»

 

Последние два статуса означают, что оператору необходимо подтвердить гипотезу системы или внести исправления.

 

Этот этап требует больше ручного труда, чем остальные. Для ускорения и упрощения процесса верификации в ABBYY FlexiCapture встроен специальный верификационный интерфейс, которые предлагает три режима работы: групповая верификация (больше всего подходит для проверки меток и цифр), верификация полей (для проверки текстовых полей) и верификация в окне “Документ” (для корректировки правил).

 

Этап отвечает за проверку и  редактирование результатов распознавания.

 

Проверка результатов распознавания включает:

  • Контекстная верификация
  • Проверка выполнения одностраничных правил
  • Сборка документов пакета
  • Проверка выполнения многостраничных правил
  • Обработка сообщений правил контроля

 

Система поддерживает удаленные станции верификации. Позволяет распределить задачи между операторами, которые работают из дома или находятся в другом удаленном от офиса месте. Также позволяет осуществлять мониторинг производительности удаленных и локальных станций осуществляется с общей консоли.


Этап экспорта 

 

Пользователи могут как извлекать данные для их дальнейшего использования в информационных системах предприятия, так и конвертировать документы и приложения к ним в файлы формата PDF c возможностью полнотекстового поиска.

 

Экспорт можно осуществлять в:

  • Базы данных (через ODBC) или в файлы
  • Финансовые, учетные системы и прочие бизнес-приложения
  • Электронный документооборот/ архив
  • Системы управления содержанием

 

Данные могут экспортироваться в чистом виде или вместе с приложенными изображениями и текстами. Документы могут сохраняться в архивы как файлы в формате PDF/PDF-A с возможностью полнотекстового поиска.

 

Программный интерфейс сервера приложений (API) позволяет внешней системе программно создать задание на обработку, запустить обработку и загрузить результаты обработки. Наличие программного интерфейса позволяет разрабатывать сторонние приложения, использующие систему ABBYY FlexiCapture 9.0 как сервис анализа изображений документов и экспорта результатов.


Консоль администрирования позволяет:

  • Задавать права пользователям
  • Просматривать статистику обработки пакетов и работы станций
  • Управлять системой из любого места через web-протокол

 

————

Автор: Рожкова Елена 

Источник(и) информации:
ABBYY

GD Star Rating
loading...
ABBYY FlexiCapture для потокового сканирования, 4.0 out of 5 based on 1 rating

Поделиться в соц. сетях

Опубликовать в Google Plus
Опубликовать в LiveJournal
Опубликовать в Мой Мир
Опубликовать в Одноклассники

, ,

5 комментариев к статье “ABBYY FlexiCapture для потокового сканирования”

Добавить ответ