Предназначен для потокового ввода и обработки любых шаблонов документов, а также извлечения из них необходимой информации.
Объем документов: средний, большой, очень большой (для любого объема).
Результат работы хранится в форматах: форматы сохранения данных (XML, XLS, DBF, CSV, TXT) и изображений (TIFF, JPEG, JPEG 2000, PDF, PDF/A, PCX, BMP, PNG).
Программа подразумевает работу в несколько этапов:
- Подготовительный этап – установка системы и настройка шаблонов для обработки документов
- Стадия обработки (сканирование, распознавание, верификация, экспорт) – непосредственная обработка документов
За разные стадии обычно отвечают разные пользователи – администратор и операторы.
ABBYY FlexiCapture состоит из компонент:
- Станция настройки
- Станция сканирования
- Станция верификации данных
- Станция верификации
- Станция администрирования и мониторинга
- Удаленная станция сканирования
- Удаленная станция верификации данных
- Консоль удаленного администрирования и мониторинга
Администратор осуществляет настройку процесса потокового ввода данных, подготовку шаблонов документов, также осуществляет предварительное тестирование. На данном этапе осуществляется задание правил обработки, подготовка обрабатываемых шаблонов/бланков.
В администрирование входят модули:
- ABBYY FormDesigner (Дизайнер форм) – модуль для создания и тиражирования бланков, можно самостоятельно создавать формы шаблонов в формате PDF.
- ABBYY FlexiLayout Studio –инструмент для создания гибких описаний для документов с нежесткой структурой, позволяет системе извлекать из документов с нежесткой структурой необходимые данные, как то: текстовые строки, штрих-коды, даты, валютные символы, числа, разделители, таблицы.
- Document Definition Editor (Редактор шаблонов документов) – специальный модуль для создания шаблонов для любого типа документов. Позволяет указывать, какие данные необходимо извлечь и как их следует детектировать на документах, распознавать, проверять, верифицировать и экспортировать.
Оператор осуществляет ввод и обработку данных, сканирование документов, распознавание, верификацию, экспорт.
Система покрывает этапы общего ЖЦ:
- Сканирование
- Распознавание
- Верификация
- Экспорт информации
Этап сканирования
Поскольку ABBYY FlexiCapture способна самостоятельно классифицировать поступающие документы, у пользователя нет необходимости предварительно сортировать страницы или вручную добавлять страницы-разделители. Пользователи могут задавать сценарии для потокового ввода, предусматривающие повторяющиеся страницы или нефиксированный порядок страниц в документе. Поддерживается технология чтения штрих-кодов.
Документы сканируются в соответствии с настроенными шаблонами документов. Формы шаблонов документов могут быть предусмотрены для любых типов документов:
- Формы с жесткой структурой/структурированные документы: анкеты, экзаменационные тесты, бланки, страховые формы, запросы на выплату медицинской страховки, налоговые декларации и т.п.
- Слабоструктурированные документы: счета, заказы на покупку, транспортные накладные и т.п.
- Неструктурированные документы: письма, контракты, статьи и т.п.
Описание шаблонов документов и всех соответствующих настроек осуществляет администратор.
Система поддерживает удаленные станции сканирования. Удаленные станции сканирования позволяют отправлять отсканированные документы на обработку через HTTP-протокол.
Бумажные документы могут быть импортированы в программу при помощи сканирующего устройства (сканера или МФУ), поддерживающего протокол сканирования TWAIN или ISIS.
Этап распознавания
В качестве источника информации могут выступать как отсканированные документы, так и документы, помещенные для обработки в папку или в «горячую папку».
Поддерживаемые графические форматы: PDF, BMP, PCX, PNG, JPEG, JPEG 2000, DjVu и TIFF, DCX.
Документы всех типов идентифицируются и обрабатываются автоматически без использования каких-либо дополнительных модулей или другого программного обеспечения.
Поддерживает технологии распознавания рукопечатных символов (ICR) для более чем 100 языков и печатных символов (OCR) для более чем 187 языков. Содержит технологию распознавания штрих – кодов (поддерживаются типы 1D и 2D).
Поддерживается экспорт в формат PDF с возможностью полнотекстового поиска.
Этап распознавания включает в себя:
- Предварительная обработка изображений – корректировка ориентации страниц, инвертированию, удалению перекосов и шума.
- Автоматическая классификация документов – наложение существующих шаблонов на импортируемые документы. Для идентификации различных типов документов в обрабатываемом потоке используется технология интеллектуального распознавания документов (IDR, Intelligent Document Recognition) и технология FlexiCapture (обе – собственные разработки ABBYY).
- Извлечение данных и текста – извлечение на основании наложенных шаблонов необходимых полей
- Автоматический контроль данных – на основании заданных администратором правил контроля, включает в себя проверку формата чисел и дат, проверку по базе данных, проверку сумм, замену значений из списка, нормализацию дат и цен.
Стадии распознавания выполняются автоматически.
Этап верификации
Когда распознавание закончено, каждому символу присваивается статус:
- «надежно распознанный»
- «ненадежно распознанный»
- «нераспознанный»
Последние два статуса означают, что оператору необходимо подтвердить гипотезу системы или внести исправления.
Этот этап требует больше ручного труда, чем остальные. Для ускорения и упрощения процесса верификации в ABBYY FlexiCapture встроен специальный верификационный интерфейс, которые предлагает три режима работы: групповая верификация (больше всего подходит для проверки меток и цифр), верификация полей (для проверки текстовых полей) и верификация в окне “Документ” (для корректировки правил).
Этап отвечает за проверку и редактирование результатов распознавания.
Проверка результатов распознавания включает:
- Контекстная верификация
- Проверка выполнения одностраничных правил
- Сборка документов пакета
- Проверка выполнения многостраничных правил
- Обработка сообщений правил контроля
Система поддерживает удаленные станции верификации. Позволяет распределить задачи между операторами, которые работают из дома или находятся в другом удаленном от офиса месте. Также позволяет осуществлять мониторинг производительности удаленных и локальных станций осуществляется с общей консоли.
Этап экспорта
Пользователи могут как извлекать данные для их дальнейшего использования в информационных системах предприятия, так и конвертировать документы и приложения к ним в файлы формата PDF c возможностью полнотекстового поиска.
Экспорт можно осуществлять в:
- Базы данных (через ODBC) или в файлы
- Финансовые, учетные системы и прочие бизнес-приложения
- Электронный документооборот/ архив
- Системы управления содержанием
Данные могут экспортироваться в чистом виде или вместе с приложенными изображениями и текстами. Документы могут сохраняться в архивы как файлы в формате PDF/PDF-A с возможностью полнотекстового поиска.
Программный интерфейс сервера приложений (API) позволяет внешней системе программно создать задание на обработку, запустить обработку и загрузить результаты обработки. Наличие программного интерфейса позволяет разрабатывать сторонние приложения, использующие систему ABBYY FlexiCapture 9.0 как сервис анализа изображений документов и экспорта результатов.
Консоль администрирования позволяет:
- Задавать права пользователям
- Просматривать статистику обработки пакетов и работы станций
- Управлять системой из любого места через web-протокол
————
Автор: Рожкова Елена
Источник(и) информации:
ABBYY
loading...
6 комментариев к статье “ABBYY FlexiCapture для потокового сканирования”