Предназначен для распознавания документов полученных по факсу, со сканера или многофункционального устройства (МФУ).
Объем документов: средний, большой, очень большой.
Результат работы хранится в форматах: Microsoft Word, HTML, PDF и других.
ABBYY Recognition Server состоит из компонент:
- Менеджер сервера
- Станция сканирования
- Станция обработки
- Станция верификации
- Станция индексирования
- Консоль удаленного администрирования
Покрывает этапы ЖЦ:
- Сканирование
- Распознавание
- Верификация
- Экспорт информации
- Верификация
- Индексирование
Этап сканирования
Программа предоставляет возможность, как сканировать документы через станции сканирования, так и использовать документы из локальной сети, а также из электронной почты. Документы могут поступать с разных станций сканирования разными пакетами.
Поддерживается разделение документов в потоке по пустым листам, листам с разделительным штрих-кодом, по фиксированному количеству страниц в документе, по ключевому слову, фразе.
Возможна сборка одностраничных изображений из каждой обрабатываемой подпапки в отдельный файл.
На этапе сканирования можно осуществлять:
- Потоковое сканирование, разделение и сборка документов;
- Контроль и своевременная корректировка качества сканирования;
- Обработка и улучшение изображений: поворот, исправление искажений, удаление части изображения и т.д.;
- Автоматическое именование документов и папок: по дате и времени, по значению штрих-кода, автоматически;
- Интеграция с информационной системой предприятия.
Станция позволяет сканировать посредствам интерфейсов TWAIN, WIA и ISIS и может работать как в рамках локальной сети, так и удаленно по средствам HTTP.
Результат выполнения этапа: отсканированный документ в формате PDF, TIFF, JPEG, JPEG2000, BMP, PNG, PCX, DCX, DjVu, JBIG2.
Этап распознавания
На данном этапе предоставляются возможности:
- Поддерживается конвертация изображений из форматов JPEG, TIFF, BMP, PDF, DjVu и др.
- Считывание штрих-кодов (одно и двухмерных).
- Поддержка 191 языка распознавания печатного текста.
- Распознавание многоязычных документов.
- Поддержание распознавания различных типов текста: типографская печать, печатная машинка, матричный принтер, MICR (E13B), OCR-A, OCR-B.
- Распознавание и конвертация изображений в PDF файлы.Установка порога качества распознавания изображений, основанная на допустимом количестве неуверенно распознанных символов на страницу.
- Определение текстового слоя и его целостность.
- Сохранение метаданных документа в создаваемых PDF-файлах (название, автор, тема, ключевые слова) и восстановление гиперссылок внутри документа.
- Поддержка алгоритмов шифрования и другие средства разграничения доступа: сохранение результатов распознавания в PDF-файл, защищённый паролем.
Изменение настроек обработки осуществляется по умолчанию с помощью XML-описания – файла формата XML, который содержит параметры обработки документа или набора документов (передается во входящую папку вместе с изображениями, которые надо обработать).
Возможен параллельный запуск процессов распознавания документов, что позволяет эффективно задействовать ресурсы многопроцессорной системы.
Обеспечение равномерной загрузки станций обработки для распознавания/конвертации документов.
Возможно разделение многостраничных документов на части и отправка каждой на свободную станцию обработки, что обеспечивает одновременную обработку частей документов. Затем все части документа снова будут собраны в один документ. Возможно задание расписаний и приоритетов распознаваний для отдельных станций/групп станций обработки.
Результат выполнения этапа: отсканированный документ в формате Microsoft Word, HTML, PDF и др.
Этап верификации
На данном этапе предоставляются возможности:
- Разделение документов по типам.
- Визуальная проверка результатов распознаваний.
Оператор может проверять, правильно ли была проанализирована страница, создавать и редактировать блоки, проверять неуверенно распознанные символы, а также редактировать распознанный текст.
После верификации и устранения ошибок, страница будет отправлена на дальнейшую обработку или проэкспортирована. При неудовлетворительных результатах распознавания, оператор станции верификации может отправить страницу на повторную обработку.
Результат выполнения этапа: отредактированный отсканированный документ в формате Microsoft Word, HTML, PDF и др.
Этап индексирования
Присвоение атрибутов документу в автоматическом и ручном режиме.
Преимуществом станции индексирования является то, что оператору не нужно самостоятельно вводить атрибуты документа, а достаточно лишь выделить их в тексте документа.
Настройки системы позволяют создавать разные атрибуты для разных пакетов документов:
- «дата»,
- «номер документа»,
- «краткое содержание» и другие.
Отправка документов на станцию индексирования является опциональной и должна быть задана на этапе настройки. После этапа распознавания все документы, которые должны быть проиндексированы, автоматически направляются на станцию индексирования.
Чтобы ускорить процесс, можно подключить несколько Станций индексирования.
Результат выполнения этапа: заполненная учетная карточка документа.
Этап экспорта
Документы экспортируются в нужном формате, отправляются по почте, отправляются в СЭД, публикуются в локальном/ сетевом ресурсе или на корпоративном портале в соответствии с заданными правилами маршрутизации.
Результат выполнения этапа: размещение/отправка итогового документа на требуемом ресурсе.
Использование Консоли администрирования на базе Microsoft Management Console (MMC) предоставляет следующие возможности:
- Создание сценариев обработки
- Задание расписаний для сценариев обработки и станций обработки.
- Конфигурирование системы
- Управление приоритетами заданий
- Управление правами пользователей
- Мониторинг работы системы. Просмотр журнала событий
- Получение уведомлений по электронной почте о сбоях в работе системы
Отказоустойчивость обеспечивается за счет:
- Периодической проверки работоспособности станций.
- Автоматического восстановления связи со станцией после временного сбоя в работе станции.
- Автоматического запуска менеджера сервера после перезагрузки операционной системы.
- Автоматического возвращения задания в очередь или перенаправления задания на другую доступную станцию в случае сбоя в работе станции.
Средства интеграции с другими приложениями:
- COM-совместимый программный интерфейс позволяет программно передавать ABBYY Recognition Server файлы изображений и параметры обработки и получить результаты распознавания.
- Программный интерфейс веб-сервиса (Web Service API):XML-описания – XML-файлы, созданные приложением-клиентом и содержащие параметры обработки для отдельных документов.
- использует SOAP и HTTP;
- работа с удалёнными приложениями;
- кросс-платформенность;
- идеально для предприятий, использующих SOA (сервисно-ориентированную архитектуру).
- Автоматическая интеграция с поисковыми серверамиGoogle Search Appliance и Microsoft Office SharePoint Server
Лицензирование:
- По количеству обрабатываемых страниц за период
- По общему количеству обрабатываемых страниц (Количество станций обработки и ядер процессора при этом не ограничено)
- По количеству станций обработки (Количество обрабатываемых страниц не ограничено)
- Дополнительно можно приобретать:
- Станция удаленного сканирования
- Дополнительная станция верификации
————
Автор: Рожкова Елена
Источники информации:
Приложение «Потоковое сканирование»
ABBYY
loading...
Один комментарий к статье “ABBYY Recognition Server”