Рассмотрим модель бизнес процесса потокового сканирования текста для организации электронного архива документов
Назначение:
предназначено для автоматизации перевода бумажных документов в электронный вид, создание электронного документооборота и электронного архива документов.
Функции потокового сканирования включают:
– Предварительное формирование штрих-кодов
– Формирование сканированного образа документа
– Формирование электронной учётной карточки, содержащей электронный образ отсканированного документа
– Передачу корректно отсканированного электронного образа документа в БД
Возможно осуществление потокового сканирования в пакетном режиме.
При этом каждый пакет документов для сканирования может идентифицироваться по:
– Количеству указанных страниц
– Пустым страницам-разделителям
– Штрих-кодам
Возможный вариант идентификации пакета сканирования определяется настройками сканирования.
Преимущества использования потокового сканирования для организации электронного архива документов:
– Снижение трудозатрат на ввод информации в базы данных
– Возможность замены бумажного документооборота и бумажных архивов электронной системой документооборота
– Повышение эффективности управления документами
– Снижение временных затрат на поиск документов
Электронный архив документов. Жизненный цикл сканированных документов
Документы в процессе сканирования проходят определенные этапы, совокупность которых мы обозначим как жизненный цикл сканированных документов (ЖЦ сканирования).
Основной процесс сканирования включает общие этапы:
Этапы ЖЦ сканирования включают:
- Сканирование документов
- Распознавание информации
- Верификация данных
- Коррекция данных
- Экспорт данных
Роли пользователям выделяются в соответствии с их участием в ЖЦ сканирования.
Подробнее по этапам.
Этап 1. Сканирование документов
Этап «Сканирование» может также интерпретироваться как «Импорт документов», т.к. системы потокового сканирования могут осуществлять считывание изображений не только со станций сканирования, но и из локальных, сетевых ресурсов, а также осуществлять считывание из электронной почты.
Но в рамках данной статьи мы рассматриваем конкретно потоковое сканирование, и как следствие, 1 этап – сканирование документов. Под системой потокового сканирования подразумеваются программные комплексы, предназначенные для потоковой обработки данных.
Поточные сканеры в большинстве своем оснащены системой автоматической подачи документов, что позволяет достигнуть скорости оцифровки до 200 изображений в минуту на один сканер.
Для выделения отдельных документов из потока в начале сканируемого документа должна быть нанесена штамп-метка/маркер/штрих-код, либо документы потока должны быть разделены чистыми листами.
Если же при этом требуется определение типа и вида документа, то метка должна сопровождаться кодом сканирования, на основании которого будет проводиться сопоставление бумажного и электронного документов.
Если документ является многостраничным, метка и код сканирования наносятся только на первый лист документа, и в дальнейшем при вводе массива документов они служат признаком конца текущего документа и началом нового.
Место нанесения метки и кода сканирования может находиться в любой свободной от текста части документа. При отсутствии на лицевой стороне документа свободного места их можно нанести с обратной стороны листа.
Итого, мы можем выделить следующие подэтапы для первого этапа:
– Формирование штамп-метки/маркера/штрих-кода специализированной программой
- Одномерные штрих-коды
- Двухмерные штрих -коды
– Распечатка штамп-метки/маркера/штрих-кода
– Подготовка комплекта документов для сканирования, нанесение штамп-метки/маркера/штрих-кода
– Сканирование пакетов документов:
- Исправление перекосов, искажений, удаление частей изображений и др.
- Сборка документов по типам, видам
- Корректировка качества сканирования
Сканирование документов можно осуществлять в рамках локальной сети, удаленно по средствам http, а также с использованием интерфейсов TWAIN, WIA и ISIS.
Результат выполнения этапа: отсканированный документ в формате PDF, TIFF, JPEG, JPEG2000, BMP, PNG, PCX, DCX, DjVu, JBIG2.
Этап 2. Распознавание информации
На этапе распознавания используются программные OCR компоненты.
Системы, поддерживающие распознавание текста, позволяют:
- Осуществлять распознавание печатного текста на разных языках, таких как: латинский, греческий, тайский, армянский, японский, корейский, китайский и др. Перечень поддерживаемых языков зависит от возможностей конкретной программы.
- Осуществлять распознавание документов, содержащих текст сразу на разных языках. При этом, система сама распознает какой текст к какому языку относится.
- Распознавать текст различного типа: типографская печать, печатная машинка, матричный принтер, MICR (E13B), OCR-A, OCR-B.
- Распознавать штрих коды.
В качестве настроек обычно можно указывать максимальное количество неуверенно распознанных символов на страницы для дальнейшей корректировки содержания на этапе Верификации.
Результат выполнения этапа: отсканированный документ в формате Microsoft Word, HTML, PDF и др.
Высокое качество распознавания и восстановления оформления документа:
- Поддержка 191 языка распознавания печатного текста, включая языки на основе латинского, греческого, тайского, армянского и кириллического алфавитов, а также японский, корейский, китайский и тайский языки.
- Распознавание многоязычных документов.
- Режим быстрого распознавания увеличивает скорость обработки изображений хорошего качества в 2-2,5 раза.
- Поддержано распознавание различных типов текста: типографская печать, печатная машинка, матричный принтер, MICR (E13B), OCR-A, OCR-B.
Распознавание штрих-кодов:
- Поддержано распознавание наиболее популярных одномерных и двумерных штрих-кодов.
- Автоматически идентифицируются и распознаются штрих-коды, расположенные на странице под любым углом к горизонтали.
Контроль качества распознавания:
- Установка порога качества распознавания изображений, основанная на допустимом количестве неуверенно распознанных символов на страницу.
Преобразование PDF-файлов
- Определение текстового слоя и его целостность дляообеспечения более быстрого и качественного преобразования PDF-файлов.
- В создаваемых PDF-файлах сохраняются метаданные документа (название, автор, тема, ключевые слова) и восстанавливаются гиперссылки внутри документа.
- Поддержаны алгоритмы шифрования и другие средства разграничения доступа: сохранение результатов распознавания в PDF-файл, защищённый паролем.
Этап 3. Верификация данных
Этап верификации включает:
- Проверка на неуверенно распознанные символы
- Проверку полученной от сканирования информации на ожидаемые типы данных
- Проверку полученной от сканирования информации на присутствие значений
- Редактирование распознанного текста
- Формирование учетной карточки документа
- Заполнение атрибутов карточки отсканированного документа
- Автоматически
- Вручную
На этом этапе, в случае обнаружения ошибок при сканировании и всех неточностей, информация помечается специальными маркеровками для дальнейшего исправления на этапе Коррекции. При необходимости, этап Верификации можно проводить повторно.
Станция верификации позволяет оператору проверять, правильно ли была проанализирована страница, создавать и редактировать блоки, проверять неуверенно распознанные символы, а также редактировать распознанный текст.
После верификации и устранения ошибок, страница будет отправлена на дальнейшую обработку или проэкспортирована. При неудовлетворительных результатах распознавания, оператор станции верификации может отправить страницу на повторную обработку.
Результат выполнения этапа: заполненная учетная карточка документа и отсканированный документ в формате Microsoft Word, HTML, PDF и др.
Этап 4. Коррекция данных
Оператор обрабатывает информацию, полученную на стадии верификации данных, вносит изменения в результирующую запись вручную (ввод с клавиатуры, выбор из списка заранее заданных ответов). В некоторых случаях может объединяться с предыдущим этапом верификации данных.
Результат выполнения этапа: заполненная отредактированная учетная карточка документа и отсканированный документ в формате Microsoft Word, HTML, PDF и др.
Этап 5. Экспорт данных
Оцифрованные структурированные данные выгружаются в необходимом формате для дальнейшего анализа результатов сканирования.
При этом экспорт данных может осуществляться:
- В локальную или сетевую папку
- В корпоративный портал
- В систему электронного документооборота/электронный архив
Также может осуществляться рассылка данных по электронной почте.
Результат выполнения этапа: размещение/отправка итогового документа на требуемом ресурсе.
————
Автор: Рожкова Елена
Используемые ресурсы:
Приложение «Потоковое сканирование»
ABBYY
Назначение: предназначено для автоматизации перевода бумажных документов в электронный вид, создание электронного документооборота и электронного архива документов.
Функции потокового сканирования включают:
–Предварительное формирование штрих-кодов
–Формирование сканированного образа документа
–Формирование электронной учётной карточки, содержащей электронный образ отсканированного документа
–Передачукорректно отсканированного электронногообраза документа в БД
Возможно осуществление потокового сканирования в пакетном режиме. При этомкаждый пакет документов для сканирования может идентифицироваться по:
–Количеству указанных страниц
–Пустым страницам-разделителям
–Штрих-кодам
Возможный вариант идентификации пакета сканирования определяется настройками сканирования.
Преимущества использования потокового сканирования:
–Снижение трудозатрат на ввод информации в базы данных
–Возможность замены бумажного документооборота и бумажных архивов электронной системой документооборота
–Повышение эффективности управления документами
–Снижение временных затрат на поиск документов
Жизненный цикл сканированных документов
Документы в процессе сканирования проходят определенные этапы, совокупность которых мы обозначим как жизненный цикл сканированных документов (ЖЦ сканирования).
Основной процесс сканирования включает общие этапы:
Этапы ЖЦ сканирования включают:
1.Сканирование документов
2.Распознавание информации
3.Верификация данных
4.Коррекция данных
5.Экспорт данных
Роли пользователям выделяются в соответствии с их участием в ЖЦ сканирования.
Подробнее по этапам.
Этап 1. Сканирование документов
Этап «Сканирование» может также интерпретироваться как «Импорт документов», т.к. системы потокового сканирования могут осуществлять считывание изображений не только со станций сканирования, но и из локальных, сетевых ресурсов, а также осуществлять считывание из электронной почты.Но в рамках данной статьи мы рассматриваем конкретно потоковое сканирование, и как следствие, 1 этап – сканирование документов. Под системой потокового сканирования подразумеваются программные комплексы, предназначенные для потоковой обработки данных.
Поточные сканеры в большинстве своем оснащены системой автоматической подачи документов, что позволяет достигнуть скорости оцифровки до 200 изображений в минуту на один сканер.
Для выделения отдельных документов из потока в начале сканируемого документа должна быть нанесена штамп-метка/маркер/штрих-код, либо документы потока должны быть разделены чистыми листами. Если же при этом требуется определение типа и вида документа, то метка должна сопровождаться кодом сканирования, на основании которого будет проводиться сопоставление бумажногои электронного документов. Если документ является многостраничным, метка и код сканирования наносятся только на первый лист документа, и в дальнейшем при вводе массива документов они служат признаком конца текущего документа и началом нового.
Место нанесения метки и кода сканирования может находиться в любой свободной от текста части документа. При отсутствии на лицевой стороне документа свободного места их можно нанести с обратной стороны листа.
Итого, мы можем выделить следующие подэтапы для первого этапа:
–Формирование штамп-метки/маркера/штрих-кода специализированной программой
oОдномерные штрих-коды
oДвухмерные штрих -коды
–Распечатка штамп-метки/маркера/штрих-кода
–Подготовка комплекта документов для сканирования, нанесение штамп-метки/маркера/штрих-кода
–Сканирование пакетов документов:
oИсправление перекосов, искажений, удаление частей изображений идр.
oСборка документов по типам, видам
oКорректировка качества сканирования
Сканирование документов можно осуществлять в рамках локальной сети, удаленно по средствам http, а также с использованием интерфейсов TWAIN, WIA и ISIS.
Результат выполнения этапа: отсканированный документ в формате PDF, TIFF, JPEG, JPEG2000, BMP, PNG, PCX, DCX, DjVu, JBIG2.
Этап 2. Распознавание информации
На этапе распознавания используются программные OCR компоненты.
Системы, поддерживающие распознавание текста, позволяют:
oОсуществлять распознавание печатного текста на разных языках, таких как: латинский, греческий, тайский, армянский, японский, корейский, китайский и др. Перечень поддерживаемых языков зависит от возможностей конкретной программы.
oОсуществлять распознавание документов, содержащих текст сразу на разных языках. При этом, система сама распознает какой текст к какому языку относится.
oРаспознавать текст различного типа: типографская печать, печатная машинка, матричный принтер, MICR (E13B), OCR-A, OCR-B.
oРаспознавать штрих коды.
В качестве настроек обычно можно указывать максимальное количество неуверенно распознанных символов на страницы для дальнейшей корректировки содержания на этапе Верификации.
Результатвыполнения этапа: отсканированный документ в формате Microsoft Word, HTML, PDF и др.
Этап 3. Верификация данных
Этап верификации включает:
oПроверка на неуверенно распознанные символы
oПроверку полученной от сканирования информации на ожидаемые типы данных
oПроверку полученной от сканирования информации на присутствие значений
oРедактирование распознанного текста
oФормирование учетной карточки документа
oЗаполнение атрибутов карточки отсканированного документа
§Автоматически
§Вручную
На этом этапе, в случае обнаружения ошибок при сканировании и всех неточностей, информация помечается специальными маркеровками для дальнейшего исправления на этапе Коррекции. При необходимости, этап Верификации можно проводить повторно.
Результатвыполнения этапа: заполненная учетная карточка документа и отсканированный документ в формате Microsoft Word, HTML, PDF и др.
Этап 4. Коррекция данных
Оператор обрабатывает информацию, полученную на стадии верификации данных, вносит изменения в результирующую запись вручную (ввод с клавиатуры, выбор из списка заранее заданных ответов). В некоторых случаях может объединяться с предыдущим этапом верификации данных.
Результатвыполнения этапа: заполненная отредактированная учетная карточка документа и отсканированный документ в формате Microsoft Word, HTML, PDF и др.
Этап 5. Экспорт данных
Оцифрованные структурированные данные выгружаются в необходимом формате для дальнейшего анализа результатов сканирования. При этом экспорт данных может осуществляться:
oВ локальную или сетевую папку
oВ корпоративный портал
oВ систему электронного документооборота/электронный архив
Также может осуществляться рассылка данных по электронной почте.
Результат выполнения этапа: размещение/отправка итогового документа на требуемом ресурсе.
Используемые ресурсы:
http://www.kancler.by/modules/scan/
Рожкова Елена
loading...
3 комментария к статье “Организация электронного архива документов.Потоковое сканирование”