Построение архитектуры системы управления знаниями с учетом неуправляемости больших объемов данных
Проведен анализ технологий по управлению объемами данных и предложены ключевые аспекты разработки архитектуры системы управления знаниями
В настоящее время большинство компаний, так или иначе, пытаются реализовать и внедрить у себя системы управления знаниями на базе различных технологий, при этом возникает проблема неуправляемости больших объемов данных, обусловленная: устареванием информации, публикациями избыточной, дублирующей, личной не производственной информации (например, фото, видео) и др.
С повышением объема хранимой информации затрудняется поиск и увеличивается вероятность утери критически нужной информации; аппаратные ресурсы используются не оптимально, что приводит к увеличению затрат на техническое сопровождение системы.
На текущий момент на IT рынке представлены несколько классов технологий:
– Технологии по работе с файловым хранилищем позволяют отслеживать сроки использования и обращения к файлам, накладывать квоты дискового пространства и управлять блокировкой файлов. (Например, система Sysinternals Process Monitor)
Основное преимущество таких систем состоит в возможности управления нагрузкой на аппаратное обеспечение.
Недостатком является отсутствие возможности анализа содержимого самих файлов.
– Технологии для создания крупномасштабных систем по обработке больших объемов данных в режиме реального времени позволяют осуществлять массово- параллельную обработку, классификацию и анализ больших массивов данных.
Целесообразны при объеме данных, измеряемом в терабайтах. Используются для анализа содержимого данных, построения статистических моделей и прогнозной аналитики и др. (например, технология Hadoop)
Основное преимущество использования состоит в возможности управления и анализа содержимого данных.
Недостатком являются большие требования к аппаратному обеспечению и его сопровождению.
При построении архитектуры системы управления знаниями важно учитывать как оптимизацию физического размещения информации на аппаратном обеспечении, так и использование методов обработки больших массивов информации.
Для проектирования архитектуры системы управления знаниями с учетом решения проблемы неуправляемости больших объемов данных необходимо осуществить:
-
Анализ текущего и потенциального объема хранимой и обрабатываемой информации
-
Выделить виды хранимой информации, сроков хранения, критичности утери, частоты использования информации
-
Определение и согласование единой структуры и правил хранения корпоративной информации
-
Определение порядка репликации и восстановления данных с учетом критичности данных и частоты использования
-
Определение архитектуры и правил формирования архивных данных
Наилучшим вариантом при построении архитектуры системы управления знаниями является построение комбинированного решения, обеспечивающего оптимизацию и использования аппаратного обеспечения, и поддерживающего при этом технологию по организации и обработке больших объемов данных на базе технологии Hadoop или аналога, позволяющего обрабатывать большой объем данных с использованием распределенной файловой системы.
———–
Автор: Рожкова Елена Сергеевна
Научный руководитель – С.В. КИРЕЕВ, профессор, д.ф.-м.н.
Национальный исследовательский ядерный университет «МИФИ»
Для телеконференции МИФИ 2013
ПОСТРОЕНИЕ АРХИТЕКТУРЫ СИСТЕМЫ УПРАВЛЕНИЯ ЗНАНИЯМИ С УЧЕТОМ НЕУПРАВЛЯЕМОСТИ БОЛЬШИХ ОБЪЕМОВ ДАННЫХ
loading...