Ажиотаж по направлению Big Data сейчас чувствуется во всех проявлениях: разнообразные обзоры и статьи от Gartner, введение новых предметных дисциплин по Big Data в ВУЗах, появление новых подразделений в IT компаниях, разнообразнейшие конференции и новости СМИ.
Еще в прошлом году видела высказывания Дмитрия Медведева и Владимира Владимировича по поводу развития направления Big Data. Что это такое я на тот момент не знала, собственно, с того момента и начался мой познавательный путь =)
И вот что я узнала:
В процессе исследований выяснилось, что каждый интерпретирует понятие Big Data по своему, кто-то ассоциирует с центрами обработки данных, кто-то с накрученной СУБД, кто-то представляет ее как очередной класс решений, кто-то представляет Big Data как панацею от всех бед и идеализирует ее настолько, что с трудом понимаешь, как же мы раньше-то без нее вообще жили =)
Для понятия Большие данные даже выделили характеристики в виде трех «V»:
- Volume – объем данных
- Velocity – скорость прироста, обработки и получения результатов
- Variety – многообразие, возможность одновременной обработки различных типов структурированных и полу-структурированных данных
Ну а теперь мини обзор в стандартном моем формате:
Big Data – это..
Мне ближе понятие:
Big Data – комплекс инфраструктурных и программных решений, предназначенный для обработки и анализа больших структурированных и не структурированных данных, с обработкой которых уже не справляется обычная СУБД. Основной особенностью такого комплекса является использование специализированных технологий (о них дальше напишу), оптимизирующих поиск, хранение и анализ большого массива контента в онлайн режиме.
Big Data – внедряют чтобы..
Повысить лояльность клиентов/потребителей, увеличить объем продаж, повысить эффективность использования ретроспективных (= исторических =) данных для стратегического планирования и принятия решений и др.
В сферах применения, технологии Big Data рекомендуются для:
- Производства
- Здравоохранения (что в российской специфике сомнительно)
- Торговли
- Гос. Сектора
- Финансового сектора
- Страхования
К сожалению, как сферу деятельности обычно отдельно не выделяют, но я бы еще сюда добавила различные интернет – проекты, – там очень много информации для обработки и как раз Big Data позволила бы оптимизировать всю обработку и аналитику.
Big Data – внедряют совместно/могут внедрять..
Как отдельное решение, как «умный» архив данных, как экспертную систему, как BI систему
Big Data – функциональные возможности
В процессе исследования поняла, что по функционалу Big Data прослеживается схожесть с моей целевой картиной функционала системы управления знаниями (СУЗ), и как следствие – для меня теперь эти два направления взаимосвязаны и развивать их буду параллельно (срочно нужно себя клонировать!!! =).
Big Data- технологии:
- Nutch (An apache open-source search engine based on Hadoop)
- Hadoop
- Amazon EC2
- Amazon Elastic Block Store
Big Data- готовые решения:
- Aster MapReduce appliance (от Teradata)
- Oracle Big Data appliance (от Oracle)
- Greenplum appliance (от EMC)
- HANA (от SAP)
- HP Vertica
Заинтересовал тот факт, что технология Hadoop уже давно используется для обработки данных в таких компаниях как Yahoo!, Facebook, а из наших российских компаний технологии Big Data внедрены в:
- ИК «Тройка Диалог» (Greenplum)
- Тинькофф Кредитные Системы (Greenplum)
- Сургутнефтегаз (HANA)
- Эльдорадо (HANA)
- И др.
————-
Полезные ссылки:
Большие данные: насколько они большие?
Big Data — It’s not just for Google Any More
возможно, пригодится (с форума по Big Data 2012): Big Data и горизонтально масштабируемая аналитика
loading...
вообщето уже четыре V, последняя V – правдивость (не помню как по английски)
и по моему сейчас есть большая путаница между Big Data и делением на структурированную и неструктурированную информацию. под биг датой обычно понимают именно обработку огромных массивов структурированной информации (данные с коллайдера, носимая медицина, соцсети – полуструктурированные данные). а вот проблемы с неструктурированной информацией, хотя и известны довольно давно (можно погуглить про информационную перегрузку) – до сих пор получают сравнительно мало внимания.