Эндрю Хэй (Andrew Hay) недавно сделал отличную запись на веб-сайте Dark Reading, посвященную тому, является ли термин "Большие Данные" только модным словечком, используемым поставщиками SIEM с целью привлечь к себе внимание. Я должен сказать, что склонен согласиться с его выводами. Поставщики SIEM (и управления лог-файлами), использующие архитектуры, которым уже не менее десяти лет, заявляют, что Большие Данные — это то, что они, возможно, не могут предоставить без перехода на соответствующие новые технологии и концепции. Но мне не кажется, что эта история заканчивается здесь.
Концепция Больших Данных может быть использована для аналитики в любой области, начиная с финансов и заканчивая погодой. Однако большинство, скорее всего, интересуется тем, что это значит для вас, когда приходит ваш начальник и спрашивает, что вы делаете с большими данными (например, подписав документы на приобретение нового массива). Что же, давайте обсудим это. Большие Данные применительно к ИТ могут быть использованы для управления угрозами безопасности, разрешения проблем, связанных с производительностью приложений, выявления коммерческих идей, выходящих за пределы стандартных тенденций, а также определения рабочих проблем до того, когда они станут слишком велики. Все эти способы — достойное использование технологии и, вероятно, также вашего времени. Однако прийти к подобным идеям от Больших Данных не так-то просто.
Существуют две фундаментальных проблемы, связанные с переходом от Больших Данных к ценности для организации.
- Нужно собрать их все — как заметил Эндрю в своей записи на сайте Dark Reading, существует несколько трудностей, связанных с системами, архитектура которых относится к технологиям десятилетней давности. Эти проблемы связаны как с системами хранения, упомянутыми Эндрю (т.е. базы данных), так и со структурой организации, используемой для хранения данных и их анализа (т.е. транзакционные схемы в сравнении со схемами оперативного анализа данных, или OLAP).
- Необходимо выполнять аналитическую работу, выявлять проблемы, а затем автоматизировать выявление последующих проблем. Эта задача становится еще более сложной, поскольку больших данных нет в каком-либо пошаговом руководстве, вам нужно определить их самостоятельно. Нужен специалист с обширными научными познаниями в области вычислений, чтобы найти иголку в стоге сена и определить, что она важна для вашего предприятия. Кроме того, даже после этого определения не всегда понятно, подойдет ли используемая для анализа система для автоматизации и выявления проблем в реальном времени. Скорее всего, это будут как минимум разные приложения.
Для многих из вас эти два обстоятельства превращают большие данные в непозволительную роскошь. Но если ваша задача — обезопасить сеть от угроз, или вы стараетесь предоставить высокую доступность, то вы, скорее всего, захотите продолжить чтение. У вас есть несколько вариантов:
- Можно сделать все сразу: Выполните сборку системы на основе таких технологий больших данных, как Hadoop и Google MapReduce, или даже на основе продуктов, больше ориентированных на платформу, например Splunk, наймите специалиста по вычислениям и пройдите весь путь от начала до конца. Это не настолько сложно — ознакомьтесь с практическим примером
- Можно поискать продукт, которые предоставит вам еще несколько практических средств работы. Для начала убедитесь в том, что вы можете собирать данные компьютера и реагировать на них в реальном времени. Если вы ведете запись данных в базу, а затем предоставляете их механизму аналитики, то это не поможет вам отреагировать достаточно быстро в случае угрозы безопасности. Затем вам нужен продукт, способный предоставить вам средства визуализации данных, такие как облака ключевых слов, древовидные структуры, пузырьковые диаграммы, гистограммы и так далее. Они помогут вам начать работу по изучению данных. Это поможет вам определить, что именно нужно искать, — сам по себе ИТ-поиск не сократит эту работу. В-третьих, необходимо обеспечить простоту сборки правил. Пожалуйста, никакого написания вручную на языке запросов, мы живем в эпоху перетаскивания. И, наконец, убедитесь в том, что ваша система может предпринимать действия. Если все, что она умеет, — это предупреждать вас, то она не поможет остановить проблему, она только сообщит вам о ее наличии, а это большая разница.
Большие Данные пришли в нашу жизнь и останутся в ней, но я советую подходить к ним с практической точки зрения, если вы не знаете, что делать в случае прекращения получения данных. Если вы действительно знаете, что делать, то найдите решение, которые поможет вам получить львиную долю пользы без необходимости нанимать специалиста по вычислениям лично для вас.



