Валентин Нык, руководитель отдела систем управления ИТ-инфраструктурой КРОК: «Тотальный мониторинг, или Новые решения для защиты от сбоев IT-инфраструктуры на открытом ПО»

На днях системный интегратор КРОК объявил о создании инновационного продукта — системы интеллектуального ИТ-мониторинга, которая поможет заказчикам повысить устойчивость их ИТ-инфраструктуры. Построенная на базе решений open source, система настраивается для каждого заказчика индивидуально, а ее стоимость, по утверждению разработчика, ниже аналогичных по функционалу проприетарных западных продуктов как минимум вдвое. Подробнее о новой системе порталу ICT-Online.ru расcкажет руководитель отдела систем управления ИТ-инфраструктурой КРОК Валентин Нык.

КРОК выводит на рынок систему комплексного мониторинга ИТ-инфраструктуры, СКМ. Как возникла идея создания подобного решения?

— В последние 3-4 года мы наблюдаем существенные изменения рынка ИТ, вызванные тремя глобальными факторами. Во-первых, это зарубежные санкции, которые заставляют наших заказчиков рассматривать во всех сферах ИТ альтернативные или отечественные решения и услуги, позволяющие им получить некую политическую защиту – как в настоящем, так и в будущем. Как это ни парадоксально для высококонкурентного рынка, политика сегодня играет одну из самых важных ролей в выборе компанией того или иного решения, вокруг которого, к примеру, будут выстраиваться все процессы эксплуатации.

 

Валентин Нык, руководитель отдела систем управления ИТ-инфраструктурой КРОК

 

Вторая причина – технологическая. Многие наши заказчики, имея большой опыт внедрения крупных программных комплексов, которые исторически также присутствуют в портфолио КРОК, начинают понимать, что большая «коробка», готовое решение от промышленного вендора, не всегда позволяет получить необходимые функции, конкретную гибкую структуру, не всё оборудование или ПО им поддерживается. Заказчикам приходится каким-то образом самостоятельно обходить различные технологические ограничения или работать только в рамках доступных возможностей.

Третья причина – экономическая. К сожалению, после 2014 года стоимость владения зарубежным ПО значительно повысилась и повышается до сих пор.

Эти три аспекта стали причинами и программы импортозамещения, и поиска разработок open source, чтобы выстраивать гибкое, эффективное и вендоронезависимое решение. В практике КРОК они вылились в ряд RnD-проектов (научно-исследовательские и опытно-конструкторские работы) ипоявлении решений, на основе которых можно получить программные комплексы, эквивалентные по функциональным возможностям промышленным решениям. Знания, полученные за двадцатипятилетнюю историю взаимодействия с крупными вендорами, их программными продуктами – архитектурой, подходами, технологиями – позволили нам создавать подобные комплексы, но уже на открытых компонентах.

СКМ (Система комплексного мониторинга) – один из таких примеров. Понимая ИТ-архитектуру, зная текущую проблематику заказчика и обладая широкой экспертизой во многих областях, мы разработали собственный стек решений и технологий для комплексного мониторинга ИТ.

Что подразумевается под комплексным мониторингом? Из чего состоит решение СКМ?

— СКМ обладает модульной архитектурой, позволяющей выбирать необходимые модули под конкретные требования заказчика на трех логических уровнях. Первый – уровень сбора данных о функционировании ИТ-инфраструктуры. Источниками этих данных могут быть как инсталлируемые нами инструменты, так и уже имеющиеся у заказчика системы: учетные, системы управления, даже какие-то самописные решения. При этом нас интересуют два глобальных типа данных: события о сбоях в тех или иных системах или объектах мониторинга и показатели функционирования – например, параметры доступности, производительности и т. д.  Этот уровень модифицируется в зависимости от ИТ-ландшафта, с которым мы работаем, и тех систем, которые есть у заказчика, и он может быть изменен наиболее гибко.

Следующий логический уровень, самый сложный, но также изменяемый – обработка и агрегация данных. Массив данных, который поступил из внешних систем, интеллектуально обрабатывается и принимает форму готовой аналитической информации: к примеру, он позволяет найти первопричину сбоя, аномалию функционирования ИТ-инфраструктуры. На этом уровне включаются различные наработки КРОК: аналитические движки, элементы машинного обучения, построение ресурсно-сервисных моделей, на основе которых можно провести сложную аналитику.

Третий уровень – визуализация уже обработанной информации: различные дашборды, отчеты – своеобразный ситуационный центр.

 

Логические уровни и компоненты СКМ

 

В чем уникальность решения КРОК по сравнению с проприетарными западными решениями — Microsoft и других вендоров?

— Я бы сказал, что на каждом из названных уровней свои ноу-хау. Например, при сборе данных мы не ограничены в источниках или поддерживаемых технологиях — так как изначально готовы к тому, что многие вещи нужно будет дорабатывать под заказчика. Мы изначально открыты к расширению функционала и включению в систему определенных, первоначально не поддерживаемых источников данных.

На втором уровне происходит интеллектуальная обработка данных на основе ресурсно-сервисных моделей (РСМ), мониторинг, учитывающий функционирование всех аппаратных и программных компонентов системы, а также различных дополнительных поддерживающих сервисов. Таким образом, модель рассчитывает статус сервиса наиболее объективно. Построение адекватной ресурсно-сервисной модели – очень нетривиальная задача, логика расчета в ней достаточно сложная. Ранее эту функцию действительно выполняли только большие закрытые вендорские решения. Но сегодня КРОК тоже умеет делать подобные расчеты, причем на открытом ПО.

Кроме того, мы используем машинное обучение в области систем мониторинга. Не секрет, что для адекватного построения модели необходимы большие объемы, и мониторинг — хороший источник для этой, по сути, Big Data. Мы берем информацию о функционировании тех или иных объектов инфраструктуры, чтобы делать сложную аналитику, которая позволяет добиться, к примеру, прогнозирования показателей ИТ-инфраструктуры или сервиса.

На уровне визуализации — мы предлагаем интуитивно понятный, функциональный дизайн, индивидуальный для каждого заказчика, используя открытые фреймворки с готовым набором различных графических виджетов и портлетов. Это чистое творчество с определением структуры интерфейса, с ролевой моделью, с представлением своей информации для каждой роли — особенно по сравнению с промышленным решением, где есть узкий набор настроек, определенных во встроенные конструкторы.

Вы упомянули, что решение СКМ обладает и предикативной функцией?

— Верно. Причем построение трендов на основе больших данных, то есть прогнозирование, — это только первый этап. Существует еще и более сложная задача — профилирование. Например, если мы определяем, что изо дня в день определенный объект ведет себя в течение недели по-разному, то становится не очень понятно, какое единое пороговое значение нормального состояния устанавливать, ведь в понедельник нормальным, к примеру, можно считать уровень загрузки сервиса 50%, а в пятницу — 90%. Так вот, на основе статистики показателей функционирования объекта система выстраивает его профиль, с помощью которого можно объективно выявлять аномальное поведение. Это позволяет нам работать уже и с динамическими порогами аномального поведения объекта.

Обработка данных мониторинга движком машинного обучения позволяет нашей модели самостоятельно обучаться выявлению причинно-следственных связей. Это позволят либо предиктивно отреагировать на проблему, либо реактивно ее решить в случае возникновения. Накопленная база знаний о возможных путях решения проблемы помогает оператору системы выбрать наиболее подходящее. Практика показывает, что такой подход позволяет значительно сократить время восстановления после сбоя. Это, по сути, шаг в будущее — когда движки машинного обучения будут предсказывать проблемы предиктивно или реактивно их решать в автоматическом режиме, основываясь на базе знаний. Будущее систем мониторинга за интеллектуальной обработкой событий.

 

Сервис контроля системной шины (КСШ)
(Кликните на изображение для увеличения)

 

Насколько стоимость владения (TCO) решением КРОК оказывается ниже по сравнению с решениями конкурентов? И заказчики каких сегментов могут себе его позволить?

— Исследования КРОК показали, что TCO зарубежного продукта, куда входит стоимость лицензий, поддержки, услуг по его разворачиванию и настройке в среднем более чем в 2 раза выше, чем стоимость внедрения стека технологий, который разработали мы. На самом деле, для многих компаний SMB внедрение вендорских решений мониторинга еще недавно было слишком дорогим. Они либо искали продукты каких-то нишевых игроков с разумным ценником, но небольшим функционалом, либо использовали отдельные компоненты open source, наращивая собственную компетенцию.

Мы же приходим с полным стеком решений, которые позволят закрыть все потребности бизнеса, но при этом учесть возможности каждого заказчика индивидуально. Каждый логический уровень СКМ может быть функционально упрощен или, наоборот, расширен — и от этого будет зависеть его стоимость. Поэтому решение подходит в том числе и для сегмента SMB, под проекты в пределах нескольких миллионов рублей.

Насколько объективно система мониторинга, предлагаемая КРОК, будет работать с такими специфическими видами данных, как информация систем автоматизации производства, датчиков «умного дома», вообще данным IoT?

— Первоначально система, разумеется, получает информацию от объектов ИТ-инфраструктуры, использующих стандартные протоколы коммуникации. Если мы говорим о неких низкоинфраструктурных протоколах — например, про общение датчика с контроллером, —мы берем за источник данных систему отраслевого мониторинга, для которой эти объекты «родные» и в которой уже хранится информация об их функционировании. Затем эту агрегированную информацию мы берем и анализируем по своим алгоритмам.

Если говорить о возможности использовать СКМ в разных кейсах, то мы активно сотрудничаем, например, с отделом информационной безопасности. Так, СКМ дорабатывается для выявления аномалий в инфраструктуре, возникающий из-за действий злоумышленников. Благодаря алгоритмам машинного обучения на основе массива данных об инцидентах в режиме реального времени определяется потенциальная опасность. Стоит отметить хорошие горизонтальные связи между подразделениями КРОК: мы предоставляем платформу и инструментарий, а отдел ИБ — аналитику, модели угроз, цепочки аномалий и т. д.

Подобные истории происходят и в других подразделениях компании: в области ITSM-практики, систем автоматизации и т. д.

 

Отчет о доступности сервиса
(Кликните на изображение для увеличения)

 

В ИТ-ландшафте некоторых крупных заказчиков — сотни информационных систем: от древних самописных до современных. Готово ли ваше решение к охвату такого объема источников?

— Относительно расширения источников данных — их может быть практически бесконечное количество. Второй логический уровень системы в этом смысле более критичен, но здесь мы можем менять алгоритмы обработки данных и при необходимости использовать интеграцию с нашими решениями в области Big Data.

Есть ли уже примеры коммерческих или тестовых инсталляций решения СКМ?

— Заказчики обычно осторожно относятся ко всем новшествам, однако мы стараемся привлечь их возможностями платформы, ее гибкостью, ценообразованием, а также гарантиями, которые мы даем при реализации таких проектов. И эта работа начала приносить плоды: для трех заказчиков мы уже делаем пилотные внедрения. Это крупные, территориально распределенные организации финансовой и энергетической отраслей, а также госсектора. Кроме того, решение участвует в различных тендерах.

В первую очередь, мы предлагаем систему нашим текущим заказчикам, с которыми у нас уже выстроены доверительные, долгосрочные партнерские отношения, у которых уже внедрен стек решений промышленного уровня, но дорогостоящий. С другой стороны, повторюсь, мы призываем не ломать старую систему, текущие бизнес-процессы, а подойти к оптимизации эволюционно, постепенно. Поэтому говорить об успешных внедрениях мы сможем только спустя какое-то время.

Машинное обучение — довольно сложный инструмент, требующий специальных компетенций. Сложно ли было подобрать адекватную команду для разработки решения СКМ?

— У нас, как у системного интегратора, есть множество компетенций не только по конкретному продукту или решению, но и по целым технологиям. Понятие Machine Learning появилось в компании задолго до идеи системы комплексного мониторинга. То есть компетенция по этому вопросу у нас уже была, и мы ее постоянно, целенаправленно развиваем. Наша команда состоит из специалистов, которые имеют опыт работы с прорывными технологиями, и сотрудников, знающих в совершенстве конкретные инструменты мониторинга. Появляется некая синергия, которая и позволяет нам уверенно двигаться вперед.

Как бы вы сформулировали три «золотых правила» грамотного внедрения системы ИТ-мониторинга — для CIO, которые только начинают интересоваться этим?

— Первое правило — остановить выбор на гибкой архитектуре решения, которая позволит его модифицировать и, главное, эволюционно развивать. Второе — быть открытым к новым перспективным технологиям — таким, как Big Data, машинное обучение, предиктивный анализ. Наконец, третье — найти хорошего технологического партнера с развитыми компетенциями, который сможет реализовать решение с гибкой архитектурой, используя перспективные технологии.

Автор: Александр Абрамов.

Тематики: Интеграция, ПО

Ключевые слова: КРОК