У нашего ЕЦУС две основные площадки – в Санкт-Петербурге и Самаре, – которые функционально разделены, но при необходимости взаимозаменяют друг друга. Например, когда однажды в Самаре в пять утра в выходной сработала пожарная сигнализация – весь мониторинг временно «переехал» в Санкт-Петербург. Занимает это буквально 10-15 минут.
ЕЦУС состоит из нескольких подразделений. Оперативно-техническое направление работает непосредственно с оборудованием. Каждый инженер имеет специализацию по определенному виду оборудования: это ИТ-системы, коммутационные системы, транспортные системы, биллинг, базовые станции. Также происходит распределение по филиалам оператора. В итоге, например, один сотрудник мониторит состояние только коммутаторов и исключительно на территории Дальневосточного филиала.
Техническая поддержка – это работа с клиентами. Когда в колл-центр МегаФона поступает заявка, требующая помощи узкоспециализированного инженера, она передается к нам. В ЕЦУС обращаются не только абоненты-физлица, но и, например, операторы связи.
Направление по координации плановых работ занимается распределением регламентных и ремонтных работ. Оборудование необходимо вовремя обслуживать, а если оно вышло из строя, – оперативно ремонтировать. Такие работы проводятся в основном ночью, в часы наименьшей нагрузки на сеть, чтобы они не повлияли на качество услуг для абонентов. Необходимо не только корректно провести работы, но и сделать так, чтобы они прошли в установленные сроки и не привели к каким-либо негативным последствиям. Менеджер плановых работ отслеживает, что все работы согласованы, оценивает ситуацию на сети на наличие определенных факторов, из-за которых те или иные действия могут быть отменены.
И самое важное – направление непрерывности. Его возглавляют главные оперативные дежурные в Петербурге и в Самаре. Главный оперативный дежурный (он же ГОД) мониторит всю сеть целиком.
Сергей Галынкин, главный оперативный дежурный ЕЦУС МегаФона в Санкт-Петербурге
Инженеры, находящиеся в зале мониторинга, работают, как правило, сутки через трое. График сотрудников техподдержки может варьироваться. Старшие инженеры могут работать как в пятидневку, так и 2/2, а ведущие эксперты – только в пятидневку.
Стартовая должность в центре – инженер по мониторингу определенного вида оборудования. При подборе мы абсолютно открыты для внешнего рынка. Конечно, внутри компании мы можем первыми узнавать о вакансиях, но также с ними работает отдел кадров, который размещает объявления через рекрутинговые агрегаторы и агентства. ЕЦУС в этом плане не специфичен, здесь к кандидатам не предъявляют каких-то чрезмерных или только внутрикорпоративных требований. На каждое направление подбираются сотрудники, которые наиболее подходят по скиллам. У нас работают даже студенты последних курсов: наш график позволяет привлекать их на практику, и они вполне успешно справляются. По окончании вуза многие остаются с нами.
Например, я пришел сюда на вакантную должность с внешнего рынка, начинал именно с работы обычным инженером по мониторингу работы базовых станций Северо-Западного филиала. Мониторинг сети в узкоспециализированном кластере оборудования оправдывает себя: если ты отвечаешь за БС, тебя никто не спрашивает, например, за работу биллинга. Это позволяет получить углубленные знания в своем сегменте оборудования, не распыляясь на что-то другое. Но поскольку все смены находятся в одном помещении и само оборудование взаимодействует между собой, вполне очевидно, что в рамках своих обязанностей специалист понемногу осваивает работу с транспортной сетью, с ИТ-системами и т. д.
Поэтому, когда я на протяжении двух лет проработал на базовых станциях, то получил некоторые знания в смежных направлениях, сформировал для себя целостную картину взаимодействия наших систем и ресурсов. Тогда я перешел в подразделение по координации плановых работ. А по прошествии еще чуть более двух лет стал главным оперативным дежурным.
Работа инженера по мониторингу заключается не только в том, чтобы следить за диаграммами на мониторе. В его обязанности входит отслеживание и сопровождение всех инцидентов на оборудовании, о которых оповещает система. Конечно, многие вещи выполняются в автоматизированном режиме. Например, если злоумышленники повредили кабели связи, система автоматически посылает SMS в то региональное отделение, где произошел инцидент.
Много звонков поступает в том числе и от тех служб МегаФона, которые обслуживают оборудование. Например, в определенной локации повесили дополнительную антенну, улучшили связь – специалисты звонят дежурному и сдают ему это оборудование, введенное в эксплуатацию. Тот должен проверить, есть ли на нем нагрузка, всё ли в порядке.
Происходит коммуникация и с коллегами по смежным направлениям. Например, если что-то случилось на транспортной сети, коллеги интересуются у дежурного инженера по базовым станциям, всё ли в порядке с подконтрольной ему площадкой в зоне неисправности. Такие диалоги происходят постоянно в течение дня. Поэтому работа инженеров не только ответственная, но и в определенной степени творческая.
Единый центр управления сервисами в 2019 году перестроился таким образом, чтобы обеспечивать связь с более внимательным учетом потребностей абонентов. Например, авария фисксируется в системе по пяти обращениям: когда хотя бы пять абонентов позвонили в контактный центр с жалобой на одну и ту же проблему. У инженеров прописаны четкие KPI по срокам регистрации, локализации, завершения инцидента.
Последствия крупных аварий, вызванных природными катастрофами или форс-мажорными обстоятельствами, невозможно предугадать. Информация о таких инцидентах находится под контролем как инженеров, так и главного оперативного дежурного, который взаимодействует с PR. Таким образом в СМИ всегда поступают актуальные и точные сведения.
ЕЦУС осуществляет управление сетью, в том числе контроль над обеспечением связи крупных мероприятий и праздников. Например, подготовка к Новому году включает в себя усиленный мониторинг сети, проведение регламентных работ, тестовый запуск дизельных установок, проверку работы транспортного оборудования, перезагрузку некоторых серверов и другого оборудования, если это технологически обосновано. Непосредственно в Новый год в строй вступают имеющиеся резервы. Накопленная за последние годы практика и статистика позволяет нам примерно спрогнозировать ту нагрузку, которая будет создаваться на оборудование, и делать максимально точные расчеты. Сеть к этому готова, и 31-го декабря мы наблюдаем живую картину, как меняются показатели по стране. На видеостене у нас изображена интерактивная карта: мы видим, как праздник (а с ним и всплеск трафика) начинается на Камчатке и заканчивается в Калининграде, как он идет по всей стране. Поэтому мы девять раз встречаем Новый год.
Если же предстоит «физическое» мероприятие, система выстраивается немного по-другому. В каждом филиале МегаФона есть собственные инженеры, которые прекрасно знают особенности сети на своей территории и могут объективно оценить, какие условия на площадке проведения мероприятия, какой рельеф местности, какие базовые станции туда можно поставить, в каком радиусе, какая там нагрузка будет и т. д. В соответствии с этим они устанавливают необходимое оборудование. И с момента его включения оно попадает на контроль ЕЦУС. Наш инженер выводит его в отдельный мониторинг, и к началу мероприятия формируется пул оборудования, которое обеспечивает качество связи на этом мероприятии. Если это необходимо, для контроля за ним привлекается отдельный сотрудник дежурной смены.
Например, каждый год мы готовимся к празднику выпускников «Алые паруса». Мы понимаем, что народ сначала скапливается на Дворцовой, затем все идут на набережную, к Ростральным колоннам, Петропавловской крепости. И мы как будто куполом накрываем эту зону, определяем расстановку базовых станций, в том числе мобильных, прогнозируем количество абонентов. И потом под такой «зонтичной» системой следим за мероприятием. В случае чего – связываемся с профильным сотрудником, который дежурит на объекте. Обычно всё проходит так, как и было спрогнозировано. Абонент почти не ощущает трудностей, которые испытывает сеть, и не видит той работы которая предшествует этому всему.
Так и должно быть. Сеть живая, и мы под нее подстраиваемся.
Работа главного оперативного дежурного так же включает в себя большой пул обязанностей. Основной объем работ – это контроль текущего устранения инцидентов на сети, без которых, к сожалению, в силу разных причин не обходится деятельность любого оператора связи. ГОД постоянно держит на оперативном контроле процесс, получая соответствующие сведения от инженеров ЕЦУС и сотрудников полевой эксплуатации, при необходимости информируя вышестоящее руководство. Также он должен отслеживать основные показатели состояния сети по всем регионам и в случае ухудшения той или иной метрики обратить на это внимание инженера.
Помимо верхнеуровневого мониторинга сети много времени занимает организация плановых работ. Так, во второй половине дня в ЕЦУС поступает перечень работ, согласованных всеми участниками на местах. ГОДам двух площадок совместно с менеджерами по плановым работам необходимо оценить их в совокупности и понять, не приведут ли некоторые из них к конфликтам. На это уходит от получаса до двух часов.
Также через главного оперативного дежурного проходят коммуникации с Минцифры и ситуационным центром этого министерства. От госорганов поступает определенное количество запросов. Например, в начале декабря целую неделю у нас была тренировка с Минцифры, МЧС и всеми операторами: четыре района условно объявляли «зонами бедствия» и проверяли, насколько быстро операторы устраняют неполадки: получают резервный ДГУ, организуют аварийный межсетевой роуминг (АМР) и т. д.
На контроле главного оперативного дежурного также – все оповещения, которые приходят абонентам от МЧС и других ведомств. Количество запросов на оповещения большое, каждый орган власти должен в своем округе население о чем-то предупредить. Нам необходимо следить, чтобы количество сообщений не превышало заданного уровня нагрузки на службу рассылки.
Определенное время занимает обработка запросов от профильных подразделений, которые так же вносят коррективы в планирование работ на сети.
До появления ЕЦУС у МегаФона существовала некая воронка: большое количество различных событий на сети, много регионов, центральных отделений. Каждый работал в своей системе, по своим правилам. ЕЦУС позволил всем ответственным лицам находиться в едином инфополе, работать в одной системе мониторинга, по одним правилам и регламентам. Соответственно, процессы стали более контролируемыми, их можно оценить, поставить четкие цели. Когда ты видишь все взаимодействия между филиалами, система становится гораздо более гибкой и открытой.
Основные достижения ЕЦУС за последние годы:
Я уже упоминал, что в 2019 году ЕЦУС «развернул» все процессы управления сетью в сторону абонента. В 2024 году мы пойдем еще дальше в этом направлении, в том числе начнем прогнозировать некоторые дополнительные факторы, которые могут повлиять на качество сети. Например, мы будем более детализированно мониторить трафик в мессенджерах и соцсетях, чтобы своевременно выявить причину сбоя и сообщить об этом абоненту. Будем обращать большее внимание на сезонность, покрытие в районах новостроек.
На базе ЕЦУС сформировано подразделение для внешних заказчиков, мы ведем мониторинг сторонних систем. Это могут быть не только частные сети связи, но и, например, системы электропитания, видеонаблюдение и вообще всё, что угодно. Этот сервис в последние годы оказался очень востребованным.
Особую гордость мы испытываем за те инструменты мониторинга, которые созданы нашими руками. Мы уже долгое время не покупаем ПО, сами его разрабатываем или дорабатываем, сами обучаем сотрудников. Также за эти десять лет существенно увеличился объем автоматизированных процессов в системе – например, в плане оповещений или первичной диагностики оборудования. Это позволяет нам постоянно улучшать KPI и качество сервисов для абонентов.