Связаны единой сетью. ЕЦУС МегаФона в Петербурге: вчера, сегодня, завтра

Контроль сетевой инфраструктуры ведущего оператора связи по всей стране – чрезвычайно ответственная, но в то же время во многом творческая работа. Меня зовут Сергей Галынкин, я главный оперативный дежурный Единого Центра Управления Сервисами (ЕЦУС) МегаФона в Санкт-Петербурге. Сейчас я расскажу, как мы со всем справляемся.

У нашего ЕЦУС две основные площадки – в Санкт-Петербурге и Самаре, – которые функционально разделены, но при необходимости взаимозаменяют друг друга. Например, когда однажды в Самаре в пять утра в выходной сработала пожарная сигнализация – весь мониторинг временно «переехал» в Санкт-Петербург. Занимает это буквально 10-15 минут.

Структура ЕЦУС

ЕЦУС состоит из нескольких подразделений. Оперативно-техническое направление работает непосредственно с оборудованием. Каждый инженер имеет специализацию по определенному виду оборудования: это ИТ-системы, коммутационные системы, транспортные системы, биллинг, базовые станции. Также происходит распределение по филиалам оператора. В итоге, например, один сотрудник мониторит состояние только коммутаторов и исключительно на территории Дальневосточного филиала.

Техническая поддержка – это работа с клиентами. Когда в колл-центр МегаФона поступает заявка, требующая помощи узкоспециализированного инженера, она передается к нам. В ЕЦУС обращаются не только абоненты-физлица, но и, например, операторы связи.

Направление по координации плановых работ занимается распределением регламентных и ремонтных работ. Оборудование необходимо вовремя обслуживать, а если оно вышло из строя, – оперативно ремонтировать. Такие работы проводятся в основном ночью, в часы наименьшей нагрузки на сеть, чтобы они не повлияли на качество услуг для абонентов. Необходимо не только корректно провести работы, но и сделать так, чтобы они прошли в установленные сроки и не привели к каким-либо негативным последствиям. Менеджер плановых работ отслеживает, что все работы согласованы, оценивает ситуацию на сети на наличие определенных факторов, из-за которых те или иные действия могут быть отменены.

И самое важное – направление непрерывности. Его возглавляют главные оперативные дежурные в Петербурге и в Самаре. Главный оперативный дежурный (он же ГОД) мониторит всю сеть целиком.

 

Сергей Галынкин, главный оперативный дежурный ЕЦУС МегаФона в Санкт-Петербурге

 

Единый Центр Управления Сервисами (ЕЦУС) МегаФона – подразделение, которое осуществляет круглосуточный мониторинг состояния сети оператора по всей России, а также управляет всем оборудованием (голосовая и пакетная коммутация, транспортная сеть, сервисные платформы – более 300 000 тысяч элементов). ЕЦУС географически распределен на две основные, резервирующие друг друга, площадки в Санкт-Петербурге и Самаре, а также дополнительную в Москве. Центр заработал на полную мощность в 2015 году, но за два года до этого стартовала программа МегаФона OSS (Operation Support System, система поддержки операций), в результате которой около 500 различных промышленных и локальных, вендорных и самописных информационных систем оператра были объединены в консолидированную зонтичную систему. Поэтому в 2023 году ЕЦУС официально отмечает первое десятилетие работы. Со временем компания перешла с концепции единого центра управления сетью к концепции центра управления сервисами – что не повлияло на аббревиатуру подразделения.

Инженеры, находящиеся в зале мониторинга, работают, как правило, сутки через трое. График сотрудников техподдержки может варьироваться. Старшие инженеры могут работать как в пятидневку, так и 2/2, а ведущие эксперты – только в пятидневку.

Вакансии и карьера в ЕЦУС

Стартовая должность в центре – инженер по мониторингу определенного вида оборудования. При подборе мы абсолютно открыты для внешнего рынка. Конечно, внутри компании мы можем первыми узнавать о вакансиях, но также с ними работает отдел кадров, который размещает объявления через рекрутинговые агрегаторы и агентства. ЕЦУС в этом плане не специфичен, здесь к кандидатам не предъявляют каких-то чрезмерных или только внутрикорпоративных требований. На каждое направление подбираются сотрудники, которые наиболее подходят по скиллам. У нас работают даже студенты последних курсов: наш график позволяет привлекать их на практику, и они вполне успешно справляются. По окончании вуза многие остаются с нами.

Например, я пришел сюда на вакантную должность с внешнего рынка, начинал именно с работы обычным инженером по мониторингу работы базовых станций Северо-Западного филиала. Мониторинг сети в узкоспециализированном кластере оборудования оправдывает себя: если ты отвечаешь за БС, тебя никто не спрашивает, например, за работу биллинга. Это позволяет получить углубленные знания в своем сегменте оборудования, не распыляясь на что-то другое. Но поскольку все смены находятся в одном помещении и само оборудование взаимодействует между собой, вполне очевидно, что в рамках своих обязанностей специалист понемногу осваивает работу с транспортной сетью, с ИТ-системами и т. д.

Поэтому, когда я на протяжении двух лет проработал на базовых станциях, то получил некоторые знания в смежных направлениях, сформировал для себя целостную картину взаимодействия наших систем и ресурсов. Тогда я перешел в подразделение по координации плановых работ. А по прошествии еще чуть более двух лет стал главным оперативным дежурным.

 

 

Непрерывный мониторинг

Работа инженера по мониторингу заключается не только в том, чтобы следить за диаграммами на мониторе. В его обязанности входит отслеживание и сопровождение всех инцидентов на оборудовании, о которых оповещает система. Конечно, многие вещи выполняются в автоматизированном режиме. Например, если злоумышленники повредили кабели связи, система автоматически посылает SMS в то региональное отделение, где произошел инцидент. 

Много звонков поступает в том числе и от тех служб МегаФона, которые обслуживают оборудование. Например, в определенной локации повесили дополнительную антенну, улучшили связь – специалисты звонят дежурному и сдают ему это оборудование, введенное в эксплуатацию. Тот должен проверить, есть ли на нем нагрузка, всё ли в порядке.

 

 

Ураганы, прошедшие в сентябре в нескольких регионах страны, привели к многочисленным отключениям электричества. Ответственный инженер ЕЦУС должен был быстро проанализировать ситуацию, выяснить, какие базовые станции остались без питания, какая из них является узловой, позвонить в регион и предупредить: «у нас остановка электроснабжения на десяти площадках, самая важная вот эта, направляйте туда бригаду с дизель-генератором». И через определенный интервал времени нужно было звонить и осведомляться о статусе работ. Кроме того, если базовая станция долго находится без питания, у инженера есть полномочия выключить часть сервисов, чтобы уменьшить энергопотребление. Например, в случае аварии ремонтной бригаде голосовые вызовы важны гораздо больше, чем передача данных. Выключив 3G и 4G, можно высвободить достаточный объем мощности, чтобы поддерживать бесперебойную связь по 2G.

Происходит коммуникация и с коллегами по смежным направлениям. Например, если что-то случилось на транспортной сети, коллеги интересуются у дежурного инженера по базовым станциям, всё ли в порядке с подконтрольной ему площадкой в зоне неисправности. Такие диалоги происходят постоянно в течение дня. Поэтому работа инженеров не только ответственная, но и в определенной степени творческая.

Единый центр управления сервисами в 2019 году перестроился таким образом, чтобы обеспечивать связь с более внимательным учетом потребностей абонентов. Например, авария фисксируется в системе по пяти обращениям: когда хотя бы пять абонентов позвонили в контактный центр с жалобой на одну и ту же проблему. У инженеров прописаны четкие KPI по срокам регистрации, локализации, завершения инцидента.

Последствия крупных аварий, вызванных природными катастрофами или форс-мажорными обстоятельствами, невозможно предугадать. Информация о таких инцидентах находится под контролем как инженеров, так и главного оперативного дежурного, который взаимодействует с PR. Таким образом в СМИ всегда поступают актуальные и точные сведения.

Новый год встречаем девять раз

ЕЦУС осуществляет управление сетью, в том числе контроль над обеспечением связи крупных мероприятий и праздников. Например, подготовка к Новому году включает в себя усиленный мониторинг сети, проведение регламентных работ, тестовый запуск дизельных установок, проверку работы транспортного оборудования, перезагрузку некоторых серверов и другого оборудования, если это технологически обосновано. Непосредственно в Новый год в строй вступают имеющиеся резервы. Накопленная за последние годы практика и статистика позволяет нам примерно спрогнозировать ту нагрузку, которая будет создаваться на оборудование, и делать максимально точные расчеты. Сеть к этому готова, и 31-го декабря мы наблюдаем живую картину, как меняются показатели по стране. На видеостене у нас изображена интерактивная карта: мы видим, как праздник (а с ним и всплеск трафика) начинается на Камчатке и заканчивается в Калининграде, как он идет по всей стране. Поэтому мы девять раз встречаем Новый год.

14 декабря 2023 года проходила Прямая линия с Президентом РФ. Под такие события в ЕЦУС организуется усиленное дежурство и усиленный двухнедельный мониторинг объектов связи, которые обеспечивают это мероприятие. Задача ЕЦУС – чтобы все абоненты МегаФона и Yota дозвонились по номерам Прямой линии либо посланные SMS достигли цели. Для этого привлекаются дополнительные сотрудники, которые следят только за тем, чтобы конкретное оборудование работало беспрекословно. Также заблаговременно вводится запрет на проведение любых работ на сети, кроме предаварийных. Снижается нагрузка на сеть.

Если же предстоит «физическое» мероприятие, система выстраивается немного по-другому. В каждом филиале МегаФона есть собственные инженеры, которые прекрасно знают особенности сети на своей территории и могут объективно оценить, какие условия на площадке проведения мероприятия, какой рельеф местности, какие базовые станции туда можно поставить, в каком радиусе, какая там нагрузка будет и т. д. В соответствии с этим они устанавливают необходимое оборудование. И с момента его включения оно попадает на контроль ЕЦУС. Наш инженер выводит его в отдельный мониторинг, и к началу мероприятия формируется пул оборудования, которое обеспечивает качество связи на этом мероприятии. Если это необходимо, для контроля за ним привлекается отдельный сотрудник дежурной смены.

Например, каждый год мы готовимся к празднику выпускников «Алые паруса». Мы понимаем, что народ сначала скапливается на Дворцовой, затем все идут на набережную, к Ростральным колоннам, Петропавловской крепости. И мы как будто куполом накрываем эту зону, определяем расстановку базовых станций, в том числе мобильных, прогнозируем количество абонентов. И потом под такой «зонтичной» системой следим за мероприятием. В случае чего – связываемся с профильным сотрудником, который дежурит на объекте. Обычно всё проходит так, как и было спрогнозировано. Абонент почти не ощущает трудностей, которые испытывает сеть, и не видит той работы которая предшествует этому всему.

Так и должно быть. Сеть живая, и мы под нее подстраиваемся.

 

 

ГОД – главный оперативный дежурный

Работа главного оперативного дежурного так же включает в себя большой пул обязанностей. Основной объем работ – это контроль текущего устранения инцидентов на сети, без которых, к сожалению, в силу разных причин не обходится деятельность любого оператора связи. ГОД постоянно держит на оперативном контроле процесс, получая соответствующие сведения от инженеров ЕЦУС и сотрудников полевой эксплуатации, при необходимости информируя вышестоящее руководство. Также он должен отслеживать основные показатели состояния сети по всем регионам и в случае ухудшения той или иной метрики обратить на это внимание инженера.

Помимо верхнеуровневого мониторинга сети много времени занимает организация плановых работ. Так, во второй половине дня в ЕЦУС поступает перечень работ, согласованных всеми участниками на местах. ГОДам двух площадок совместно с менеджерами по плановым работам необходимо оценить их в совокупности и понять, не приведут ли некоторые из них к конфликтам. На это уходит от получаса до двух часов.

Аварийный межсетевой роуминг (АМР) – специальный режим, который может вводиться для обеспечения непрерывного предоставления услуг сотовой связи абонентам в случае стихийного бедствия или возникновении крупной аварии в сети одного из мобильных операторов сотовой связи. В такой ситуации по распоряжению Роскомнадзора оказание услуг данного оператора осуществляется с использованием ресурсов других операторов. Регламент запуска такого режима утвержден еще в 2012 году. АМР уже помогал связистам в разрешении инцидентов. Например, в 2013 году он использовался для обеспечения стабильной работы сетей в зоне ЧС на Дальнем Востоке. 

Также через главного оперативного дежурного проходят коммуникации с Минцифры и ситуационным центром этого министерства. От госорганов поступает определенное количество запросов. Например, в начале декабря целую неделю у нас была тренировка с Минцифры, МЧС и всеми операторами: четыре района условно объявляли «зонами бедствия» и проверяли, насколько быстро операторы устраняют неполадки: получают резервный ДГУ, организуют аварийный межсетевой роуминг (АМР) и т. д.

На контроле главного оперативного дежурного также – все оповещения, которые приходят абонентам от МЧС и других ведомств. Количество запросов на оповещения большое, каждый орган власти должен в своем округе население о чем-то предупредить. Нам необходимо следить, чтобы количество сообщений не превышало заданного уровня нагрузки на службу рассылки.

Определенное время занимает обработка запросов от профильных подразделений, которые так же вносят коррективы в планирование работ на сети.

 

Десять лет непрерывного развития

До появления ЕЦУС у МегаФона существовала некая воронка: большое количество различных событий на сети, много регионов, центральных отделений. Каждый работал в своей системе, по своим правилам. ЕЦУС позволил всем ответственным лицам находиться в едином инфополе, работать в одной системе мониторинга, по одним правилам и регламентам. Соответственно, процессы стали более контролируемыми, их можно оценить, поставить четкие цели. Когда ты видишь все взаимодействия между филиалами, система становится гораздо более гибкой и открытой.

Основные достижения ЕЦУС за последние годы:

  • усиленный мониторинг сервисов, внедрены показатели по качеству;
  • сохранение оптимального количества сотрудников в условиях роста сети и объема объектов инфраструктуры для мониторинга;
  • непрерывное совершенствование инструментов мониторинга и аналитических систем;
  • появление сервиса по мониторингу оборудования стороннего оператора или инфраструктурной компании.

Я уже упоминал, что в 2019 году ЕЦУС «развернул» все процессы управления сетью в сторону абонента. В 2024 году мы пойдем еще дальше в этом направлении, в том числе начнем прогнозировать некоторые дополнительные факторы, которые могут повлиять на качество сети. Например, мы будем более детализированно мониторить трафик в мессенджерах и соцсетях, чтобы своевременно выявить причину сбоя и сообщить об этом абоненту. Будем обращать большее внимание на сезонность, покрытие в районах новостроек.

На базе ЕЦУС сформировано подразделение для внешних заказчиков, мы ведем мониторинг сторонних систем. Это могут быть не только частные сети связи, но и, например, системы электропитания, видеонаблюдение и вообще всё, что угодно. Этот сервис в последние годы оказался очень востребованным.

Особую гордость мы испытываем за те инструменты мониторинга, которые созданы нашими руками. Мы уже долгое время не покупаем ПО, сами его разрабатываем или дорабатываем, сами обучаем сотрудников. Также за эти десять лет существенно увеличился объем автоматизированных процессов в системе – например, в плане оповещений или первичной диагностики оборудования. Это позволяет нам постоянно улучшать KPI и качество сервисов для абонентов.

Тематики: Мобильная связь, Кадры

Ключевые слова: МегаФон