О компании
RAMAX Group — объединение системных интеграторов и компаний-разработчиков, охватывающее весь спектр потребностей заказчика: от разработки стратегии до сопровождения комплексных решений.
- Более 30 лет российском ИТ-рынке;
- 700+ сотрудников;
- Участник ТОП-25 российских ИТ-компаний рэнкинга RAEX Rating Review;
- Собственные разработки в области прогнозирования, управления ML-моделями и оптимизации;
- Собственная методология управления данными;
- Организация реализует 50+ проектов в год;
- Выручка группы компаний за 2023 год составила 1487,84 млн рублей.
Предпосылки проекта
У технологического консорциума не было единой ИТ-системы для управления жизненным циклом ML-моделей. Для каждого проекта разрабатывалась уникальная архитектура ML-решения, что приводило к ряду проблем:
- заметно увеличивался time-to-market;
- появлялись сложности масштабирования;
- возникали риски bus factor.
Вместе с этим у компании отсутствовала единая методология управления жизненным циклом ML-моделей, а рост внутренней экспертизы ограничивался рамками конкретных проектов.
Решение
Было принято решение разработать и внедрить единую платформу управления жизненным циклом ML-моделей (ML Фаб), а также развертывания и эксплуатации ML-сервисов (MLOps). В ходе проекта активно применялся внутренний опыт сравнения готовых вендорских платформ MLOps и использования Open Source-продуктов.
Особое внимание было уделено совместному применению решений MLOps и управления данными (Data Governance), так как на практике качество ML-сервисов критическим образом зависит от используемых данных.
Технологии
Платформа ML Фаб была разработана на базе:
- технологий Kubernetes для оркестровки и управления окружениями и контейнерами;
- набора Open Source-компонентов для MLOps, реализующих различные этапы жизненного цикла ML-моделей, включая разработку, развертывание, эксплуатацию и обновление в различных кейсах;
- набора компонентов для управления данными, усиливающего эффективность MLOps-подходов;
- единого подхода к безопасности, включая управление версиями, логирование, авторизацию SSO и управление доступом;
- уникального авторского кода развертывания, упрощающего процессы CI/CD для платформы, окружений и ML-сервисов на порядки.
Сложности проекта
При внедрении платформы необходимо провести масштабную работу по интеграции с существующей системой хранения данных, учесть разнообразные кейсы применения, а также реализовать единую сквозную методологию управления жизненным циклом ML-моделей.
Это было реализовано следующим образом:
- Жизненный цикл моделей был разделен на участие в пайплайнах данных, ML-экспериментов, вывода в ПРОД (CI/CD) и эксплуатации / мониторинга. Последний имеет уровни контроля приложения / сервиса, ML-модели, данных и прогнозов;
- Все артефакты жизненного цикла сохранялись в объектном S3-хранилище, откуда они были доступны на разных этапах именно в той версии, которая необходима;
- Для различных кейсов применения были организованы сборки компонентов, использующие единый авторский код развертывания.
Этапы проекта
- Апрель — сентябрь 2022: создание MVP платформы для отработки кейсов применения на практике;
- Октябрь-декабрь 2022: обучение внутренней команды, переход на единый стандарт работы по ML-проектам;
- 2023 год: первые внедрения у заказчика, получение обратной связи и доработки;
- Ноябрь 2023: получение патента на платформу;
- 2024 год: масштабирование платформы, реализация новых технологических сборок и обновлений (анализ временных рядов, компьютерное зрение, большие языковые модели, федеративное обучение).
Результаты проекта
Использование платформы ML Фаб привело к кратному снижению time-to-market на разных этапах жизненного цикла ML-моделей.
На основе внутреннего тестирования и реализации пилотных проектов были получены следующие результаты:
- в 10 раз быстрее стала скорость подготовки окружения и среды разработки (минуты вместо дней);
- в 5-7 раз сократилось время проведения анализа данных благодаря использованию Data Governance (часы вместо дней);
- в 3-5 раз быстрее проходит этап моделирования (дни вместо недель);
- в 7-10 раз быстрее осуществляется этап развертывания (часы вместо дней);
- на 30-50 % сократились затраты на поддержку ML-сервисов в ПРОД;
- значительно уменьшилось количество инцидентов и степень их влияния на работу систем (минимальное число простоев).
Помимо этого, значительно снизились затраты на обучение новых сотрудников, ликвидировались потери от bus factor, так как артефакты всех процессов вокруг реализованных ML-моделей стали всегда доступными, а все процессы легко воспроизводимыми.
Перспективы проекта
В начале 2025 года планируется завершение регистрации платформы ML Фаб в Реестре российского ПО Минцифры, что позволит применять ее для более широкого круга компаний. Помимо технологических сборок под различные ML-сервисы планируется развитие отраслевых сборок, включая адаптации для нефтегазовой, горнодобывающей и обрабатывающей промышленностей.