Когда клиентов 150 тысяч: как Timeweb Cloud перестраивает сеть и сборку серверов

Фото: Timeweb Cloud
Кратный рост нагрузок становится нормой для облачного рынка. Одна из задач провайдера — это инфраструктура, которая будет масштабироваться без потери стабильности, синхронно с бизнесом.

Только с декабря прошлого года Timeweb Cloud прирос на 30 тысяч клиентов — теперь их 150 тысяч. Каждую минуту в панели управления устанавливается больше двух серверов. Ниже проблемы, с которыми мы столкнулись в последнее время, и наши решения. 

Нагрузка растет быстрее прогнозов

Трафик на отдельных магистралях уперся в проектные лимиты досрочно. Универсальные маршрутизаторы, которые работали годами, в какой-то момент превратились в узкое место. 

Мы не стали точечно наращивать емкость, вместо этого пересобираем сетевую архитектуру.

Во-первых, расширили магистральные сети. Поэтапно переходим с универсальных на высокопроизводительные пакетные платформы — линейку Juniper PTX10000, которая поддерживает интерфейсы 400G. Первым стал Петербург, дальше будет Москва и другие города. 

Во-вторых, параллельно разворачиваем DWDM — технологию, которая уплотняет множество каналов в одном оптоволокне. На ее основе будем строить OTN-сети с отказоустойчивыми магистралями. Такой проект уже реализован в столице: мы запустили DWDM и расширили канал на ключевом узле до нескольких терабит. На очереди другие крупные города. 

В-третьих, в планах запуск городских MAN-сетей там, где у нас несколько локаций. Первый такой проект будет в Москве: объединим площадки в единое отказоустойчивое кольцо общей емкостью в несколько десятков терабит в секунду. Каждую нашу локацию подключим минимум к двум независимым узлам связи — получится до 4 Тбит/с на площадку. Будет больше связности и отказоустойчивости сети, сократятся маршруты до клиентских систем.

Что почувствуют клиенты — у них будет надежная инфраструктура под крупные проекты и интенсивные нагрузки.  AI-платформы, распределенные базы данных и массовые бэкапы будут стабильно работать даже в пиковые периоды. 

Серверы — за секунды

Когда установок стало больше трех тысяч в день, старый подход перестал работать. Каждый сервер должен быть готов из коробки: с актуальными обновлениями и корректно настроенной сетью. Для этого мы пересмотрели внутренний конвейер сборки и перешли на готовые облачные образы вендоров. 

Мы перестроили сам процесс подготовки образов операционных систем. Вместо одного сложного сценария — два простых конвейера, которые автоматически собирают и обновляют образы каждую неделю. 

Первый конвейер унифицирует диски: делает их совместимыми с нашими стандартами, чтобы любая ОС вела себя стабильно и предсказуемо. Затем второй конвейер применяет настройки и вносит изменения, специфичные для каждого семейства систем. Команда лишь добавляет новые образы по запросам клиентов. 

В результате подготовка и обновление нового образа занимает до 15 минут, а запуск сервера у клиента — десятки секунд.

Серверы работают сразу после выбора подходящей конфигурации в панели управления. Под капотом 58 готовых решений на весь стек: от Linux для облачных серверов до сборок под Kubernetes и другие managed-сервисы. 

Вместо заключения: главные уроки этой гонки

Быстрый рост нагрузки — это не просто цифры в отчетах, а стресс-тест для всей инфраструктуры. Есть два пути: тушить пожары по мере возникновения или строить архитектуру с запасом прочности. Мы выбрали второе.

Максим Яковлев, CTO Timeweb Cloud

Тематики: Интеграция

Ключевые слова: облачные услуги, ИТ инфраструктура, Timeweb Cloud