Как DeepSeek R1 прорвался сквозь санкции и стал дешевле конкурентов

Фото freepik.com
DeepSeek, молодая китайская компания, представила свою новую разработку — языковую модель DeepSeek R1, которая демонстрирует впечатляющие результаты при существенно меньших затратах по сравнению с аналогами от западных компаний.

Особенность модели заключается в её способности эффективно решать сложные задачи в области математики и программирования. DeepSeek R1 использует метод пошагового мышления ("chain of thought"), который позволяет разбивать комплексные проблемы на последовательность простых шагов. При решении математических задач модель сначала анализирует условия, затем методично производит вычисления и только после этого формулирует окончательный ответ.

Компания также выпустила линейку из шести облегчённых версий модели, включая вариант, который можно использовать даже на обычном ноутбуке. Это существенное достижение в контексте текущих технологических ограничений.

Успех DeepSeek особенно примечателен на фоне действующих американских санкций, запрещающих поставки в Китай высокопроизводительных полупроводников, включая GPU Nvidia A100 и H100. Однако эти ограничения, похоже, стимулируют китайские компании к поиску более эффективных решений и развитию сотрудничества внутри отрасли.

История компании началась в Ханчжоу в июле 2023 года. Её основатель, Лян Вэньфэн, выпускник Чжэцзянского университета, создал независимую компанию, не связанную с китайскими технологическими гигантами вроде Baidu, Alibaba или ByteDance. Финансирование DeepSeek поступает от хедж-фонда High-Flyer, основанного самим Вэньфэном в 2015 году.

Компания достигла впечатляющих результатов в оптимизации ресурсов: для обучения модели с 671 миллиардом параметров было использовано 2048 GPU H800, а общие затраты составили 5,6 миллионов долларов. Для сравнения: обучение GPT-4 от OpenAI обошлось примерно в 78,4 миллиона долларов, Google PaLM (540B) — в 12,4 миллиона, а Gemini Ultra — в 191 миллион долларов.

DeepSeek делает ставку на открытый исходный код (open-source), что становится всё более популярным подходом среди компаний с ограниченным доступом к вычислительным ресурсам. Такая стратегия позволяет не только экономить средства и время на разработку, но и создаёт условия для активного обмена опытом в профессиональном сообществе. Разработчики и исследователи получают возможность совместно улучшать технологии, что способствует более быстрому развитию отрасли в целом.

Автор: Александр Абрамов.

Тематики: ПО, Инновации

Ключевые слова: Искусственный интеллект, Нейросети