DeepSeek представила языковые модели V4-Pro и V4-Flash

24.04.2026 |

Александр Абрамов

Фото freepik.com

Китайская компания DeepSeek 24 апреля 2026 года представила новые языковые модели V4-Pro и V4-Flash. Превью-версии доступны пользователям чат-бота в режиме «Эксперт», веса моделей опубликованы на платформах Hugging Face и ModelScope.

Технические характеристики

Обе модели поддерживают контекстное окно до 1 млн токенов — это позволяет обрабатывать объём текста, сопоставимый с трилогией «Задача трех тел» Лю Цысиня, без разбиения на части. Модели могут функционировать как в режиме «рассуждений» (с возможностью регулировки интенсивности через параметр reasoning_effort), так и без него.

Согласно документации на Hugging Face, в моделях применены несколько архитектурных улучшений: гибридный механизм внимания (CSA и HCA) для повышения эффективности работы с длинными контекстами, Manifold-Constrained Hyper-Connections (mHC) для стабилизации сигнала между слоями и оптимизатор Muon для ускорения сходимости и стабильности обучения.

V4-Pro: совокупный объём параметров — 1,6 трлн, задействуемых на генерацию — около 49 млрд. Позиционируется как лидер среди открытых моделей в задачах математики, программирования и естественных наук. По уровню общих знаний уступает только Gemini 3.1 Pro. Модель также показывает лучшие результаты в бенчмарках по агентному программированию, превосходя, по внутренним оценкам, Sonnet 4.5 и приближаясь к Opus 4.6 (без режима «размышления»). В сторонних рейтингах на платформе vals.ai модель занимает 9-е место в мире и 1-е среди открытых.
V4-Flash: более лёгкая версия, содержащая 284 млрд параметров (активных — около 13 млрд на генерацию). Ориентирована на массовые сценарии. Обеспечивает более высокую скорость отклика и сниженную стоимость эксплуатации при сопоставимом с флагманом качестве в базовых задачах. По заявлению компании, уровень рассуждений Flash-версии близок к Pro.

Интеграции и совместимость

V4-Pro поддерживает интеграцию с инструментами разработки, включая Claude Code, OpenClaw и OpenCode. Обе модели совместимы с экосистемой NVIDIA CUDA и ускорителями Huawei Ascend NPU. Компания Huawei сообщила, что кластеры Ascend всех типов поддерживают DeepSeek V4, а на процессорах Ascend 950 обеспечивается низкая задержка вывода: около 20 мс для V4-Pro и 10 мс для V4-Flash в сценарии с 8K входных токенов.

API-сервис поддерживает интерфейсы OpenAI Chat Completions и Anthropic. Для вызова моделей необходимо указать model_name: deepseek-v4-pro или deepseek-v4-flash.

Доступ и цены

V4-Flash: цена за 1 млн токенов — 0,2 юаня (около 2,19 рубля) на вход с кэшем, 1 юань (около 10,94 рубля) на вход без кэша, 2 юаня (около 21,89 рубля) на выход.
V4-Pro: цена за 1 млн токенов — 1 юань (около 10,94 рубля) на вход с кэшем, 12 юаней (около 131,33 рубля) на вход без кэша, 24 юаня (около 262,66 рубля) на выход.

В связи с ограниченностью вычислительных мощностей пропускная способность Pro-версии в настоящее время ограничена. Ожидается, что после выхода узлов «Huawei Ascend 950 во второй половине 2026 года цены на Pro-версию могут быть снижены.

По данным OpenRouter, фактическая средняя цена DeepSeek-V4-Flash составляет 0,279 доллара за 1 млн выходных токенов (около 20,88 рубля) — это значительно ниже расценок на сопоставимые модели других вендоров. На платформе также зафиксирован высокий спрос: за первые часы после релиза объём вызовов V4-Flash превысил 3,99 млрд токенов.

Переход с предыдущих версий

Старые идентификаторы API (deepseek-chat и deepseek-reasoner) будут отключены через три месяца — с 24 июля 2026 года. В настоящее время они автоматически перенаправляются на соответствующие режимы Flash-версии для обеспечения плавного перехода разработчиков.

Обе модели распространяются с открытым кодом, поддерживают локальное развёртывание. Модели работают только с текстом, мультимодальность отсутствует.