Обе модели поддерживают контекстное окно до 1 млн токенов — это позволяет обрабатывать объём текста, сопоставимый с трилогией «Задача трех тел» Лю Цысиня, без разбиения на части. Модели могут функционировать как в режиме «рассуждений» (с возможностью регулировки интенсивности через параметр reasoning_effort), так и без него.
Согласно документации на Hugging Face, в моделях применены несколько архитектурных улучшений: гибридный механизм внимания (CSA и HCA) для повышения эффективности работы с длинными контекстами, Manifold-Constrained Hyper-Connections (mHC) для стабилизации сигнала между слоями и оптимизатор Muon для ускорения сходимости и стабильности обучения.
V4-Pro поддерживает интеграцию с инструментами разработки, включая Claude Code, OpenClaw и OpenCode. Обе модели совместимы с экосистемой NVIDIA CUDA и ускорителями Huawei Ascend NPU. Компания Huawei сообщила, что кластеры Ascend всех типов поддерживают DeepSeek V4, а на процессорах Ascend 950 обеспечивается низкая задержка вывода: около 20 мс для V4-Pro и 10 мс для V4-Flash в сценарии с 8K входных токенов.
API-сервис поддерживает интерфейсы OpenAI Chat Completions и Anthropic. Для вызова моделей необходимо указать model_name: deepseek-v4-pro или deepseek-v4-flash.
В связи с ограниченностью вычислительных мощностей пропускная способность Pro-версии в настоящее время ограничена. Ожидается, что после выхода узлов «Huawei Ascend 950 во второй половине 2026 года цены на Pro-версию могут быть снижены.
По данным OpenRouter, фактическая средняя цена DeepSeek-V4-Flash составляет 0,279 доллара за 1 млн выходных токенов (около 20,88 рубля) — это значительно ниже расценок на сопоставимые модели других вендоров. На платформе также зафиксирован высокий спрос: за первые часы после релиза объём вызовов V4-Flash превысил 3,99 млрд токенов.
Старые идентификаторы API (deepseek-chat и deepseek-reasoner) будут отключены через три месяца — с 24 июля 2026 года. В настоящее время они автоматически перенаправляются на соответствующие режимы Flash-версии для обеспечения плавного перехода разработчиков.
Обе модели распространяются с открытым кодом, поддерживают локальное развёртывание. Модели работают только с текстом, мультимодальность отсутствует.