Новая модель DeepSeek R1T2 Chimera: быстрее, короче, проще

Немецкая TNG Technology Consulting выпустила новую языковую модель DeepSeekTNG R1T2 Chimera. Она собрана из трёх предыдущих версий с помощью технологии объединения уже готовых моделей без дополнительного обучения.

В результате R1T2 работает в два раза быстрее R10528 и на 20 % быстрее обычной R1, сокращая количество токенов в ответах почти на 60 % и снижая затраты на вычисления.

Модель сохраняет высокое качество рассуждений и даёт более короткие ясные ответы, что отметили разработчики и пользователи Reddit.

DeepSeekTNG R1T2 Chimera уже доступна на платформе Hugging Face для публикации и тестирования ИИ-моделей под лицензией MIT; её используют и внутри компании для обработки до 5 млрд токенов в день.

При этом модель пока не поддерживает функцию вызова внешних инструментов API или function calling, унаследовав это ограничение от своей базовой версии. По мнению специалистов, такой способ объединения моделей без обучения может стать основой для более эффективных и доступных языковых систем в будущем.

Автор: Владимир Кораблёв.

Тематики: ПО, Web

Ключевые слова: Искусственный интеллект, Нейросети