Какие ИИ-модели чаще всего поддерживают бредовые идеи пользователей?
Новый тест Spiral-Bench выявил радикальные различия в безопасности языковых моделей: от осторожного GPT-5 до рискованного Deepseek.
DeepSeek — языковая модель из Китая с публичным API и веб-чатом. Линейка включает диалоговую модель deepseek-chat и reasoning-модель deepseek-reasoner
Новый тест Spiral-Bench выявил радикальные различия в безопасности языковых моделей: от осторожного GPT-5 до рискованного Deepseek.
Cohere выпустила Command A Reasoning — первую языковую модель с функцией логического вывода для корпоративных задач. Модель поддерживает 256k токенов и 23 языка.
Китайский стартап DeepSeek выпустил модель V3.1, которая конкурирует с GPT-5 по производительности, но предлагает более выгодные условия для разработчиков благодаря открытой архитектуре.
DeepSeek представила гибридную модель V3.1 с двумя режимами работы, которая превзошла собственную модель рассуждений R1 в тестах при радикально низких ценах.
DeepSpeed ZenFlow решает проблему простоя GPU при оффлоадинге, обеспечивая до 5x ускорение обучения больших языковых моделей без потери точности.
Nscale запустила сервис дообучения языковых моделей для бизнес-задач. Технология позволяет адаптировать общие LLM под специфические домены с помощью контролируемого обучения.
Новый метод GEPA от исследователей из Berkeley, Stanford и Databricks предлагает в 35 раз более эффективную оптимизацию языковых моделей без дорогостоящего обучения с подкреплением.
Новое ядро Triton для Grouped GEMM ускоряет обучение MoE-моделей в 2.62 раза на NVIDIA H100 за счет persistent kernel, cache-aware вычислений и TMA.
Канадский стартап Cohere назначает экс-главу FAIR Meta Джоэль Пинно на пост CAIO для усиления исследований. Стратегический ход на фоне отставания от лидеров ИИ-рынка.
Китайская компания DeepSeek откладывает выпуск новой языковой модели из-за низкой производительности отечественных чипов, что подчёркивает технологические сложности в условиях санкций.