DeepSeek

DeepSeek — языковая модель из Китая с публичным API и веб-чатом. Линейка включает диалоговую модель deepseek-chat и reasoning-модель deepseek-reasoner

LLM

Языковые модели не справляются с клиническими рассуждениями и работают по шаблонам
2 сентября, 2025

Исследование показало, что языковые модели не способны к клиническим рассуждениям и работают по шаблонам, что делает их ненадежными для медицинской практики.

Читайте далее Языковые модели не справляются с клиническими рассуждениями и работают по шаблонам
LLM

Какие ИИ-модели чаще всего поддерживают бредовые идеи пользователей?
25 августа, 2025

Новый тест Spiral-Bench выявил радикальные различия в безопасности языковых моделей: от осторожного GPT-5 до рискованного Deepseek.

Читайте далее Какие ИИ-модели чаще всего поддерживают бредовые идеи пользователей?
LLM

Cohere выпустила Command A Reasoning — первую языковую модель с функцией логического вывода для корпоративного сектора
25 августа, 2025

Cohere выпустила Command A Reasoning — первую языковую модель с функцией логического вывода для корпоративных задач. Модель поддерживает 256k токенов и 23 языка.

Читайте далее Cohere выпустила Command A Reasoning — первую языковую модель с функцией логического вывода для корпоративного сектора
LLM

DeepSeek V3.1 бросает вызов GPT-5 с открытой архитектурой и агрессивным ценообразованием
25 августа, 2025

Китайский стартап DeepSeek выпустил модель V3.1, которая конкурирует с GPT-5 по производительности, но предлагает более выгодные условия для разработчиков благодаря открытой архитектуре.

Читайте далее DeepSeek V3.1 бросает вызов GPT-5 с открытой архитектурой и агрессивным ценообразованием
LLM

DeepSeek-V3.1 обошла собственную модель рассуждений в бенчмарках
22 августа, 2025

DeepSeek представила гибридную модель V3.1 с двумя режимами работы, которая превзошла собственную модель рассуждений R1 в тестах при радикально низких ценах.

Читайте далее DeepSeek-V3.1 обошла собственную модель рассуждений в бенчмарках
Машинное обучение

DeepSpeed ZenFlow устраняет простои GPU при обучении больших языковых моделей
22 августа, 2025

DeepSpeed ZenFlow решает проблему простоя GPU при оффлоадинге, обеспечивая до 5x ускорение обучения больших языковых моделей без потери точности.

Читайте далее DeepSpeed ZenFlow устраняет простои GPU при обучении больших языковых моделей
LLM

Nscale запускает сервис дообучения языковых моделей для специализированных задач
20 августа, 2025

Nscale запустила сервис дообучения языковых моделей для бизнес-задач. Технология позволяет адаптировать общие LLM под специфические домены с помощью контролируемого обучения.

Читайте далее Nscale запускает сервис дообучения языковых моделей для специализированных задач
Машинное обучение

Исследователи разработали метод GEPA для оптимизации языковых моделей без обучения с подкреплением
20 августа, 2025

Новый метод GEPA от исследователей из Berkeley, Stanford и Databricks предлагает в 35 раз более эффективную оптимизацию языковых моделей без дорогостоящего обучения с подкреплением.

Читайте далее Исследователи разработали метод GEPA для оптимизации языковых моделей без обучения с подкреплением
Разработка

Оптимизация Triton ускоряет матричные вычисления для моделей Mixture-of-Experts
19 августа, 2025

Новое ядро Triton для Grouped GEMM ускоряет обучение MoE-моделей в 2.62 раза на NVIDIA H100 за счет persistent kernel, cache-aware вычислений и TMA.

Читайте далее Оптимизация Triton ускоряет матричные вычисления для моделей Mixture-of-Experts
Люди

Cohere переманивает экс-главу исследований ИИ Meta* Джоэль Пинно возглавить AI-направление
18 августа, 2025

Канадский стартап Cohere назначает экс-главу FAIR Meta Джоэль Пинно на пост CAIO для усиления исследований. Стратегический ход на фоне отставания от лидеров ИИ-рынка.

Читайте далее Cohere переманивает экс-главу исследований ИИ Meta* Джоэль Пинно возглавить AI-направление