OpenAI готовит улучшенную версию модели-победителя математической олимпиады
OpenAI готовит улучшенную версию модели-победителя математической олимпиады с потенциалом прорыва в рассуждениях, но обычные пользователи могут не заметить разницы.
Обзоры новых релизов, сравнения моделей, анализ возможностей и ограничений современных LLM. Следите за развитием технологий искусственного интеллекта в области обработки естественного языка.
OpenAI готовит улучшенную версию модели-победителя математической олимпиады с потенциалом прорыва в рассуждениях, но обычные пользователи могут не заметить разницы.
xAI выпустила Grok 4.1 с улучшенным эмоциональным интеллектом, но модель демонстрирует резкий рост угодничества — соглашается с пользователями даже когда они неправы.
Открытие гетерогенных особенностей в механизме внимания RoPE-моделей: разные измерения отвечают за различные аспекты обработки длинного контекста.
Microsoft Research представила метод GAD для эффективного сжатия больших языковых моделей, позволяющий малым моделям достигать качества GPT-5 без доступа к внутренним параметрам.
Новый бенчмарк AA-Omniscience оценивает способность языковых моделей отличать факты от вымысла. Модели Anthropic показали самые низкие показатели галлюцинаций.
Исследование показало, что более 56% ссылок, генерируемых ChatGPT для научных работ, либо полностью выдуманы, либо содержат серьезные ошибки, что ставит под угрозу достоверность исследований.
Стартапы создают компактные ИИ-модели с меньшим числом параметров, которые превосходят гигантов в специализированных задачах при значительно меньших затратах.
Исследователи предлагают анализировать все слои нейросети для борьбы с галлюцинациями в языковых моделях, что может повысить достоверность ответов ИИ.
Исследователь создал автоматический маршрутизатор для гибридных языковых моделей, который определяет, когда нужно использовать режим мышления, а когда можно обойтись быстрым ответом.
Amazon представила Nova Sonic — модель ИИ для создания полноценных голосовых интерфейсов в веб-приложениях с поддержкой сложных диалогов и рабочих процессов.