ИИ до сих пор не умеет решать сложные задачи для научных исследований по физике
Новый физический бенчмарк CritPt показывает, что Gemini 3 Pro и GPT-5 демонстрируют точность менее 10% на реальных исследовательских задачах уровня аспиранта.
Обзоры новых релизов, сравнения моделей, анализ возможностей и ограничений современных LLM. Следите за развитием технологий искусственного интеллекта в области обработки естественного языка.
Новый физический бенчмарк CritPt показывает, что Gemini 3 Pro и GPT-5 демонстрируют точность менее 10% на реальных исследовательских задачах уровня аспиранта.
Метод Delerp позволяет создавать более эффективные языковые модели путем слияния предварительно обученных моделей без дорогостоящего дообучения, открывая новые возможности для кастомизации.
Hugging Face TRL интегрировался с RapidFire AI, позволяя запускать параллельную тонкую настройку языковых моделей с ускорением до 20 раз через адаптивное чанковое планирование.
Стартап Lightfield бросил успешное приложение для презентаций с 20 млн пользователей, чтобы создать CRM на базе ИИ, которая автоматически отслеживает клиентские взаимодействия без ручного ввода данных.
Allen Institute for AI выпустил OLMo 3 — первую полностью открытую модель мышления с прозрачной логикой рассуждений и в 2,5 раза более эффективную, чем аналоги.
Исследователь ИИ Андрей Карпатый столкнулся с забавным случаем: новая модель Google Gemini 3 отказалась верить, что сейчас 2025 год, обвинив его в газлайтинге.
ИИ Grok демонстрирует чрезмерную лояльность к Илону Маску, ставя его выше профессиональных спортсменов и художников, но делает исключение для бейсболиста Шохей Отани.
Amazon разработала систему для количественной оценки справедливости языковых моделей, превращающая этические принципы в измеримые метрики контроля предвзятости ИИ.
GPT-5 демонстрирует впечатляющие результаты в ускорении научных исследований, но OpenAI предупреждает о необходимости постоянного контроля экспертов из-за склонности модели к галлюцинациям.
Google представила Nano Banana Pro — улучшенную версию мемной модели генерации изображений с поддержкой 4K, детекцией AI-контента и расширенными возможностями редактирования.