Исследование Google показало, что ИИ-бенчмарки игнорируют человеческий фактор
Исследование Google Research показало, что современные бенчмарки ИИ не учитывают разногласия между людьми, используя слишком мало оценщиков для тестов.
Новости о нейросетях для программирование с AI, кодинг-ассистенты, AI для разработчиков, инструменты и фреймворки
Исследование Google Research показало, что современные бенчмарки ИИ не учитывают разногласия между людьми, используя слишком мало оценщиков для тестов.
IBM и ElevenLabs объединились, чтобы добавить естественное звучание корпоративным ИИ-агентам в платформе watsonx Orchestrate.
OpenAI привлекает тысячи экспертов для обучения ChatGPT профессиональным навыкам в сельском хозяйстве, медицине и авиации.
Исследователи из Meta* представили новую технику работы с искусственным интеллектом под названием «полуформальное рассуждение», которая позволяет большим языковым моделям проводить глубокий аудит кода без его реального запуска. Этот метод значительно повышает точность проверки патчей, сокращая при этом инфраструктурные затраты на тестирование.
OpenAI представила плагин Codex, который позволяет запускать возможности их кодинг-ассистента внутри конкурирующей среды Claude Code. Это решение упрощает рабочий процесс разработчиков, предлагая стандартную проверку кода, глубокий «состязательный анализ» и возможность передачи фоновых задач модели Codex.
Анализ перехода от простых корреляционных моделей ИИ к контекстно-зависимым системам и роли качественных данных в развитии автономных агентов.
Исследователи Google разработали TurboQuant — новый алгоритм квантования, который радикально сокращает объем KV-кэша и ускоряет работу языковых моделей.
Бенчмарк BullshitBench выявил неспособность ведущих ИИ-моделей распознавать абсурдные и логически противоречивые запросы, заставляя их галлюцинировать.
Исследование Sonatype выявило новую проблему ИИ в безопасности: вместо галлюцинаций модели теперь выбирают бездействие, оставляя уязвимости в коде.
Переход от монолитного инференса к разделению стадий prefill и decode позволяет оптимизировать использование GPU, но требует сложной оркестрации в Kubernetes.