Исследование показало, что навыки ИИ-агентов бесполезны в деле
Исследователи из MIT и UC Santa Barbara выяснили, что навыки ИИ-агентов, блестяще работающие в тестах, оказываются практически бесполезными в реальных сценариях.
Новости о нейросетях для программирование с AI, кодинг-ассистенты, AI для разработчиков, инструменты и фреймворки
Исследователи из MIT и UC Santa Barbara выяснили, что навыки ИИ-агентов, блестяще работающие в тестах, оказываются практически бесполезными в реальных сценариях.
Google Research представила TurboQuant — метод экстремального сжатия KV-кэша, который позволяет ИИ-моделям работать с огромными контекстами при меньших затратах памяти.
Исследование описывает недовольство разработчиков низкокачественным ИИ-кодом как трагедию общих ресурсов, где скорость одного оборачивается проблемами для всех.
Исследование Google Research показало, что современные бенчмарки ИИ не учитывают разногласия между людьми, используя слишком мало оценщиков для тестов.
IBM и ElevenLabs объединились, чтобы добавить естественное звучание корпоративным ИИ-агентам в платформе watsonx Orchestrate.
OpenAI привлекает тысячи экспертов для обучения ChatGPT профессиональным навыкам в сельском хозяйстве, медицине и авиации.
Исследователи из Meta* представили новую технику работы с искусственным интеллектом под названием «полуформальное рассуждение», которая позволяет большим языковым моделям проводить глубокий аудит кода без его реального запуска. Этот метод значительно повышает точность проверки патчей, сокращая при этом инфраструктурные затраты на тестирование.
OpenAI представила плагин Codex, который позволяет запускать возможности их кодинг-ассистента внутри конкурирующей среды Claude Code. Это решение упрощает рабочий процесс разработчиков, предлагая стандартную проверку кода, глубокий «состязательный анализ» и возможность передачи фоновых задач модели Codex.
Анализ перехода от простых корреляционных моделей ИИ к контекстно-зависимым системам и роли качественных данных в развитии автономных агентов.
Исследователи Google разработали TurboQuant — новый алгоритм квантования, который радикально сокращает объем KV-кэша и ускоряет работу языковых моделей.