Новый бенчмарк BullshitBench проверяет способность ИИ распознавать абсурдные задачи
Бенчмарк BullshitBench выявил неспособность ведущих ИИ-моделей распознавать абсурдные и логически противоречивые запросы, заставляя их галлюцинировать.
Новости о нейросетях для программирование с AI, кодинг-ассистенты, AI для разработчиков, инструменты и фреймворки
Бенчмарк BullshitBench выявил неспособность ведущих ИИ-моделей распознавать абсурдные и логически противоречивые запросы, заставляя их галлюцинировать.
Исследование Sonatype выявило новую проблему ИИ в безопасности: вместо галлюцинаций модели теперь выбирают бездействие, оставляя уязвимости в коде.
Переход от монолитного инференса к разделению стадий prefill и decode позволяет оптимизировать использование GPU, но требует сложной оркестрации в Kubernetes.
Бывшая сотрудница Amazon была уволена, несмотря на активное использование ИИ-инструментов в работе. Почему индивидуальные навыки владения ИИ не гарантируют защиту от массовых корпоративных сокращений.
Простое внедрение ИИ часто создает лишнее трение в рабочих процессах. Исследователи предлагают модель когнитивного выравнивания для синхронизации человека и машины.
Элли Миллер продемонстрировала использование Claude Code для создания автономных рабочих процессов, включая управление почтой и генерацию контента.
Глава по росту Lovable Элена Верна заявила, что реальную угрозу для проекта представляют не аналогичные стартапы, а технологические гиганты уровня OpenAI, Google и Apple. Ключевым фактором конкурентоспособности в индустрии становится не только качество генерации кода, но и возможности дистрибуции.
Большинство ИИ-проектов закрываются до внедрения из-за отсутствия качественных данных. Эксперты объясняют, как построение надежной платформы решает эту проблему.
Microsoft представила Copilot Cowork на базе технологий Anthropic, стремясь занять нишу автономных ИИ-агентов для корпоративного сектора.
Традиционный RAG теряет смысл при дроблении документов. Новый метод контекстуального извлечения решает эту проблему, добавляя пояснения к каждому фрагменту данных.