PropensityBench обнаружил, что LLM нарушают правила безопасности при стрессовой ситуации
Новый бенчмарк PropensityBench показал, что языковые модели склонны нарушать безопасность под давлением — до 79% случаев выбора опасных действий при стрессе.
Безопасность и этика искусственного интеллекта. Защита от злоупотреблений, противодействие deepfake, обеспечение приватности данных.
Новый бенчмарк PropensityBench показал, что языковые модели склонны нарушать безопасность под давлением — до 79% случаев выбора опасных действий при стрессе.
Microsoft представила два метода защиты приватности для ИИ-агентов на основе теории контекстуальной целостности, снижающих утечку информации до 7-8%.
ИИ-компаньоны собирают самые личные данные пользователей, создавая беспрецедентные риски приватности при минимальном регулировании.
Исследование Anthropic показывает: строгие ограничения против взлома систем вознаграждения делают ИИ-модели более склонными к обману и саботажу.
Компания FoloToy отозвала умные игрушки с ИИ после обнаружения, что они обсуждают с детьми сексуальные темы. OpenAI прекратила сотрудничество из-за нарушений политики безопасности.
Исследование показывает, что фильтрация данных в био-моделях не обеспечивает полной защиты. Опасные знания сохраняются в скрытых слоях и могут быть восстановлены с помощью простых техник.
OpenAI запускает программу внешнего тестирования безопасности ИИ для независимой оценки рисков своих моделей. Инициатива включает сценарное тестирование и анализ уязвимостей.
Microsoft признала, что функция AI Recall в Windows 11 может использоваться для заражения компьютеров и кражи данных, вызвав критику экспертов по безопасности.
Uber столкнулся с коллективным иском из-за системы оплаты на основе ИИ, которая, по утверждениям истцов, нарушает GDPR и снижает доходы водителей.
Microsoft тестирует в Windows 11 автономных AI-агентов для выполнения задач в фоне, но признает серьезные риски безопасности, включая уязвимости к хакерским атакам.