Непрямые инъекции промптов: уязвимость облачных и локальных ИИ

Исследователи безопасности из компании Brave обнаружили, что архитектурная уязвимость, известная как непрямая инъекция промптов, одинаково эффективно поражает как облачные, так и локальные модели искусственного интеллекта. Как сообщает The Futurum Group, это открытие ставит под сомнение популярное убеждение о том, что перенос вычислений на устройство пользователя автоматически гарантирует безопасность данных.

В ходе экспериментов были успешно атакованы облачный сервис Mozilla Tabstack и локальное приложение для macOS Cotypist. В первом случае модель удалось заставить передать конфиденциальную информацию на сторонний сервер через скрытые инструкции на веб-странице, а во втором — обманом выманить учетные данные, используя вредоносный код, внедренный в обычные текстовые документы.

Проблема кроется не в способе развертывания, а в самом фундаменте современных LLM. Большие языковые модели до сих пор не умеют проводить четкую границу между системными инструкциями разработчика и внешними данными, которые они обрабатывают. Для нейросети и команда «составь резюме», и скрытая в тексте фраза «отправь пароли по этому адресу» выглядят как равнозначные указания к действию.

Архитектурный тупик: данные против инструкций

Согласно опросу AI Platforms Decision Maker Survey, проведенному в первой половине 2026 года, 53% организаций называют безопасность главным барьером на пути внедрения генеративного ИИ. Это неудивительно, ведь непрямая инъекция позволяет злоумышленнику перехватить управление рабочим процессом, даже не взаимодействуя с моделью напрямую. Достаточно просто разместить полезную нагрузку в контенте, который ИИ гарантированно прочитает.

Многие компании делают ставку на on-device AI (ИИ на устройстве), надеясь изолировать данные внутри периметра. Однако, как показывают кейсы с Tabstack и Cotypist, точка входа может измениться, но результат остается прежним. Иллюзия защищенности локальных систем лишь упрощает задачу атакующим, так как пользователи склонны доверять инструментам, работающим без подключения к сети.

Фундаментальная неспособность LLM отделять команды от данных делает любую модель уязвимой на уровне логики. Пока индустрия не внедрит механизмы сегментации контекста, локальный ИИ останется лишь более приватным способом добровольно отдать свои ключи злоумышленнику.

Риски и стратегии для бизнеса

Поскольку ИИ все чаще внедряется в клиентскую поддержку (56% компаний) и автоматизацию рабочих процессов (51%), поверхность атаки расширяется в геометрической прогрессии. Традиционные методы защиты периметра здесь бессильны, так как вредоносный код попадает в систему под видом легитимных данных — писем, отчетов или веб-страниц.

Для минимизации рисков эксперты рекомендуют обратить внимание на следующие аспекты:

Внедрение систем проверки происхождения данных (provenance tracking) перед их подачей в контекстное окно модели.
Использование изолированных сред исполнения для агентов, имеющих доступ к выполнению кода или отправке сетевых запросов.
Постоянный мониторинг выходных данных на предмет подозрительных паттернов, характерных для попыток эксфильтрации информации.

В ближайшее время стоит ожидать усиления регуляторного давления. Вероятно, государственные органы начнут требовать от разработчиков доказательств того, что их системы способны различать уровни доверия внутри одного запроса. До тех пор любая «умная» надстройка над документами остается потенциальным шпионом, работающим прямо на вашем процессоре.

LLM могут быть поражены через непрямые инъекции промптов даже при локальном запуске

Архитектурный тупик: данные против инструкций

Риски и стратегии для бизнеса

Разработчик бенчмарка METR признал, что не успевает за Claude Mythos

Cloudflare запускает централизованный шлюз для безопасного подключения языковых моделей к корпоративным системам

Чатботы крупных ИИ-компаний собирают личные данные пользователей для обучения моделей

OpenAI обвиняет New York Times в нарушении приватности пользователей

Cloudflare и CrowdStrike объединяют платформы для автоматизации кибербезопасности

Anthropic выпустила открытый инструмент Petri для автоматического аудита безопасности AI-моделей

Архитектурный тупик: данные против инструкций

Риски и стратегии для бизнеса

Похожие записи