Как PrivacyChecker от Microsoft помогает с защитой приватности для ИИ-агентов
Искусственный интеллект становится все более автономным в выполнении задач для пользователей, но вместе с этим растет риск утечки конфиденциальной информации. Исследователи Microsoft представили два подхода к решению этой проблемы на основе теории контекстуальной целостности.
Что такое контекстуальная целостность
Концепция контекстуальной целостности рассматривает приватность как уместность передачи информации в конкретных социальных контекстах. Применительно к ИИ-ассистентам это означает, что они должны делиться информацией в соответствии с ситуацией: кто участвует, какая информация передается и почему.
Например, ИИ-помощник при записи на медицинский прием должен сообщать имя пациента и соответствующую историю болезни, но не раскрывать ненужные детали страхового покрытия. Ассистент с доступом к календарю и электронной почте может использовать доступное время и предпочтения в ресторанах при бронировании обеда, но не должен раскрывать личные письма или детали других встреч.
Проблема в том, что современные большие языковые модели часто лишены этого контекстуального осознания и могут раскрывать чувствительную информацию даже без злонамеренных запросов. Это фундаментальный вызов для индустрии — как научить ИИ понимать, что уместно в каждом конкретном случае.
PrivacyChecker: легковесная защита
Первый подход представлен в работе «Privacy in Action…», принятой на EMNLP 2025. Исследователи разработали PrivacyChecker — легковесный модуль, который можно интегрировать в агентские системы.
В рамках одного запроса PrivacyChecker извлекает информационные потоки (отправитель, получатель, тема, атрибут, принцип передачи), классифицирует каждый поток (разрешить/заблокировать с обоснованием) и применяет опциональные политики конфиденциальности.
Модуль работает независимо от модели и не требует переобучения. На статичном бенчмарке PrivacyLens PrivacyChecker снизил утечку информации с 33,06% до 8,32% для GPT4o и с 36,08% до 7,30% для DeepSeekR1, сохраняя при этом способность системы выполнять поставленные задачи.

Три способа интеграции
- Глобальный системный промпт: применяется ко всем действиям агента
- Встроенный инструмент: интегрируется непосредственно с конкретными вызовами инструментов
- Автономный инструмент MCP: используется как явный шлюз перед действиями агента
PrivacyLens-Live: реалистичная оценка рисков
Статические бенчмарки недооценивают реальные риски. Агентские LLM не просто отвечают на вопросы — они действуют: составляют и отправляют письма, заполняют формы, публикуют обновления и координируются с другими агентами.
Исследователи преобразовали PrivacyLens в набор динамических оценок агентов с использованием инструментов MCP (Gmail, Notion) и версии Agent2Agent, где агенты обмениваются электронными письмами.
Тестирование OpenAI o3 в реалистичных сценариях показало, что утечка информации увеличивается при переходе от статических к динамическим настройкам и возрастает еще больше в сложных рабочих процессах. PrivacyChecker поддерживал значительно более низкие уровни утечки.
| Настройка | Базовый уровень | PrivacyChecker |
|---|---|---|
| PrivacyLens (2 инструмента) | 17,4 | 7,3 |
| PrivacyLens-Live (2 инструмента) | 24,3 | 6,7 |
| PrivacyLens (3 инструмента) | 22,6 | 16,4 |
| PrivacyLens-Live (3 инструмента) | 28,6 | 16,7 |
Контекстуальная целостность через рассуждения
Второй подход, описанный в работе, принятой на NeurIPS 2025, исследует возможность встроить контекстуальную целостность непосредственно в саму модель, а не применять внешние проверки во время вывода.
Метод рассматривает контекстуальную целостность как проблему рассуждения: модель должна оценивать не только то, как ответить, но и является ли раскрытие конкретной информации уместным в данной ситуации.
Первый метод использовал цепочку рассуждений (chain-of-thought) для улучшения контекстуальной целостности. Промпт направлял модель на определение того, какие атрибуты необходимы для выполнения задачи, а какие следует скрыть.

Оба подхода демонстрируют прагматичный путь к решению одной из самых острых проблем внедрения ИИ — как сделать умных помощников одновременно полезными и безопасными. Интересно, что внешние проверки показывают лучшие результаты, чем встроенные механизмы, что говорит о сложности обучения моделей тонкому пониманию контекста.
Эти исследования показывают, что проверки контекстуальной целостности с использованием PrivacyChecker обеспечивают практическую, независимую от модели защиту, которая масштабируется до реальных многозадачных и мультиагентских сред. Такие проверки существенно сокращают утечку информации, сохраняя при этом полезность системы.
По материалам Microsoft Research
