Microsoft разработала методы защиты приватности для ИИ-агентов

Искусственный интеллект становится все более автономным в выполнении задач для пользователей, но вместе с этим растет риск утечки конфиденциальной информации. Исследователи Microsoft представили два подхода к решению этой проблемы на основе теории контекстуальной целостности.

Что такое контекстуальная целостность

Концепция контекстуальной целостности рассматривает приватность как уместность передачи информации в конкретных социальных контекстах. Применительно к ИИ-ассистентам это означает, что они должны делиться информацией в соответствии с ситуацией: кто участвует, какая информация передается и почему.

Например, ИИ-помощник при записи на медицинский прием должен сообщать имя пациента и соответствующую историю болезни, но не раскрывать ненужные детали страхового покрытия. Ассистент с доступом к календарю и электронной почте может использовать доступное время и предпочтения в ресторанах при бронировании обеда, но не должен раскрывать личные письма или детали других встреч.

Проблема в том, что современные большие языковые модели часто лишены этого контекстуального осознания и могут раскрывать чувствительную информацию даже без злонамеренных запросов. Это фундаментальный вызов для индустрии — как научить ИИ понимать, что уместно в каждом конкретном случае.

PrivacyChecker: легковесная защита

Первый подход представлен в работе «Privacy in Action…», принятой на EMNLP 2025. Исследователи разработали PrivacyChecker — легковесный модуль, который можно интегрировать в агентские системы.

В рамках одного запроса PrivacyChecker извлекает информационные потоки (отправитель, получатель, тема, атрибут, принцип передачи), классифицирует каждый поток (разрешить/заблокировать с обоснованием) и применяет опциональные политики конфиденциальности.

Модуль работает независимо от модели и не требует переобучения. На статичном бенчмарке PrivacyLens PrivacyChecker снизил утечку информации с 33,06% до 8,32% для GPT4o и с 36,08% до 7,30% для DeepSeekR1, сохраняя при этом способность системы выполнять поставленные задачи.

Сравнение рабочих процессов ИИ-агентов с защитой приватности и без неё в системе PrivacyChecker — Источник: www.microsoft.com

Три способа интеграции

Глобальный системный промпт: применяется ко всем действиям агента
Встроенный инструмент: интегрируется непосредственно с конкретными вызовами инструментов
Автономный инструмент MCP: используется как явный шлюз перед действиями агента

PrivacyLens-Live: реалистичная оценка рисков

Статические бенчмарки недооценивают реальные риски. Агентские LLM не просто отвечают на вопросы — они действуют: составляют и отправляют письма, заполняют формы, публикуют обновления и координируются с другими агентами.

Исследователи преобразовали PrivacyLens в набор динамических оценок агентов с использованием инструментов MCP (Gmail, Notion) и версии Agent2Agent, где агенты обмениваются электронными письмами.

Тестирование OpenAI o3 в реалистичных сценариях показало, что утечка информации увеличивается при переходе от статических к динамическим настройкам и возрастает еще больше в сложных рабочих процессах. PrivacyChecker поддерживал значительно более низкие уровни утечки.

Настройка	Базовый уровень	PrivacyChecker
PrivacyLens (2 инструмента)	17,4	7,3
PrivacyLens-Live (2 инструмента)	24,3	6,7
PrivacyLens (3 инструмента)	22,6	16,4
PrivacyLens-Live (3 инструмента)	28,6	16,7

Контекстуальная целостность через рассуждения

Второй подход, описанный в работе, принятой на NeurIPS 2025, исследует возможность встроить контекстуальную целостность непосредственно в саму модель, а не применять внешние проверки во время вывода.

Метод рассматривает контекстуальную целостность как проблему рассуждения: модель должна оценивать не только то, как ответить, но и является ли раскрытие конкретной информации уместным в данной ситуации.

Первый метод использовал цепочку рассуждений (chain-of-thought) для улучшения контекстуальной целостности. Промпт направлял модель на определение того, какие атрибуты необходимы для выполнения задачи, а какие следует скрыть.

Нарушения контекстной целостности агентов: уместный и неуместный обмен информацией — Источник: www.microsoft.com

Оба подхода демонстрируют прагматичный путь к решению одной из самых острых проблем внедрения ИИ — как сделать умных помощников одновременно полезными и безопасными. Интересно, что внешние проверки показывают лучшие результаты, чем встроенные механизмы, что говорит о сложности обучения моделей тонкому пониманию контекста.

Эти исследования показывают, что проверки контекстуальной целостности с использованием PrivacyChecker обеспечивают практическую, независимую от модели защиту, которая масштабируется до реальных многозадачных и мультиагентских сред. Такие проверки существенно сокращают утечку информации, сохраняя при этом полезность системы.

По материалам Microsoft Research

Как PrivacyChecker от Microsoft помогает с защитой приватности для ИИ-агентов

Что такое контекстуальная целостность

PrivacyChecker: легковесная защита

Три способа интеграции

PrivacyLens-Live: реалистичная оценка рисков

Контекстуальная целостность через рассуждения

Amazon объявляет конкурс на создание доверенных программных агентов

Технологии борьбы с дипфейками: от обнаружения к верификации контента

NVIDIA выпустила Nemotron 3 Nano — компактную эффективную языковую модель для агентов

OpenAI представляет рекомендации по развитию искусственного интеллекта

ИИ помогает находить и сохранять исчезающие водно-болотные угодья

Весь фондовый рынок держится на четырех акциях этих AI-компаний

Что такое контекстуальная целостность

PrivacyChecker: легковесная защита

Три способа интеграции

PrivacyLens-Live: реалистичная оценка рисков

Контекстуальная целостность через рассуждения

Похожие записи