ИИ Gemini от Google стал рецензентом для ученых на престижной конференции по информатике
Как сообщает Google Research, языковая модель Gemini 2.5 Deep Think прошла необычный тест-драйв в академическом мире. В рамках экспериментального проекта для конференции STOC 2026 — одного из ключевых событий в области теоретической информатики — модель использовалась для предварительной проверки научных статей перед их подачей на рецензирование. Цель была амбициозной: за 24 часа дать авторам автоматизированную обратную связь, выявив потенциальные ошибки в логике, вычислениях или оформлении доказательств.
Как работал инструмент
Инструмент был построен на основе продвинутой версии Gemini 2.5 Deep Think, которая использует методы масштабирования вывода. Вместо линейной цепочки рассуждений модель одновременно исследует и комбинирует несколько возможных решений, что, по заявлениям разработчиков, снижает количество галлюцинаций и помогает сфокусироваться на наиболее значимых проблемах.
Авторы, согласившиеся на участие в экспериментальной программе, получали структурированный отзыв, включавший:
- Резюме основных вкладов статьи.
- Список потенциальных ошибок и мест для улучшения (часто с анализом конкретных лемм или теорем).
- Перечень мелких исправлений и опечаток.
Здесь есть примеры того, какую обратную связь давала модель.
Результаты и реакция сообщества
По данным опроса более 120 участников, которые дали согласие на использование своих отзывов, результаты оказались впечатляющими:
- Более 80% статей, поданных к моменту завершения эксперимента, были проверены ИИ.
- 97% авторов сочли полученную обратную связь полезной.
- 97% заявили, что использовали бы этот инструмент снова.
- 81% отметили, что модель улучшила ясность или читаемость их работы.
Модель успешно находила разнообразные проблемы: от неконсистентных имен переменных до сложных логических пробелов в доказательствах и ошибок в вычислениях. Один из авторов признал, что ИИ обнаружил «критическую ошибку… которая делала наше доказательство полностью неверным», добавив, что это была «до смешного простая ошибка, ускользавшая от нас месяцами».

Опыт пользователей и будущее инструмента
Помимо технической точности, авторы оценили скорость и нейтральность ИИ-рецензии. Отзывы приходили в течение двух дней, а их «нейтральный тон и строгость» стали полезным дополнением к мнению коллег. Эксперты в своих областях успешно фильтровали редкие галлюцинации модели, извлекая из её выводов ценную информацию для дальнейшей самостоятельной проверки.

Сообщество также увидело образовательный потенциал инструмента: 75% опрошенных авторов считают, что он может быть полезен для обучения студентов математической строгости и ясности изложения. Подавляющее большинство — 88% — выразили заинтересованность в постоянном доступе к подобному инструменту на протяжении всего исследовательского процесса.
Эксперимент Google наглядно демонстрирует переход ИИ из категории «интересных игрушек» в разряд практических инструментов для узкоспециализированной интеллектуальной работы. То, что модель, обученная на общих текстах, способна вникать в тонкости доказательств теорем сложности, впечатляет. Однако ключевой урок здесь не в замене рецензента-человека, а в создании нового типа рабочего процесса: ИИ выступает в роли сверхбыстрого, педантичного и неутомимого ассистента, который отлавливает очевидные (и не очень) ляпы, освобождая время эксперта для более глубоких размышлений. Ирония в том, что самый строгий тест для «творческих» языковых моделей оказался в самой что ни на есть формальной и логичной среде. Это хороший знак для будущего научной коллаборации.
Пилотный проект показал потенциал специализированных ИИ-инструментов как партнеров в фундаментальных исследованиях. Конечная цель, как подчеркивают авторы эксперимента, не в замене критически важного процесса рецензирования, а в его дополнении и усилении.
