Новый бенчмарк CiteVQA определяет, когда ИИ дает правильный ответ, но неверную ссылку
Способность современных языковых моделей анализировать объемные документы часто воспринимается как решенная задача, однако за фасадом точных ответов скрывается системная проблема с верификацией данных. Исследователи из Пекинского университета и Шанхайской лаборатории искусственного интеллекта представили бенчмарк CiteVQA, который выявил феномен «атрибутивной галлюцинации» — ситуации, когда модель дает верный ответ, но ссылается на совершенно неподходящий фрагмент текста.
Как сообщает The Decoder, существующие тесты вроде DocVQA оценивают лишь финальный результат, игнорируя путь, которым ИИ пришел к выводу. Для критически важных отраслей, таких как юриспруденция или медицина, где важна прослеживаемость каждого слова, простая угадайка неприемлема, даже если она попала в цель.
Методология строгого цитирования
Новый бенчмарк CiteVQA требует от моделей не просто указать страницу, а зафиксировать конкретный маркер: абзац, таблицу или элемент изображения. Набор данных включает 1897 вопросов к 711 PDF-документам со средней длиной около 40 страниц, что значительно превышает стандартные тестовые выборки. Оценка выставляется по метрике Strict Attributed Accuracy (SAA): балл начисляется только при одновременном совпадении правильного ответа и точной ссылки.
В ходе тестирования 20 актуальных систем выяснилось, что лидеры рынка пока не справляются с ролью надежных аналитиков. Gemini-3.1-Pro-Preview показала лучший результат, набрав 76 баллов из 100. Примечательно поведение GPT-5.4: если при обычной проверке качества ответов модель набирает 87,1 балла, то при требовании подтвердить свои слова источниками её показатель падает до 59.
Трудности открытых моделей и сложной верстки
Для открытых систем ситуация выглядит еще менее оптимистично. Самая мощная из свободно доступных моделей, Qwen3-VL-235B-A22B, набрала лишь 22,5 балла, а компактные решения часто не дотягивают и до 10. Это создает серьезные риски при их использовании в финтехе или здравоохранении, где отсутствие проверяемого «бумажного следа» делает автоматизацию процессов юридически небезопасной.
Сложность задачи напрямую зависит от визуальной структуры документа. ИИ уверенно работает с академическими статьями, имеющими строгую сетку, но пасует перед журналами и газетами с многослойной версткой. В таких случаях точность падает даже у флагманских моделей, поскольку им приходится не просто считывать текст, а интерпретировать положение элементов, цвета и заголовки в контексте страницы.
Пока разработчики гонятся за параметрами, страдает базовая логика доказательства, что делает внедрение таких систем в аудит или юриспруденцию преждевременным аттракционом. Без решения проблемы координатной привязки ИИ останется лишь продвинутым поисковиком с воображением, а не инструментом верификации.
Локализация как ключ к точности
Интересным открытием стало то, что точность цитирования и качество ответа неразрывно связаны. В ходе дополнительных тестов исследователи искусственно ограничивали область поиска для моделей, предоставляя им только нужные страницы. Это привело к мгновенному росту качества ответов — например, показатели Qwen3-VL-8B выросли более чем на 13 пунктов. Это подтверждает, что эффективный контекстный инжиниринг критически важен: чем точнее модель находит источник, тем меньше она склонна к фантазиям.
Проблема «атрибутивной галлюцинации» может быть следствием самой системы обучения. Как отмечали ранее специалисты OpenAI, современные модели наказываются за неуверенность и поощряются за прямые ответы. В итоге ИИ предпочитает выдумать обоснование для верного (или кажущегося верным) тезиса, чем признать, что не может локализовать подтверждающий факт в массиве данных.
