Бенчмарк FACTS показал, что ведущие LLM не набрали даже 70% точности по фактам
Google представил бенчмарк FACTS для оценки фактической точности языковых моделей. Результаты показывают, что даже лучшие модели (Gemini 3 Pro, GPT-5) не преодолевают 70% барьер, особенно в мультимодальных задачах.
