Новый бенчмарк Audio MultiChallenge показал, насколько плохо ИИ понимает живую речь
Scale представила бенчмарк Audio MultiChallenge, который тестирует голосовые ИИ на реалистичных диалогах с исправлениями и паузами. Лидером стал Gemini 3 Pro, а GPT-4o значительно отстал.
