Google Cloud представила рецепт ускоренного инференса LLM с NVIDIA Dynamo
Google Cloud анонсировала рецепт дезагрегированного инференса LLM с NVIDIA Dynamo на AI Hypercomputer, позволяющий значительно ускорить обработку запросов за счет разделения вычислительных фаз.
