TurboQuant: как Google Research пытается снести «стену памяти» в больших языковых моделях
Google Research представила TurboQuant — метод экстремального сжатия KV-кэша, который позволяет ИИ-моделям работать с огромными контекстами при меньших затратах памяти.
