Featured image for intel uskoryaet qwen3 8b na core ultra s pomoshhyu obrezki sloev i spekulyativnogo dekodirovaniya

LLM

Intel ускоряет Qwen3-8B на Core Ultra с помощью обрезки слоев и спекулятивного декодирования

ОтAlexei 30 сентября, 2025

Как пишет Hugging Face, совместно с Intel проект разработал метод ускорения агентских моделей Qwen3 на процессорах Core Ultra. Решение сочетает спекулятивное декодирование и глубинную обрезку слоев draft-модели.

Почему Qwen3-8B важен для локальных агентов

Qwen3-8B — одна из самых перспективных моделей с нативными агентскими способностями. Она поддерживает вызов инструментов, многошаговые рассуждения и работу с длинным контекстом, что делает её идеальным кандидатом для AI PC. В отличие от чат-ботов, агентские приложения генерируют «рассуждения вслух», значительно увеличивая объем токенов и делая скорость инференса критически важной.

Техника ускорения: спекулятивное декодирование

Исследователи использовали спекулятивное декодирование — метод, где меньшая draft-модель (Qwen3-0.6B) предлагает несколько токенов за один проход, которые затем проверяются основной моделью (Qwen3-8B). На Intel Lunar Lake iGPU это дало ускорение в 1.3× относительно базовой версии.

from openvino_genai import LLMPipeline, draft_model

target_path = "/path/to/target/Qwen3-8B-int4-ov"
draft_path = "/path/to/draft/Qwen3-0.6B-int8-ov"
device = "GPU"

model = LLMPipeline(target_path, device, draft_model=draft_model(draft_path, device))

streamer = lambda x: print(x, end="", flush=True)
model.generate("What is speculative decoding and how does it improve inference speed?", max_new_tokens=100, reamer=streamer)

Дальнейшая оптимизация: обрезка слоев

Скорость спекулятивного декодирования зависит от соотношения латентности целевой и draft-модели. Исследователи показали, что глубина модели (количество слоев) существенно влияет на задержку. Они применили метод послойного сжатия: идентифицировали и удалили 6 из 28 слоев в Qwen3-0.6B на основе углового расстояния, затем дообучили модель на синтетических данных от Qwen3-8B.

Результат — ускорение 1.4×, что соответствует теоретическим ожиданиям: уменьшение латентности draft-модели улучшает общее ускорение.

Сочетание спекулятивного декодирования с обрезкой слоев — элегантное решение для edge-устройств. Вместо дорогого апгрейда железа мы получаем бесплатный прирост производительности за счет алгоритмических оптимизаций. Особенно ценно, что метод работает с существующим железом — это демократизирует доступ к мощным агентским системам.

Практическое применение с smolagents

Оптимизированная связка интегрирована с библиотекой smolagents. В демо-сценарии агент на Qwen3:

Использует веб-поиск для сбора информации о Qwen3
Переключается на Python-интерпретатор для генерации презентации с python-pptx

Решение совместимо и с другими фреймворками — AutoGen или QwenAgent.

Источник новости: Hugging Face

LLM

Исследование MIT обнаружило фундаментальную слабость LLM в грамматических шаблонах
26 ноября, 2025

Исследование MIT показывает, что языковые модели могут давать правильные ответы, опираясь на синтаксические шаблоны, а не на понимание смысла.

Читайте далее Исследование MIT обнаружило фундаментальную слабость LLM в грамматических шаблонах
LLM

Языковые модели научились рассуждать на языке пользователя без потери точности
10 ноября, 2025

Новый метод позволяет языковым моделям рассуждать на языке пользователя без потери точности. Всего 817 примеров достаточно для переобучения модели.

Читайте далее Языковые модели научились рассуждать на языке пользователя без потери точности
LLM

Исследование: ИИ не убеждает людей психологией, а перегружает информацией
21 августа, 2025

Исследование показывает: ИИ эффективнее убеждает не психологическими приемами, а информационной перегрузкой, даже с неточными данными. Это меняет представление о цифровом влиянии.

Читайте далее Исследование: ИИ не убеждает людей психологией, а перегружает информацией
LLM

Perplexity запускает ИИ-решение для госсектора США за 25 центов
9 сентября, 2025

Perplexity запускает специализированное ИИ-решение для госсектора США с гарантированной защитой данных и символической ценой в $0.25.

Читайте далее Perplexity запускает ИИ-решение для госсектора США за 25 центов
LLM

NatureLM-audio запускает интерактивный интерфейс для анализа звуков животных
5 сентября, 2025

Earth Species Project запустила интерактивный интерфейс для языковой модели NatureLM-audio, позволяющий анализировать звуки животных без программирования через веб-интерфейс.

Читайте далее NatureLM-audio запускает интерактивный интерфейс для анализа звуков животных
LLM

Модели TII Falcon H1 стали доступны в Amazon Bedrock и SageMaker JumpStart
11 сентября, 2025

Модели TII Falcon H1 стали доступны в Amazon Bedrock и SageMaker JumpStart, предлагая разработчикам мощные open-source альтернативы для генерации текста.

Читайте далее Модели TII Falcon H1 стали доступны в Amazon Bedrock и SageMaker JumpStart

Почему Qwen3-8B важен для локальных агентов

Техника ускорения: спекулятивное декодирование

Дальнейшая оптимизация: обрезка слоев

Практическое применение с smolagents

Похожие записи