Данные свежие, март 2026. Строю большую сводную таблицу по тирам.
Тир 0 — CPU / интегрированная графика
Любой ноутбук или ПК с 8–16 ГБ RAM, без дискретного GPU.
Qwen 3.5 4B (Q4, ~3 ГБ RAM) — минимально жизнеспособный кодинг-ассистент на CPU или интегрированной графике. Мышление включается по запросу. Хорош для объяснений и простых задач. Скорость 5–10 tok/s на CPU, контекст 32K.
Phi-4-mini (3.8B, Q4, ~2.5 ГБ) — от Microsoft, сильный интеллект для размера. MMLU 68.5 — лучший в классе до 4B. Хорош для math/logic. Слабоват на длинном коде. Скорость 10–20 tok/s на CPU, контекст 16K.
Llama 3.2 3B (Q4, ~2 ГБ) — от Meta, оптимизирован для edge/mobile. Хорош для chat, суммаризации. Не специализирован на коде. Скорость 8–15 tok/s на CPU, контекст 128K.Тир 1 — 8 ГБ VRAM
RTX 3070 / 4060 / RX 7600 XT, около $300–500 за GPU.
Qwen 2.5 Coder 7B (Q4, ~6.6 ГБ) — лучший FIM-автокомплит в классе до 8B. HumanEval 88.4%, 128K контекст, 92+ языка. Основа для inline autocomplete в редакторе. Скорость 30–50 tok/s, контекст 128K.
Qwen 3.5 9B (Q4, ~7 ГБ) — вышел 2 марта 2026. Мультимодальный (читает изображения), thinking mode. LiveCodeBench 65.6. Хорош для чата и ревью кода рядом с автокомплитом. Скорость 25–40 tok/s, контекст 262K.
Gemma 3 9B (Q4, ~6 ГБ) — от Google, сильный general-purpose. Хорошее reasoning, мультилингвальность. Apache 2.0. Хуже на чистом коде, чем Qwen. Скорость 30–45 tok/s, контекст 128K.
Тир 2 — 12–16 ГБ VRAM
RTX 4070 / 3080 Ti / RX 7800 XT, около $500–800 за GPU.
Qwen 2.5 Coder 14B (Q4, ~10 ГБ) — значительно сильнее 7B на многошаговых задачах. Всё ещё лучший FIM. Хороший выбор для daily driver кодинга. Скорость 20–35 tok/s, контекст 128K.
DeepSeek-R1-Distill 14B (Q4, ~10 ГБ) — дистилляция R1 от DeepSeek. Цепочка рассуждений, сильный на debug и math. Медленнее из-за thinking-токенов, но заметно умнее на сложных задачах. Скорость 15–25 tok/s, контекст 64K.
Phi-4 14B (Q5, ~11 ГБ) — от Microsoft, MMLU 76.2. Отличное reasoning и math для размера. Конкурирует с моделями втрое больше. Скорость 20–30 tok/s, контекст 16K.
Gemma 3 12B (Q4, ~8 ГБ) — лучший general-purpose в 12B классе по мнению многих. Хорошо на мультилингвале, суммаризации, code review. Скорость 25–40 tok/s, контекст 128K.
Тир 3 — 24 ГБ VRAM
RTX 3090 / 4090 / RX 7900 XTX, около $700–2000 за GPU.
Qwen 2.5 Coder 32B (Q4, ~20 ГБ) — топ для кодинга на одной потребительской карте. SWE-bench 43.4%. Хороший для больших проектов и рефакторинга. Скорость 20–35 tok/s, контекст 128K.
GLM-4.7-Flash (Q4, ~18 ГБ) — от Zhipu AI. Intelligence Index 30.1 — лучший all-rounder на 24 ГБ по тестам 2026. Победитель agentic coding challenge на localllm.in. Сильный на математике. Скорость 25–40 tok/s, контекст 128K.
DeepSeek-R1-Distill 32B (Q4, ~20 ГБ) — самый сильный reasoning на одной 24GB карте. Цепочка мыслей, math, сложный debug. Медленнее из-за thinking. Скорость 12–20 tok/s, контекст 64K.
Devstral Small 2 (24B) (Q4, ~14 ГБ) — от Mistral, специализирован на агентном кодинге и тулколлинге. SWE-bench 68%. Apache 2.0. Та самая модель из статьи выше. Скорость 44 tok/s на RTX 3090, контекст 256K.
Gemma 3 27B (Q4, ~16 ГБ) — лучший general от Google для 24 ГБ. Мультимодальный, хороший на длинных документах и мультилингвале. Скорость 20–30 tok/s, контекст 128K.
Тир 4 — 48+ ГБ VRAM или unified 96 ГБ
RTX A6000 / 2×RTX 3090 / RTX 5090 / Mac M3 Max 96 ГБ / Ryzen AI Max+ 395. Цена от $1500 до $5000+.
Llama 3.3 70B (Q4, ~40 ГБ) — от Meta, огромная экосистема fine-tune и тулинга. Хороший general + code. Нужно 48 ГБ VRAM или 2×24 ГБ. Скорость 15–25 tok/s, контекст 128K.
Qwen3-Coder-Next (80B MoE) (Q4, ~46 ГБ RAM) — от Alibaba, вышел февраль 2026. Первое место на SWE-rebench (64.6%), обходит Claude Opus 4.6 (58.3%). Всего 3B активных параметров — высокая скорость для класса. Нужно 46 ГБ unified memory или VRAM+RAM с offload. Скорость 20–40 tok/s, контекст 256K.
Devstral 2 (123B MoE) (Q2, 72+ ГБ VRAM) — из статьи выше. SWE-bench 72.2%. Нужно минимум 72 ГБ VRAM или 96 ГБ unified memory для нормальной работы. Скорость 10–20 tok/s, контекст 256K.
GPT-oss 20B (Q4, ~14 ГБ) — утёкшая open-weight модель от OpenAI. Сильное reasoning и tool-calling. Помещается на 24 ГБ, но раскрывается на большем железе с длинным контекстом. Скорость 25–35 tok/s, контекст 128K.
Тир 5 — экстремальное железо
128+ ГБ unified memory, multi-GPU, Mac M3 Ultra 512 ГБ. Цена $5000 и выше.
Qwen3-Coder 480B (Q2, ~276 ГБ) — аналог Claude Sonnet 4 по кодингу (Aider Polyglot 60.9% против 61.8% у полной точности). 35B активных параметров. Нужен кластер или Mac Ultra. Скорость 5–15 tok/s, контекст 1M токен.
DeepSeek V3.2 (685B MoE) (~200+ ГБ) — лучший open general-purpose на данный момент. SWE-bench 70.2%. Для домашнего запуска нужен Mac Ultra 512 ГБ или multi-GPU сервер. Скорость 3–10 tok/s, контекст 64K.
Самое интересное открытие из поиска — Qwen3-Coder-Next (80B MoE, 3B активных параметров) занял первое место на SWE-rebench с результатом 64.6%, обходя Claude Opus 4.6 (58.3%), GPT-5.2-medium (60.4%) и Gemini 3 Pro (58.3%). И при этом для запуска нужно всего около 46 ГБ RAM или unified memory в 4-битной квантизации.
По стратегии на 24 ГБ: Рекомендуемая связка — Qwen 2.5 Coder 7B для автокомплита (FIM), и Qwen 3.5 9B отдельно для чата, дебага и ревью кода — они не обязаны работать одновременно.
По Mac Mini как варианту: M4 Pro с 64 ГБ RAM запускает Qwen 2.5 Coder 32B на 11–12 tok/s — достаточно для production-задач. Четыре Mac Mini M4 в кластере (~$2400 суммарно) дают 496 ГБ unified memory и запускают даже Nemotron-70B.
По AMD: ROCm продолжает нагонять NVIDIA в поддержке llama.cpp и vLLM, но пока отстаёт. Radeon PRO W7900 с 48 ГБ стоит около $3500, потребительский RX 7900 XTX с 24 ГБ — ближайший вариант, но совместимость с ROCm нужно проверять под конкретную задачу.
Дополнительные заметки:
Стратегия на 24 ГБ — держать две модели по очереди: Qwen 2.5 Coder 7B для inline autocomplete (FIM) и Qwen 3.5 9B для чата и ревью. Они не обязаны работать одновременно.
Mac Mini M4 Pro с 64 ГБ RAM запускает Qwen 2.5 Coder 32B на 11–12 tok/s — достаточно для production. Четыре Mac Mini M4 в кластере (~$2400) дают 496 ГБ unified memory и тянут даже Nemotron-70B.
AMD ROCm продолжает нагонять NVIDIA в поддержке llama.cpp и vLLM, но пока отстаёт. RX 7900 XTX с 24 ГБ — ближайший потребительский аналог RTX 3090, совместимость с ROCm нужно проверять под конкретную задачу.
Квантизация Q4_K_M — золотой стандарт: уменьшает размер модели на ~75% с минимальной потерей качества. Для большинства задач неотличима от полной точности.