На 22 марта 2026 уже неточно объяснять SLM через старую рамку Phi-4 + Gemma 2 + Qwen2.5, как будто small-model landscape застыл в 2025. Current practical lineup уже другой:
Phi-4-mini-instruct, а не только базовый Phi-4;Gemma 2 to Gemma 3 и особенно Gemma 3n для on-device use;Qwen3, а не Qwen2.5;Llama 3.2 1B / 3B.Поэтому в 2026 SLM полезнее понимать не как "маленькие версии больших моделей", а как отдельный operational class для local, edge, offline и latency-sensitive сценариев.
SLM - это small language models: модели, которые реально можно запускать локально на ноутбуке, мини-ПК, в embedded-сценариях, а иногда и прямо на телефоне. Они не обязаны быть "самыми умными", их задача другая:Gemma 2 / Qwen2.5 / benchmark race уже устарела. Current SLM discussion больше крутится вокруг Phi-4-mini, Gemma 3/3n, Qwen3, Llama 3.2, on-device memory budgets, context windows, hybrid reasoning modes и practical local deployment.Current SLM уже нельзя честно описывать только через parameter count вроде 0.5B-14B.
Практически small model today определяется не только размером, но и тем, что она оптимизирована под:
Поэтому в 2026 полезнее думать о SLM как о deployment class, а не как о "маленьком LLM".
Рост SLM идёт не только из-за open weights. Есть более practical причины:
Именно поэтому current local stack уже не выглядит как "компромисс для бедных". Во многих сценариях это уже sane default.
Official Microsoft Azure Phi page прямо пишет, что Phi-4-mini и Phi-4-multimodal - newest models in the Phi family.
Model card for Phi-4-mini-instruct даёт ещё более useful picture:
3.8B dense decoder-only model;128K context;Это делает Phi-4-mini одним из лучших current defaults, если нужен:
Практический вывод:
Phi-3.5-mini или только full Phi-4, current practical reference уже Phi-4-mini.Official Gemma docs now describe Gemma 3 as the core open family.
Что важно:
1B, 4B, 12B, 27B;1B is text-first small lane;Gemma 2.For SLM discussion especially relevant are:
Gemma 3 1B as compact text model;Gemma 3 4B as stronger local default while still manageable on consumer hardware.Current Gemma 3n docs are even more important for SLM/edge framing.
Google explicitly positions it for:
Model card for gemma-3n-E2B-it explains the practical trick:
2B class model.Это очень важный 2026 signal:
Official Qwen blog уже давно перевёл основную story from Qwen2.5 to Qwen3.
Что важно для small-model overview:
0.6B, 1.7B, 4B, 8B;Model cards for Qwen3-4B and Qwen3-8B are useful because they show:
32K native context and 131K with YaRN;Это делает Qwen3 особенно useful when:
Даже после всех vendor updates Llama 3.2 1B / 3B остаётся очень важным reference point.
Official Meta model cards on Hugging Face keep the small lane simple:
1B and 3B instruct models;Сегодня Llama 3.2 уже не выглядит как most capable small family, but it still matters because:
Практически:
Llama 3.2 1B/3B всё ещё полезны;Phi-4-mini, Gemma 3, Qwen3 often look better.Вместо старой привязки "до 14B = SLM" полезнее использовать deployment bands:
Примерно sub-1B to 1B.
Когда полезно:
Примерно 3B to 4B.
Сейчас это, пожалуй, sweet spot:
Примерно 7B to 8B.
Когда useful:
Это лучше описывает рынок, чем старое "всё до 14B одинаково small".
Current SLM особенно хороши для:
Во всех этих задачах frontier cloud model часто не обязателен.
Даже current best small models всё ещё чаще уступают cloud frontier models в:
Практическая истина здесь простая:
Вместо старых charts с токенами в секунду полезнее держать такую грубую operational рамку:
| Память устройства | Что обычно реалистично |
|---|---|
4-8 GB | ultra-small и квантизованные 1B-3B |
8-16 GB | комфортный запуск 3B-4B, иногда 7B в aggressive quantization |
16-32 GB | strong local band 7B-8B, более длинный контекст, better UX |
Это не строгий benchmark, а practical planning heuristic. Реальный fit зависит от:
Current small models побеждают не только за счёт масштаба данных, но и за счёт design choices:
Это видно по current vendor stories:
Current practical local stack обычно такой:
Ollama for quick start;LM Studio for desktop GUI;llama.cpp / GGUF when you want maximum control;MLX if you are on Apple Silicon;vLLM / server runtimes only when you move from personal local use to real serving.Для SLM особенно важно, что все эти tools now make small local deployment boring in a good way: less heroic tinkering, more ordinary engineering.
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "microsoft/Phi-4-mini-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
device_map="auto",
)
1. Start with a 3B-4B class model.
2. Quantize if memory is tight.
3. Test on your real prompts, not public benchmarks.
4. Only move upward to 7B-8B if quality is still insufficient.
Phi-4-mini when you want strongest reasoning-ish small default;Gemma 3n when on-device and multimodal footprint matter;Qwen3 4B/8B when multilingual quality and local coding matter;Llama 3.2 when ecosystem maturity matters more than raw quality-per-size.1. Что сильнее всего изменилось в SLM-ландшафте к 2026 году?
2. Когда `Gemma 3n` особенно логично рассматривать?
3. Какой practical выбор чаще всего разумен для начала local deployment?