Локальный AI

Как запускать AI-модели на своём компьютере: Ollama, LM Studio, llama.cpp и сравнение с облачными решениями.

Edge AI в 2026: on-device модели для mobile, browser и embedded without cloud-first assumptions

Актуальный обзор Edge AI на 22 марта 2026: Google AI Edge и MediaPipe LLM Inference, ExecuTorch, Core ML, ONNX Runtime GenAI, Transformers.js v4, browser WebGPU/WebNN и current on-device deployment patterns.

Средняя

LM Studio в 2026: local AI desktop, headless service, MCP и OpenAI-compatible server

Актуальный обзор LM Studio на 22 марта 2026: GUI и headless режим, local server, OpenAI/Anthropic-compatible endpoints, MCP host, offline RAG, MLX на Apple Silicon и current developer stack.

Начальная

Ollama в 2026: локальный model runtime с tools, thinking, structured outputs и cloud bridge

Актуальный обзор Ollama на 22 марта 2026: local and cloud models, tools, thinking, structured outputs, multimodal support, OpenAI/Anthropic compatibility, ollama launch и когда Ollama уже больше, чем просто локальный CLI.

Начальная

SLM в 2026: Phi-4-mini, Gemma 3/3n, Qwen3 и Llama 3.2 для локального запуска

Актуальный обзор Small Language Models на 22 марта 2026: Phi-4-mini, Gemma 3 и Gemma 3n, Qwen3, Llama 3.2, когда small models уже достаточно, как выбирать размер, что запускать локально и где границы SLM.

Средняя

llama.cpp и GGUF в 2026: low-level local runtime, hybrid CPU+GPU inference и current quantization reality

Актуальный обзор llama.cpp и GGUF на 22 марта 2026: ggml-org era, current backends, GGUF as canonical local format, hybrid CPU+GPU inference, Jinja chat templates, gpt-oss/open models, quantization tradeoffs и security hygiene.

Продвинутая

Облако vs локальные модели в 2026: cloud-first, local-first и hybrid routing

Актуальное сравнение облачных и локальных моделей на 22 марта 2026: cloud-first vs local-first vs hybrid, privacy, cost, latency, governance, current API economics и когда local stack уже практичнее облака.

Начальная