Старый обзор Gemini быстро устаревает, если продолжать описывать семейство через Gemini 1.5 Pro и Gemini 2.0 Flash. На 17 марта 2026 у Google уже другая рамка: в центре API-линейки стоят Gemini 3.1 Pro Preview, Gemini 3 Flash Preview, Gemini 3.1 Flash-Lite Preview, а рядом остаётся стабильная и очень важная Gemini 2.5-линейка.
Практически это означает две вещи. Во-первых, Gemini больше нельзя сводить только к тезису «самый длинный контекст». Во-вторых, Google сейчас особенно силён там, где нужны мультимодальность, большой контекст, tool layer и агрессивная цена у быстрых моделей.
Gemini 1.5 Pro + Gemini 2.0 Flash. По текущим docs Gemini 2.0 Flash и Gemini 2.0 Flash-Lite помечены как deprecated. Отдельно важно, что Gemini 3 Pro Preview был shut down 9 марта 2026, а актуальный high-end preview теперь называется Gemini 3.1 Pro Preview.В 2026 Gemini удобнее делить не по поколениям, а по operational slots:
Gemini 3.1 Pro Preview — high-end preview для самых сложных задач;Gemini 3 Flash Preview — быстрый мультимодальный preview-default;Gemini 3.1 Flash-Lite Preview — дешёвый preview lane;Gemini 2.5 Pro — стабильный reasoning-heavy вариант;Gemini 2.5 Flash — стабильный повседневный default;Gemini 2.5 Flash-Lite — очень дешёвый managed inference.Это важнее старого вопроса «какой у Gemini максимальный контекст». Сейчас семейство сильнее выглядит как матрица по цене, latency и stability.
Старый тезис про Gemini как про «модель на 2M токенов» уже недостаточен. В актуальной линейке центральный operational fact другой: и Gemini 3 preview, и Gemini 2.5 stable семейства дают 1,048,576 токенов контекста, чего уже хватает для большинства production-сценариев.
Для API-команд Gemini часто выигрывает не потому, что «умнее всех», а потому что Google в одном стеке закрывает:
Это делает Gemini особенно удобным для document AI, multimodal assistants, video/audio analysis и дешёвых retrieval-heavy систем.
У Gemini сейчас важно понимать, что thinking-механика различается между поколениями.
Gemini 3 в OpenAI-compatible docs используется параметр thinking_level.Gemini 2.5 используется thinking_budget.Google отдельно указывает, что reasoning нельзя выключить для Gemini 2.5 Pro и для моделей Gemini 3. Это значит, что нельзя честно сравнивать их с обычными non-reasoning моделями только по headline pricing: часть поведения уже встроена в сам профиль модели.
Gemini 2.5 Flash или Gemini 2.5 Flash-Lite. Если вы сразу берёте Gemini 3.1 Pro Preview, вы покупаете не только качество, но и более сложный reasoning profile с preview-risk сверху.На 17 марта 2026 у Google очень сильная ценовая лестница.
| Модель | Input | Output | Когда экономически оправдана |
|---|---|---|---|
Gemini 3.1 Pro Preview | $3 / 1M | $15 / 1M | когда реально нужен high-end preview quality |
Gemini 3 Flash Preview | $0.75 / 1M | $3.50 / 1M | быстрые multimodal assistants и preview workflows |
Gemini 3.1 Flash-Lite Preview | $0.25 / 1M | $1.50 / 1M | дешёвый preview lane |
Gemini 2.5 Pro | $1.25 / 1M до 200K, $2.50 / 1M выше | $10 / 1M до 200K, $15 / 1M выше | stable reasoning и long-context production |
Gemini 2.5 Flash | $0.30 / 1M | $2.50 / 1M | лучший practical balance |
Gemini 2.5 Flash-Lite | $0.10 / 1M | $0.40 / 1M | high-volume дешёвый inference |
Claude Sonnet 4.6 или GPT-5.1 часто проще как default.[Загружены: PDF годового отчёта и скриншот дашборда] Сделай короткое executive summary, выдели ключевые цифры, расхождения между PDF и дашбордом и верни результат в JSON.
Gemini хорошо подходит для такой задачи, потому что один и тот же вызов может обработать документ, изображение и требование к structured output. На практике это как раз тот тип workflow, где Google-стек часто выигрывает у более узких text-first моделей.
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash",
contents="Сделай краткое summary этого PR и перечисли риски."
)
print(response.text)
from google import genai
from google.genai import types
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemini-2.5-flash",
contents="Верни JSON со списком рисков релиза.",
config=types.GenerateContentConfig(
response_mime_type="application/json"
),
)
print(response.text)
from openai import OpenAI
client = OpenAI(
api_key="GEMINI_API_KEY",
base_url="https://generativelanguage.googleapis.com/v1beta/openai/"
)
response = client.responses.create(
model="gemini-2.5-flash",
input="Сравни два подхода к кешированию и выбери лучший."
)
print(response.output_text)
Gemini 2.5 Flash или Gemini 2.5 Pro, а preview-ветку Gemini 3.x подключать тогда, когда вам нужен именно её профиль качества или возможностей. Так проще управлять regressions и lifecycle.