Практикум: RAG на русском языке

Практикум по RAG на русском в 2026: Python, Qdrant, multilingual embeddings, metadata filters, hybrid-ready retrieval и grounded answers вместо старого Chroma-only baseline.

Этот практикум в 2026 уже не стоит строить вокруг старой схемы LangChain + ChromaDB + один retriever. Для русскоязычного RAG сегодня полезнее брать стек, который сразу допускает:

multilingual embeddings;
нормальные metadata filters;
дальнейший переход в hybrid retrieval;
более production-friendly storage.

Поэтому в качестве baseline здесь используется Python + Qdrant + multilingual embeddings + grounded answer policy.

Русскоязычный RAG отличается не отдельной магией, а тем, что retrieval должен нормально переживать морфологию, длинные слова, смешанные формулировки и иногда русско-английские термины в одном вопросе.

Не начинайте с англоязычных embeddings “потому что они популярные”. На русском retrieval quality от этого часто проседает сильнее, чем кажется, особенно на policy, support и docs-корпусах.

Компонент	Почему
Qdrant	удобный modern retrieval store, легко развивать дальше
Multilingual embeddings	лучше держат русский и mixed-language queries
Metadata filters	важны для локали, типа документа, даты и ACL
Grounded answer policy	снижает фантазии при слабом retrieval

1. Почему русскоязычный RAG требует отдельной дисциплины

На русском retrieval чаще ломается из-за сочетания факторов:

богатая морфология;
длинные слова и compound-like формулировки;
mix русского и английского терминов;
разные способы назвать одну и ту же сущность;
официально-канцелярский стиль документов.

Из-за этого baseline “взяли любую embedding model и всё взлетело” работает хуже, чем хотелось бы.

2. Минимальная архитектура практикума

Этот практикум сознательно строится не как full production system, а как strong baseline:

собираем документы;
режем на chunks;
считаем multilingual embeddings;
кладём в Qdrant;
делаем retrieval;
отвечаем только по найденному контексту.

Этого уже достаточно, чтобы дальше добавлять:

hybrid retrieval;
reranking;
citations;
corrective gates.

3. Какие embeddings выбирать

Практически полезны два класса:

Hosted embeddings

Подходят, если важны:

быстрый старт;
меньше local infra;
хорошая managed latency.

Open multilingual embeddings

Подходят, если нужны:

локальная обработка;
контроль над индексом;
минимизация vendor lock-in.

Для русского особенно полезно смотреть на:

multilingual-e5;
BGE-M3;
другие multilingual retrieval models, а не англо-центричный baseline.

4. Почему Qdrant здесь лучше старого “Chroma как default”

Chroma остаётся нормальным учебным инструментом, но для практикума 2026 Qdrant удобнее как baseline, потому что:

лучше смотрится как путь к production;
поддерживает более зрелую retrieval конфигурацию;
удобно развивать filters и hybrid paths;
не заставляет потом полностью переучивать mental model команды.

То есть этот практикум не про “самую простую локальную игрушку”, а про правильный стартовый стек, который не придётся сразу выбрасывать.

5. Chunking для русского

Практические правила:

не делать chunks слишком маленькими;
учитывать структуру документа;
сохранять section headers;
не резать policy/FAQ ответы так, чтобы терялся смысл;
держать metadata по источнику, разделу и типу документа.

Для русских документов особенно важно, чтобы chunking был structure-aware, а не только символо-ориентированным.

6. Retrieval должен быть grounded и filter-aware

Даже в простом прототипе полезно сразу иметь:

document type metadata;
language / locale;
source;
updated_at;
optional tenant or access metadata.

Это помогает не только поиску, но и future scaling:

фильтровать старые документы;
отделять policy от marketing;
изолировать клиентские данные;
объяснять, откуда взят ответ.

Без техники

{ "title": "Слабо", "content": "В индекс кладутся только тексты чанков без source metadata, поэтому retrieval может смешивать FAQ, маркетинг и старые политики." }

С техникой

{ "title": "Лучше", "content": "Каждый чанк идёт в индекс вместе с source, section, type и датой. Retrieval становится более управляемым и безопасным." }

7. Почему grounded answer policy важнее красивого текста

Для русскоязычного практикума лучше сразу задать модели простое правило:

отвечать только по найденному;
если evidence нет, так и говорить;
не допридумывать детали.

Это скучнее, чем “креативный помощник”, но намного полезнее для реального RAG.

8. Минимальный пример

from qdrant_client import QdrantClient, models
from openai import OpenAI

qdrant = QdrantClient(":memory:")
client = OpenAI()

qdrant.create_collection(
    collection_name="docs",
    vectors_config=models.VectorParams(size=1536, distance=models.Distance.COSINE),
)

texts = [
    "Электронику можно вернуть в течение 7 дней с момента покупки.",
    "Для возврата нужен чек или номер заказа.",
]

embeddings = client.embeddings.create(
    model="text-embedding-3-small",
    input=texts,
)

qdrant.upsert(
    collection_name="docs",
    points=[
        models.PointStruct(
            id=i,
            vector=item.embedding,
            payload={"text": text, "source": "returns.md", "lang": "ru"},
        )
        for i, (text, item) in enumerate(zip(texts, embeddings.data))
    ],
)

Это hosted embedding path, но retrieval surface остаётся в вашем контроле. Если нужен fully local route, embeddings можно заменить на open multilingual model.

9. Что улучшать следующим шагом

После working baseline логичный порядок такой:

eval на реальных русских запросах;
metadata filtering;
hybrid retrieval;
reranking;
citations and no-answer behavior.

И только потом стоит думать про agentic upgrades.

Плюсы

Даёт современный baseline для русскоязычного RAG без завязки на устаревший стек
Сразу учитывает multilingual retrieval и metadata
Проще масштабировать к production, чем старый Chroma-only tutorial
Хорошо совместим с дальнейшим hybrid и reranking paths

Минусы

Чуть сложнее, чем совсем учебный локальный пример
Качество всё равно зависит от реальных русских eval-наборов
Hosted embeddings добавляют vendor dependency
Без hybrid/reranking baseline может пропускать сложные query types

Что стоит добавить сразу после MVP

Минимальный upgrade list:

source, section, type, updated_at в metadata;
оффлайн-набор русских queries для eval;
no-answer prompt policy;
explicit logging retrieved chunks;
later: hybrid retrieval and reranking.

Проверьте себя

1. Что наиболее важно для русского baseline RAG?

{ "text": "Multilingual embeddings и eval на реальных русских запросах", "correct": true, "explanation": "Верно. Без этого retrieval quality часто оказывается обманчиво слабым." } { "text": "Только самый маленький chunk_size", "correct": false, "explanation": "Слишком маленькие chunks скорее ломают контекст." } { "text": "Отсутствие metadata, чтобы индекс был проще", "correct": false, "explanation": "Metadata как раз сильно помогает retrieval quality и controllability." }

2. Почему в практикуме 2026 разумнее взять Qdrant как baseline?

{ "text": "Он лучше подходит как переходный мост от учебного прототипа к более production-ready retrieval stack", "correct": true, "explanation": "Да. В этом его главный practical смысл." } { "text": "Потому что Chroma полностью перестал работать", "correct": false, "explanation": "Нет. Вопрос не в работоспособности, а в более зрелом baseline." } { "text": "Потому что русский язык поддерживается только в Qdrant", "correct": false, "explanation": "Поддержка языка зависит не только от storage, но прежде всего от embeddings и retrieval design." }

3. Какой следующий шаг после working MVP?

{ "text": "Сделать eval, добавить metadata filters и только потом идти в hybrid/reranking", "correct": true, "explanation": "Это наиболее здоровый путь." } { "text": "Сразу строить multi-agent GraphRAG", "correct": false, "explanation": "Для MVP это почти всегда преждевременно." } { "text": "Удалить no-answer behavior, чтобы ответы звучали увереннее", "correct": false, "explanation": "Это ухудшает trustworthiness." }

Источники

Оценка качества RAG-системы

Реранкинг в RAG: как улучшить качество поиска