Чанкинг (Chunking)

Процесс разбиения длинных документов на небольшие фрагменты (чанки) для последующей индексации и поиска в системах RAG.

Чанкинг — это процесс разбиения длинных документов на небольшие фрагменты (чанки), чтобы их можно было эффективно индексировать и искать в системах RAG.

Как это работает

Языковая модель не может обработать книгу целиком за один запрос — не хватит контекстного окна. Да и искать ответ в целой книге неэффективно. Поэтому документы нарезают на чанки:

Берётся длинный документ (PDF, статья, инструкция)
Документ разбивается на фрагменты по 200-1000 токенов
Каждый фрагмент превращается в эмбеддинг и сохраняется в векторную базу
При поиске система находит только те фрагменты, которые релевантны вопросу

Стратегии разбиения

Стратегия	Описание	Когда использовать
По количеству символов	Фиксированный размер, например 500 символов	Простые тексты
По предложениям	Каждое предложение — отдельный чанк	Короткие FAQ
По абзацам	Разделение по пустым строкам	Структурированные документы
По заголовкам	Разбиение по разделам документа	Техническая документация
С перекрытием	Чанки пересекаются на 10-20%	Когда контекст теряется на стыках

Слишком маленькие чанки теряют контекст — как вырванное из текста предложение. Слишком большие чанки размывают поиск — среди лишней информации сложнее найти точный ответ. Оптимальный размер обычно подбирается экспериментально.

Связанные термины

RAG — технология, для которой используется чанкинг
Эмбеддинги — числовые представления, создаваемые для каждого чанка
Векторная база данных — хранилище чанков в виде эмбеддингов

Источники

Трансформер (Transformer)

Чат-модель (Chat Model)

Чанкинг (Chunking)

Как это работает

Стратегии разбиения

Почему размер чанка важен

Связанные термины

Источники