Векторная база данных (Vector Database)

Специализированная база данных для хранения и быстрого поиска по эмбеддингам — числовым представлениям текста, изображений и других данных.

Векторная база данных — это хранилище, специально созданное для работы с эмбеддингами (числовыми представлениями текста). Она позволяет быстро находить похожие по смыслу документы среди миллионов записей.

Как это работает

Обычная база данных ищет по точному совпадению: «найди все записи, где город = Москва». Векторная база ищет по смысловой близости:

  1. Все документы преобразуются в эмбеддинги (векторы чисел) и сохраняются в базу
  2. Когда приходит запрос, он тоже превращается в вектор
  3. База находит документы с самыми близкими векторами — то есть самые похожие по смыслу

Популярные векторные базы данных

База данныхОсобенность
QdrantОткрытый код, написана на Rust, высокая производительность
ChromaПростая в использовании, популярна для прототипов
PineconeОблачный сервис, не нужно настраивать сервер
pgvectorРасширение для PostgreSQL, если у вас уже есть PostgreSQL
MilvusОткрытый код, масштабируется до миллиардов записей

Пример использования

Техподдержка компании загрузила в векторную базу 10 000 статей. Когда клиент пишет «у меня не работает оплата картой», база находит статьи про проблемы с платёжными системами, даже если слово «карта» в них не упоминается напрямую.

Связанные термины

  • Эмбеддинги — векторные представления, которые хранятся в базе
  • RAG — главный сценарий использования векторных баз данных
  • Чанкинг — разбиение документов перед загрузкой в базу