Семантический поиск (Semantic Search)

Поиск по смыслу, а не по точному совпадению слов. AI понимает значение запроса и находит релевантные результаты, даже если слова не совпадают.

Семантический поиск — это технология поиска информации по смыслу, а не по точному совпадению ключевых слов. Модель понимает значение запроса и находит документы, которые отвечают на вопрос, даже если в них используются другие слова.

Как это работает

  1. Все документы превращаются в числовые векторы (эмбеддинги), которые отражают их смысл
  2. Поисковый запрос тоже превращается в вектор
  3. Система находит документы, чьи векторы ближе всего к вектору запроса
  4. Близость измеряется с помощью косинусного сходства

Сравнение: обычный vs семантический поиск

ЗапросОбычный поискСемантический поиск
«Как уменьшить расходы»Ищет страницы со словами «уменьшить» и «расходы»Найдёт также статьи про «оптимизацию бюджета» и «снижение затрат»
«Болит голова»Только страницы с этими словамиНайдёт также «мигрень», «головная боль», «цефалгия»
«Python ошибка при чтении файла»Совпадение по ключевым словамНайдёт решения с другими формулировками проблемы

Где используется

  • RAG-системы — поиск релевантных документов для подачи в LLM
  • Поисковые движки — Google, Яндекс используют семантику наряду с ключевыми словами
  • Корпоративный поиск — поиск по внутренним документам компании
  • Рекомендательные системы — подбор похожих товаров, статей, фильмов

Связанные термины

  • Косинусное сходство — метрика, используемая для сравнения смысловой близости
  • Эмбеддинг — числовое представление текста, основа семантического поиска
  • RAG — архитектура, активно использующая семантический поиск