Косинусное сходство (Cosine Similarity)

Математическая метрика, измеряющая смысловую близость двух текстов через угол между их числовыми представлениями (векторами).

Косинусное сходство — это математический способ измерить, насколько два текста близки по смыслу. Метрика сравнивает направления числовых векторов (эмбеддингов) двух текстов: чем ближе направления — тем больше сходство.

Как это работает

  1. Каждый текст превращается в числовой вектор (набор чисел) — эмбеддинг
  2. Вычисляется угол между двумя векторами
  3. Результат — число от -1 до 1:
ЗначениеЧто означаетПример
1.0Идентичный смысл«кот» и «кот»
0.8–0.9Очень похожи«кот» и «котёнок»
0.5–0.7Есть связь«кот» и «домашнее животное»
0.0Не связаны«кот» и «математика»
-1.0Противоположный смыслРедко на практике

Аналогия из жизни

Представьте, что вы и друг стоите в центре комнаты и указываете руками в каком-то направлении. Если вы указываете в одну сторону — ваши «мнения» совпадают (сходство близко к 1). Если в разные стороны — не совпадают (сходство близко к 0).

Где используется

  • Семантический поиск — нахождение документов, близких по смыслу к запросу
  • Рекомендации — подбор похожих товаров, статей, фильмов
  • Кластеризация — группировка похожих текстов
  • Дедупликация — обнаружение дубликатов с разными формулировками

Связанные термины

  • Эмбеддинг — числовое представление текста, на котором вычисляется сходство
  • Семантический поиск — технология поиска, использующая косинусное сходство
  • RAG — архитектура, где косинусное сходство помогает находить релевантные документы