Эмбеддинги (Embeddings)

Числовые представления текста в виде вектора, позволяющие компьютеру измерять смысловую близость слов, предложений и документов.

Эмбеддинги — это способ представить текст в виде набора чисел (вектора), чтобы компьютер мог понимать смысловую близость между словами, фразами и документами.

Как это работает

Модель эмбеддингов превращает текст в длинный список чисел — вектор. Например, фраза «домашний кот» может превратиться в список из 1536 чисел. Ключевое свойство: тексты с похожим смыслом получают близкие векторы.

  • «кошка» и «кот» → векторы очень близки друг к другу
  • «кошка» и «автомобиль» → векторы далеки друг от друга
  • «грустный» и «печальный» → векторы близки, несмотря на разные слова

Где используются эмбеддинги

ПрименениеКак работает
Семантический поискИщет документы по смыслу, а не по точному совпадению слов
RAG (поиск по базе знаний)Находит релевантные фрагменты для подачи в модель
КластеризацияГруппирует похожие тексты (отзывы, заявки, статьи)
РекомендацииПредлагает похожий контент на основе близости векторов

Пример из жизни

Если вы спросите поисковую систему «как починить кран», эмбеддинги помогут найти статьи с заголовком «ремонт смесителя» — потому что их векторы будут близки по смыслу, хотя слова совершенно разные.

Связанные термины

  • Векторная база данных — хранилище эмбеддингов для быстрого поиска похожих текстов
  • RAG — технология, использующая эмбеддинги для поиска по документам
  • Токены — единицы текста, из которых создаются эмбеддинги