Как нейросети выбирают источники

Механизмы RAG, ранжирование по авторитетности, сигналы цитируемости — как LLM решают, какой контент включить в ответ.

Когда вы задаёте вопрос Perplexity или ChatGPT, AI-поисковик не придумывает ответ на пустом месте. Он ищет релевантные веб-страницы, оценивает их и выбирает, какие процитировать. Понимание этого процесса — основа GEO: если вы знаете, по каким критериям нейросеть отбирает источники, вы можете оптимизировать свой контент так, чтобы он попадал в ответы.

Представьте, что AI-поисковик — это очень быстрый исследователь. Он читает десятки статей, выбирает из них самые надёжные и понятные, а потом пересказывает вам суть своими словами, указывая, откуда взял информацию. Ваша задача — стать одной из тех статей, которые он выбирает.

Суть в двух словах

AI-поисковики используют механизм RAG (Retrieval-Augmented Generation) — сначала ищут релевантные документы, потом генерируют ответ на их основе. Какие источники попадут в ответ, зависит от нескольких факторов:

  • Релевантность — насколько ваш контент соответствует запросу
  • Авторитетность — насколько ваш сайт заслуживает доверия
  • Ясность — насколько легко модели извлечь информацию
  • Уникальность — есть ли у вас данные, которых нет в других источниках
ПромптPerplexity
Какие языки программирования самые востребованные в 2026 году?
Ответ модели

По данным Stack Overflow Developer Survey 2025, JavaScript остаётся самым используемым языком (65.6%), за ним следуют Python (53.3%) и TypeScript (43.8%) [1]. Однако по темпам роста вакансий лидируют Rust (+34% г/г) и Go (+28% г/г) [2].

Для входа в профессию рекомендуются Python и JavaScript как наиболее универсальные [3].

[1] survey.stackoverflow.com [2] devjobsscanner.com [3] roadmap.sh

Обратите внимание: Perplexity выбрал три разных источника — авторитетный опрос, аналитику рынка вакансий и образовательный ресурс. Каждый даёт уникальные данные, которые модель не может сгенерировать сама.

Архитектура AI-поиска: как это работает изнутри

Все AI-поисковики работают по принципу RAG (Retrieval-Augmented Generation, генерация с извлечением данных). Это двухэтапный процесс.

Что влияет на отбор источников

1. Семантическая релевантность

Модель ищет не по точному совпадению ключевых слов, а по смыслу. Запрос «как уменьшить расход токенов» найдёт статью, в которой написано «оптимизация стоимости API-вызовов к языковым моделям», даже если слово «токены» в ней не встречается.

Без техники
Наша компания предлагает услуги по оптимизации. Мы работаем с 2015 года. Свяжитесь с нами для консультации.
С техникой
Чтобы сократить расход токенов при работе с LLM API, используйте три приёма: prompt caching (экономия до 90% на повторных запросах), prompt compression (сжатие промптов без потери смысла), batch API (скидка 50% за отложенную обработку).

2. Сигналы авторитетности

AI-поисковики унаследовали от классических систем понятие авторитетности сайта, но добавили новые факторы:

  • Обратные ссылки — классический SEO-сигнал, который продолжает работать
  • Упоминания бренда — сколько раз ваш сайт упоминается в сети
  • E-E-A-T сигналы — экспертность автора, опыт, авторитетность источника
  • Свежесть контента — дата публикации и обновления
  • Уникальные данные — собственные исследования, эксклюзивная статистика

3. Структура и извлекаемость

Модели легче извлечь информацию из хорошо структурированного контента:

Плюсы

  • Чёткие заголовки H2/H3, отражающие содержание раздела
  • Списки и таблицы вместо длинных абзацев
  • Прямые ответы на вопросы в первом предложении раздела
  • Числовые данные: проценты, суммы, даты
  • FAQ-секции с конкретными вопросами и ответами
  • Schema.org разметка (FAQPage, HowTo, Article)

Минусы

  • Сплошной текст без заголовков и визуального деления
  • Ответ «закопан» в середине длинного абзаца
  • Размытые формулировки: «в некоторых случаях», «как правило», «зависит от обстоятельств»
  • Контент за JavaScript-рендерингом (SPA без SSR)
  • Контент в изображениях без alt-текста
  • Избыточная вложенность: таб внутри аккордеона внутри табов

4. Эффект «потерянных в середине»

Исследование «Lost in the Middle» (Liu et al., 2023) показало, что языковые модели уделяют больше внимания информации в начале и конце контекста. Документы, которые оказываются «в середине» списка, цитируются реже.

Размещайте самую важную информацию в начале страницы. Первые 2-3 абзаца должны содержать ключевые факты и прямые ответы. Не заставляйте читателя (и нейросеть) прокручивать вступление из 5 абзацев, прежде чем добраться до сути.

5. Уникальность и добавленная ценность

AI-системы предпочитают источники с уникальной информацией. Если десять сайтов пересказывают одну и ту же статью, модель процитирует первоисточник или тот, который добавил собственный анализ.

Что повышает уникальность:

  • Собственные исследования и данные
  • Экспертные комментарии и мнения
  • Кейсы из практики с конкретными цифрами
  • Сравнительные таблицы, которых нет у других
  • Свежая информация, которую конкуренты ещё не опубликовали

Как разные AI-поисковики выбирают источники

ПромптChatGPT
Объясни разницу между RAG и fine-tuning — когда что применять.
Ответ модели

RAG (Retrieval-Augmented Generation) и fine-tuning — два подхода к адаптации языковых моделей.

RAG подключает модель к внешним данным в реальном времени. Подходит, когда:

  • Данные часто обновляются
  • Нужно работать с конкретными документами
  • Важна прозрачность источников

Fine-tuning обучает модель на ваших данных. Подходит, когда:

  • Нужно изменить стиль или формат ответов
  • Задача специфическая и повторяющаяся
  • Данные стабильны и не меняются часто

На практике часто комбинируют оба подхода: fine-tuning для стиля + RAG для актуальных данных.

Perplexity активно цитирует и всегда показывает источники. Предпочитает авторитетные сайты с уникальными данными.

ChatGPT Search цитирует, когда ищет в реальном времени. При ответах из обучающих данных источники не указывает.

Google AI Overviews опирается на собственный индекс Google. Сильная корреляция с обычным ранжированием в Google Search.

YandexGPT работает с индексом Яндекса. Преимущество — лучшее понимание русскоязычного контента.

Не пытайтесь обмануть AI-поисковики: keyword stuffing, скрытый текст, генерация контента ради объёма. AI-системы обнаруживают манипуляции эффективнее классических поисковиков. Фокусируйтесь на реальной ценности контента.

Техническая сторона: как устроен RAG в AI-поиске

Архитектура RAG-пайплайна

Запрос пользователя
        │
        ▼
┌─────────────────┐
│  Query Rewrite   │  ← Переформулировка запроса
│  (Sub-queries)   │    в 2-5 поисковых подзапросов
└────────┬────────┘
         │
         ▼
┌─────────────────┐
│  Web Search /    │  ← Поиск по индексу
│  Index Lookup    │    (BM25 + embeddings)
└────────┬────────┘
         │
         ▼
┌─────────────────┐
│  Re-Ranker       │  ← Cross-encoder модели
│  (Top-K select)  │    переранжируют результаты
└────────┬────────┘
         │
         ▼
┌─────────────────┐
│  LLM Generation  │  ← Генерация ответа с
│  + Citation      │    привязкой к источникам
└─────────────────┘

Как оптимизировать для retrieval-этапа

На этапе retrieval используются два основных метода поиска:

BM25 (лексический поиск) — ищет точные совпадения слов. Для оптимизации:

  • Используйте терминологию, которую ищет ваша аудитория
  • Включайте синонимы и варианты написания
  • Размещайте ключевые термины в заголовках

Embedding-based search (семантический поиск) — ищет по смыслу. Для оптимизации:

  • Пишите тематически плотный контент
  • Одна страница — одна тема (не мешайте несвязанные темы)
  • Первый абзац должен чётко описывать, о чём страница

Оптимизация для re-ranking


from sentence_transformers import CrossEncoder

model = CrossEncoder("cross-encoder/ms-marco-MiniLM-L-12-v2")

query = "как оптимизировать контент для AI-поисковиков"

passages = [
    # Высокий скор: прямой ответ с конкретикой
    "Для оптимизации контента под AI-поисковики используйте "
    "структурированные данные Schema.org, добавляйте FAQ-секции "
    "с прямыми ответами и включайте статистику с указанием источников.",

    # Средний скор: релевантная, но размытая
    "Оптимизация контента — важный процесс, который включает "
    "множество факторов и зависит от конкретной ситуации.",

    # Низкий скор: нерелевантная
    "Наша компания занимается разработкой сайтов с 2010 года. "
    "Мы создали более 500 проектов.",
]

scores = model.predict([(query, p) for p in passages])
for passage, score in sorted(zip(passages, scores), key=lambda x: -x[1]):
    print(f"Score: {score:.3f} | {passage[:80]}...")

Метаданные, которые помогают AI-системам

<!-- Обязательные элементы для GEO -->
<head>
  <!-- Дата публикации и обновления -->
  <meta property="article:published_time" content="2026-02-23T00:00:00Z" />
  <meta property="article:modified_time" content="2026-02-23T00:00:00Z" />

  <!-- Автор -->
  <meta name="author" content="Имя Фамилия" />

  <!-- Каноническая ссылка -->
  <link rel="canonical" href="https://example.com/geo/how-ai-selects-sources" />

  <!-- Описание для AI-систем -->
  <meta name="description" content="Как AI-поисковики отбирают и цитируют
    источники: механизмы RAG, сигналы авторитетности, критерии цитируемости." />
</head>

<body>
  <!-- Структурированные данные Article -->
  <script type="application/ld+json">
  {
    "@context": "https://schema.org",
    "@type": "TechArticle",
    "headline": "Как нейросети выбирают источники",
    "datePublished": "2026-02-23",
    "dateModified": "2026-02-23",
    "author": {
      "@type": "Person",
      "name": "Имя Фамилия"
    },
    "publisher": {
      "@type": "Organization",
      "name": "AI-портал"
    }
  }
  </script>
</body>

Мониторинг цитирований

import httpx
import asyncio

QUERIES = [
    "как оптимизировать контент для AI",
    "что такое GEO оптимизация",
    "schema.org для AI поисковиков",
]

async def monitor_citations(
    domain: str,
    queries: list[str],
    perplexity_key: str,
) -> list[dict]:
    """Мониторит, цитируют ли AI-поисковики ваш домен."""
    results = []

    async with httpx.AsyncClient() as client:
        for query in queries:
            resp = await client.post(
                "https://api.perplexity.ai/chat/completions",
                headers={"Authorization": f"Bearer {perplexity_key}"},
                json={
                    "model": "sonar",
                    "messages": [{"role": "user", "content": query}],
                },
            )
            data = resp.json()
            citations = data.get("citations", [])

            results.append({
                "query": query,
                "cited": any(domain in c for c in citations),
                "position": next(
                    (i for i, c in enumerate(citations) if domain in c),
                    None,
                ),
                "total_citations": len(citations),
            })

    return results

results = asyncio.run(
    monitor_citations("example.com", QUERIES, "pplx-xxx")
)
for r in results:
    status = "Процитирован" if r["cited"] else "Не найден"
    print(f"[{status}] {r['query']}")
Факторы, влияющие на цитируемость в AI-ответах (GEO, 2023)
Релевантность контента запросу95%
Наличие уникальных данных/статистики82%
Авторитетность домена (DA/DR)75%
Структурированная разметка68%
Свежесть контента60%
Прямые ответы на вопросы72%

Проверьте себя

Проверьте себя

1. Что такое RAG в контексте AI-поиска?

2. Почему AI-поисковики реже цитируют информацию из середины страницы?

3. Какой фактор больше всего влияет на цитируемость контента?