Cost Attribution for AI в 2026: кто именно потратил токены, tool calls и inference budget

Cost attribution for AI в 2026: project, tenant, route, tool и feature-level разрезы расходов, чтобы cost optimization перестал быть гаданием.

Cost attribution for AI в 2026 нужна потому, что общий monthly spend почти ничего не объясняет. Для production-команды важнее другой вопрос: какой tenant, feature, route, tool или workflow реально съедает бюджет и даёт ли это соответствующий quality gain. Без этого cost optimization превращается в хаотичное ужимание токенов и слепой downgrade.

Cost attribution похож на разбор расходов бизнеса по подразделениям. Общая сумма за месяц полезна для CFO, но бесполезна для инженера, который должен понять, почему внезапно подорожал support copilot или какой agent workflow стал слишком дорогим.
Самый вредный anti-pattern - считать только стоимость по модели или провайдеру. Для AI-систем этого мало: дорожают не только модели, но и tool loops, retrieval depth, retries, approvals, fallback paths и long-running sessions.

Короткая версия

Хорошая cost attribution в 2026 обычно делит расходы по:

  1. Project / team
  2. Tenant / customer
  3. Route / feature
  4. Tool / workflow step
  5. Outcome or success class

Что особенно важно

  • cost должен быть привязан к trace_id и route;
  • важно считать не только tokens, но и tool / retrieval / cache economics;
  • useful unit часто не cost per request, а cost per successful outcome;
  • attribution без quality context легко ведёт к вредной экономии.
Без техники
Команда видит только общий счёт провайдера и знает, что `что-то стало дороже`.
С техникой
По трассам видно: рост пришёл из premium route для enterprise tenant, где escalations и repeated tool retries резко увеличили cost per resolved case.
ПромптCost intuition
Что полезнее для production-решений: средняя цена одного вызова модели или cost per successful support resolution?
Ответ модели

Почти всегда второе. Низкая цена model call мало значит, если workflow стал дольше, чаще ретраится и чаще уходит на human review.

1. Общий spend мало помогает инженерным решениям

Даже если у вас есть хороший billing dashboard, он редко отвечает на практические вопросы:

  • какая фича стала дороже после релиза;
  • какой tenant создаёт аномальный load;
  • где cache hit rate просел и удорожил route;
  • какие tools дают много лишних циклов;
  • сколько стоит не просто answer, а успешный outcome.

Именно поэтому attribution нужно привязывать к operational surface, а не только к invoice.

2. Полезные разрезы attribution

Project / team

Помогает видеть ownership бюджета.

Tenant / customer

Нужен для B2B, quotas и margin analysis.

Route / feature

Показывает, что реально дорожает:

  • search assistant;
  • support copilot;
  • refund workflow;
  • browser agent.

Tool / step

Особенно полезно для агентных систем:

  • retrieval;
  • reranking;
  • code execution;
  • browser loop;
  • validator lane.
Если cost нельзя привязать к route и trace, команда почти неизбежно начнёт экономить на неправильном слое: например, на модели вместо retries, retrieval depth или tool loop discipline.

3. Cost per outcome полезнее cost per request

cost per request слишком часто скрывает проблему.

Например:

  • cheap route вызывает три ретрая и всё равно эскалирует;
  • дорогой route решает кейс за один проход;
  • browser agent делает 20 шагов ради результата, который API route дал бы дешевле.

В таких случаях важнее смотреть:

  • cost per resolved support ticket;
  • cost per accepted draft;
  • cost per successful task completion;
  • cost per approved workflow.

4. Tooling costs тоже нужно учитывать

LLM stack дорожает не только от model tokens:

  • retrieval context tokens;
  • reranker calls;
  • browser/computer-use loops;
  • sandbox execution;
  • external APIs;
  • human review time.

Именно поэтому хорошая attribution-модель обычно комбинирует:

  • provider usage;
  • tool step metadata;
  • business outcome.

5. Attribution и routing связаны напрямую

Routing без cost attribution быстро становится "кажется, premium lane окупается".

Но правильный вопрос звучит так:

  • насколько quality улучшился;
  • на каком сегменте;
  • какой дополнительный cost на один полезный outcome;
  • есть ли tenants, где premium route вообще не окупается.

Это и делает routing policy финансово осмысленной.

6. Что особенно часто ломают команды

Only provider-level accounting

Видно spend по вендору, но не по feature.

No trace linkage

Нельзя пройти от счёта к конкретному workflow pattern.

Ignoring retries and escalations

На бумаге model call дешёвый, но workflow дорогой.

No tenant dimension

B2B system не понимает unit economics по клиентам.

Cost without quality

Оптимизация делает сервис дешевле, но заметно хуже.

7. Какие метрики полезны

Минимальный cost-attribution dashboard обычно включает:

  • cost by route / feature;
  • cost by tenant / project;
  • cost per successful outcome;
  • tool-step cost contribution;
  • escalation-adjusted cost;
  • cache savings by route.

Плюсы

  • Cost attribution делает оптимизацию адресной, а не слепой
  • Trace-linked economics помогают находить дорогие workflow anti-patterns
  • Tenant and route разрезы полезны для B2B unit economics
  • Cost per outcome лучше отражает реальную полезность системы

Минусы

  • Нужно больше instrumentation и метаданных
  • Не все external tool costs легко нормализовать
  • Без quality context cost data легко толкают к вредным решениям
  • Атрибуция по сложным agent workflows требует дисциплины по trace structure

Пример attribution tags

{
  "trace_id": "tr_2049",
  "project": "support-copilot",
  "tenant_id": "tenant_182",
  "route": "premium_refund_review",
  "workflow_step": "retrieval_answer_validate",
  "outcome": "approved_resolution"
}

Практический checklist

1. Link provider spend to traces
2. Add route and tenant tags
3. Track tool-step contributions
4. Compare cost with quality and outcome
5. Review anomalies after routing or policy changes

Практический совет: если после релиза вырос счёт, первый вопрос должен быть не "какая модель подорожала", а "какой route, step или tenant изменил экономику системы". Это почти всегда даёт более точный и менее разрушительный путь оптимизации.

Проверьте себя

1. Почему общего monthly spend недостаточно?

2. Что обычно полезнее, чем cost per request?

3. Какой anti-pattern особенно вреден?