Mixture-of-Agents (MoA, смесь агентов) — техника, при которой несколько LLM организованы в слои: на первом слое proposers генерируют разные варианты ответа, на следующих слоях aggregators синтезируют и улучшают их. Ключевое наблюдение: модель нередко пишет лучший ответ, когда видит несколько альтернативных версий решения.
В 2026 году MoA лучше воспринимать не как универсальную замену сильной single-model, а как ensemble pattern для quality-over-latency маршрутов. Это не дефолт для чатов, а специальный режим для задач, где цена ответа выше цены дополнительных вызовов.
Авторы обнаружили, что LLM дают лучшие ответы, когда видят ответы других моделей — даже более слабых. Это свойство назвали «collaborativeness». Модели делятся на:
Не все модели одинаково хороши в обеих ролях. Например, WizardLM — отличный proposer, но слабый aggregator.
Сегодня MoA логично ставить рядом с best-of-N generation, evaluator-optimizer loops, ensemble reranking и cross-model review. То есть основная ценность подхода не в “агентности” как таковой, а в controlled diversity. Вы получаете несколько кандидатных траекторий и заставляете более сильный слой их собирать, фильтровать и улучшать.
MoA особенно оправдан там, где:
Типичные сценарии: long-form writing, technical synthesis, research summaries, evaluation datasets и offline batch generation.
Подход быстро теряет смысл, если ответы и так достаточно хороши в single-model режиме, proposers слабо отличаются и дают почти одинаковые варианты, а агрегатор не умеет реально критиковать, а просто красиво склеивает. Поэтому в production MoA обычно стоит включать точечно, по дорогим маршрутам, а не как универсальный слой на весь трафик.
Я хочу реализовать MoA для задачи «написание технических обзоров». Какой набор моделей-proposers и aggregator ты рекомендуешь, и почему?
Рекомендуемая конфигурация для технических обзоров:
Proposers (слой 1) — 3 модели с разными сильными сторонами:
Aggregator (финальный слой): Claude Sonnet — отлично синтезирует, структурирует, поддерживает единый стиль
Почему:
Альтернатива (бюджетная): все proposers на Llama 3.1 8B (разные temperature), aggregator — Llama 3.1 70B.
1. Что такое collaborativeness в контексте MoA?
2. Какой результат MoA показала на AlpacaEval 2.0?
3. Какая роль должна быть у самой сильной модели в MoA?