Agentic AI меняет бюджет инфраструктуры: почему расходы уходят из GPU в CPU, память и сеть

07.04.20264 мин чтения
Вадим Юрьевич
Директор компанииВадим Юрьевич

Еще недавно разговор про AI-инфраструктуру почти всегда заканчивался на GPU. Логика была простой: чем мощнее модель, тем важнее ускорители, а остальное - вторично. Весной 2026 этот разговор заметно изменился. И Arm, и NVIDIA начали открыто говорить о другом узком месте: агентные системы тратят много денег не только на генерацию токенов, но и на CPU-окружение, память, storage и сетевой обмен между сервисами.

Это важный сдвиг. Бизнесу, который планирует AI-агента, уже недостаточно спросить у подрядчика "сколько нужно GPU". Правильный вопрос теперь другой: сколько стоит весь контур, который держит агентную систему живой на реальной нагрузке.

Что изменилось в инфраструктуре agentic AI

В обычном чат-сценарии модель получила запрос, сгенерировала ответ и на этом все. В агентном сценарии работа длиннее: агент вызывает инструменты, ходит во внешние API, проверяет промежуточные результаты, иногда запускает несколько веток действий сразу и хранит больше контекста между шагами.

Arm в анонсе Arm AGI CPU формулирует это очень прямо: в AI data center CPU теперь координирует тысячи распределенных задач, управляет памятью и storage, планирует workload и двигает данные между системами. С агентами fan-out становится еще сильнее. NVIDIA в анонсе Vera Rubin говорит о том же с другой стороны: для reinforcement learning и agentic AI нужны большие CPU-based environments, а для long-context и multi-turn inference - отдельный слой context memory storage.

Именно поэтому бюджет начинает "утекать" из одного GPU-кошелька в четыре разные статьи расходов.

Куда на практике уходят деньги

Первая статья - GPU inference и post-training. Она по-прежнему большая, но теперь это уже не вся картина.

Вторая статья - CPU orchestration. Кто-то должен запускать sandbox-окружения, обрабатывать tool calls, держать очереди, пересчитывать правила, валидировать ответы и синхронизировать ветки агента. NVIDIA прямо пишет, что Vera CPU ускоряет именно agentic sandbox performance.

Третья статья - память и context storage. Если агент ведет длинный диалог, помнит документы, предыдущие действия и состояние задач, резко растет потребность в быстром хранении контекста. Это уже не просто "RAM побольше". BlueField-4 и CMX storage продвигаются как отдельный инфраструктурный слой именно для long-context и multi-turn agentic inference.

Четвертая статья - сеть и сервисная прослойка. Чем больше инструментов и внешних систем у агента, тем сильнее расходы на сетевую связанность, ретраи, observability, policy checks и безопасность.

Почему считать надо не цену токена, а цену задачи

Самая частая ошибка в расчете бюджета звучит так: "у нас модель стоит N рублей за миллион токенов, значит экономика понятна". Нет. Для agentic AI это почти всегда слишком грубая оценка.

Бизнесу полезнее считать стоимость завершенной задачи. Например: сколько стоит обработка одного лида, одного support-case, одного внутреннего аудита, одного шага в procurement-процессе. В эту цену должны входить:

  • токены и inference;
  • CPU orchestration;
  • context storage и быстрая память;
  • внешние API и tool usage;
  • мониторинг, логирование и human review;
  • инциденты и повторные прогоны.

Только после этого можно говорить про CAC, ROI или payback.

Как собрать бюджет без самообмана

Нормальный пилот здесь считается в три слоя.

Сначала - базовая нагрузка. Сколько запросов в день, сколько шагов у агента на одну задачу, сколько внешних вызовов, сколько нужно хранить контекста.

Потом - пиковая нагрузка. Что происходит, если запросов стало в три раза больше, если агент открыл не два инструмента, а семь, если длинные сессии живут не 10 минут, а несколько часов.

И только потом - операционный слой: кто наблюдает за системой, кто разбирает ошибки, кто чинит деградацию качества, кто пересобирает policy. На длинной дистанции именно этот слой часто съедает бюджет, который в пилоте просто не был посчитан.

Что спросить у подрядчика или команды до старта

Если вам называют только GPU-цену, этого мало. Нужны еще пять ответов:

  1. Сколько CPU нужно на orchestration и sandboxing?
  2. Как считается стоимость хранения контекста и памяти между шагами?
  3. Какие внешние сервисы и API закладываются в unit economics?
  4. Кто платит за observability, retries и policy enforcement?
  5. Какая стоимость не одного диалога, а одной завершенной бизнес-задачи?

Если на эти вопросы нет цифр, бюджета у проекта пока тоже нет.

Что важно запомнить

Agentic AI не делает GPU менее важными. Он делает бюджет намного шире. В рабочем контуре деньги начинают уходить в CPU, память, storage и orchestration так же заметно, как раньше уходили только в inference. И чем раньше бизнес это признает, тем меньше шанс, что красивый пилот потом превратится в очень дорогую инфраструктурную привычку.

Источники для проверки

Вам также может быть интересно

Оставьте свои контакты — мы перезвоним, разберёмся в задаче и предложим оптимальный путь. За плечами более 350 проектов, каждый из которых мы запускали с индивидуального подхода. Гарантируем экспертную консультацию в рабочее время.