Agentic AI меняет бюджет инфраструктуры: почему расходы уходят из GPU в CPU, память и сеть
Еще недавно разговор про AI-инфраструктуру почти всегда заканчивался на GPU. Логика была простой: чем мощнее модель, тем важнее ускорители, а остальное - вторично. Весной 2026 этот разговор заметно изменился. И Arm, и NVIDIA начали открыто говорить о другом узком месте: агентные системы тратят много денег не только на генерацию токенов, но и на CPU-окружение, память, storage и сетевой обмен между сервисами.
Это важный сдвиг. Бизнесу, который планирует AI-агента, уже недостаточно спросить у подрядчика "сколько нужно GPU". Правильный вопрос теперь другой: сколько стоит весь контур, который держит агентную систему живой на реальной нагрузке.
Что изменилось в инфраструктуре agentic AI
В обычном чат-сценарии модель получила запрос, сгенерировала ответ и на этом все. В агентном сценарии работа длиннее: агент вызывает инструменты, ходит во внешние API, проверяет промежуточные результаты, иногда запускает несколько веток действий сразу и хранит больше контекста между шагами.
Arm в анонсе Arm AGI CPU формулирует это очень прямо: в AI data center CPU теперь координирует тысячи распределенных задач, управляет памятью и storage, планирует workload и двигает данные между системами. С агентами fan-out становится еще сильнее. NVIDIA в анонсе Vera Rubin говорит о том же с другой стороны: для reinforcement learning и agentic AI нужны большие CPU-based environments, а для long-context и multi-turn inference - отдельный слой context memory storage.
Именно поэтому бюджет начинает "утекать" из одного GPU-кошелька в четыре разные статьи расходов.
Куда на практике уходят деньги
Первая статья - GPU inference и post-training. Она по-прежнему большая, но теперь это уже не вся картина.
Вторая статья - CPU orchestration. Кто-то должен запускать sandbox-окружения, обрабатывать tool calls, держать очереди, пересчитывать правила, валидировать ответы и синхронизировать ветки агента. NVIDIA прямо пишет, что Vera CPU ускоряет именно agentic sandbox performance.
Третья статья - память и context storage. Если агент ведет длинный диалог, помнит документы, предыдущие действия и состояние задач, резко растет потребность в быстром хранении контекста. Это уже не просто "RAM побольше". BlueField-4 и CMX storage продвигаются как отдельный инфраструктурный слой именно для long-context и multi-turn agentic inference.
Четвертая статья - сеть и сервисная прослойка. Чем больше инструментов и внешних систем у агента, тем сильнее расходы на сетевую связанность, ретраи, observability, policy checks и безопасность.
Почему считать надо не цену токена, а цену задачи
Самая частая ошибка в расчете бюджета звучит так: "у нас модель стоит N рублей за миллион токенов, значит экономика понятна". Нет. Для agentic AI это почти всегда слишком грубая оценка.
Бизнесу полезнее считать стоимость завершенной задачи. Например: сколько стоит обработка одного лида, одного support-case, одного внутреннего аудита, одного шага в procurement-процессе. В эту цену должны входить:
- токены и inference;
- CPU orchestration;
- context storage и быстрая память;
- внешние API и tool usage;
- мониторинг, логирование и human review;
- инциденты и повторные прогоны.
Только после этого можно говорить про CAC, ROI или payback.
Как собрать бюджет без самообмана
Нормальный пилот здесь считается в три слоя.
Сначала - базовая нагрузка. Сколько запросов в день, сколько шагов у агента на одну задачу, сколько внешних вызовов, сколько нужно хранить контекста.
Потом - пиковая нагрузка. Что происходит, если запросов стало в три раза больше, если агент открыл не два инструмента, а семь, если длинные сессии живут не 10 минут, а несколько часов.
И только потом - операционный слой: кто наблюдает за системой, кто разбирает ошибки, кто чинит деградацию качества, кто пересобирает policy. На длинной дистанции именно этот слой часто съедает бюджет, который в пилоте просто не был посчитан.
Что спросить у подрядчика или команды до старта
Если вам называют только GPU-цену, этого мало. Нужны еще пять ответов:
- Сколько CPU нужно на orchestration и sandboxing?
- Как считается стоимость хранения контекста и памяти между шагами?
- Какие внешние сервисы и API закладываются в unit economics?
- Кто платит за observability, retries и policy enforcement?
- Какая стоимость не одного диалога, а одной завершенной бизнес-задачи?
Если на эти вопросы нет цифр, бюджета у проекта пока тоже нет.
Что важно запомнить
Agentic AI не делает GPU менее важными. Он делает бюджет намного шире. В рабочем контуре деньги начинают уходить в CPU, память, storage и orchestration так же заметно, как раньше уходили только в inference. И чем раньше бизнес это признает, тем меньше шанс, что красивый пилот потом превратится в очень дорогую инфраструктурную привычку.
