Agentic AI меняет бюджет инфраструктуры: почему расходы уходят из GPU в CPU, память и сеть

07.04.20264 мин чтения

Еще недавно разговор про AI-инфраструктуру почти всегда заканчивался на GPU. Логика была простой: чем мощнее модель, тем важнее ускорители, а остальное - вторично. Весной 2026 этот разговор заметно изменился. И Arm, и NVIDIA начали открыто говорить о другом узком месте: агентные системы тратят много денег не только на генерацию токенов, но и на CPU-окружение, память, storage и сетевой обмен между сервисами.

Это важный сдвиг. Бизнесу, который планирует AI-агента, уже недостаточно спросить у подрядчика "сколько нужно GPU". Правильный вопрос теперь другой: сколько стоит весь контур, который держит агентную систему живой на реальной нагрузке.

Что изменилось в инфраструктуре agentic AI

В обычном чат-сценарии модель получила запрос, сгенерировала ответ и на этом все. В агентном сценарии работа длиннее: агент вызывает инструменты, ходит во внешние API, проверяет промежуточные результаты, иногда запускает несколько веток действий сразу и хранит больше контекста между шагами.

Arm в анонсе Arm AGI CPU формулирует это очень прямо: в AI data center CPU теперь координирует тысячи распределенных задач, управляет памятью и storage, планирует workload и двигает данные между системами. С агентами fan-out становится еще сильнее. NVIDIA в анонсе Vera Rubin говорит о том же с другой стороны: для reinforcement learning и agentic AI нужны большие CPU-based environments, а для long-context и multi-turn inference - отдельный слой context memory storage.

Именно поэтому бюджет начинает "утекать" из одного GPU-кошелька в четыре разные статьи расходов.

Куда на практике уходят деньги

Первая статья - GPU inference и post-training. Она по-прежнему большая, но теперь это уже не вся картина.

Вторая статья - CPU orchestration. Кто-то должен запускать sandbox-окружения, обрабатывать tool calls, держать очереди, пересчитывать правила, валидировать ответы и синхронизировать ветки агента. NVIDIA прямо пишет, что Vera CPU ускоряет именно agentic sandbox performance.

Третья статья - память и context storage. Если агент ведет длинный диалог, помнит документы, предыдущие действия и состояние задач, резко растет потребность в быстром хранении контекста. Это уже не просто "RAM побольше". BlueField-4 и CMX storage продвигаются как отдельный инфраструктурный слой именно для long-context и multi-turn agentic inference.

Четвертая статья - сеть и сервисная прослойка. Чем больше инструментов и внешних систем у агента, тем сильнее расходы на сетевую связанность, ретраи, observability, policy checks и безопасность.

Почему считать надо не цену токена, а цену задачи

Самая частая ошибка в расчете бюджета звучит так: "у нас модель стоит N рублей за миллион токенов, значит экономика понятна". Нет. Для agentic AI это почти всегда слишком грубая оценка.

Бизнесу полезнее считать стоимость завершенной задачи. Например: сколько стоит обработка одного лида, одного support-case, одного внутреннего аудита, одного шага в procurement-процессе. В эту цену должны входить:

токены и inference;
CPU orchestration;
context storage и быстрая память;
внешние API и tool usage;
мониторинг, логирование и human review;
инциденты и повторные прогоны.

Только после этого можно говорить про CAC, ROI или payback.

Как собрать бюджет без самообмана

Нормальный пилот здесь считается в три слоя.

Сначала - базовая нагрузка. Сколько запросов в день, сколько шагов у агента на одну задачу, сколько внешних вызовов, сколько нужно хранить контекста.

Потом - пиковая нагрузка. Что происходит, если запросов стало в три раза больше, если агент открыл не два инструмента, а семь, если длинные сессии живут не 10 минут, а несколько часов.

И только потом - операционный слой: кто наблюдает за системой, кто разбирает ошибки, кто чинит деградацию качества, кто пересобирает policy. На длинной дистанции именно этот слой часто съедает бюджет, который в пилоте просто не был посчитан.

Что спросить у подрядчика или команды до старта

Если вам называют только GPU-цену, этого мало. Нужны еще пять ответов:

Сколько CPU нужно на orchestration и sandboxing?
Как считается стоимость хранения контекста и памяти между шагами?
Какие внешние сервисы и API закладываются в unit economics?
Кто платит за observability, retries и policy enforcement?
Какая стоимость не одного диалога, а одной завершенной бизнес-задачи?

Если на эти вопросы нет цифр, бюджета у проекта пока тоже нет.

Что важно запомнить

Agentic AI не делает GPU менее важными. Он делает бюджет намного шире. В рабочем контуре деньги начинают уходить в CPU, память, storage и orchestration так же заметно, как раньше уходили только в inference. И чем раньше бизнес это признает, тем меньше шанс, что красивый пилот потом превратится в очень дорогую инфраструктурную привычку.

Agentic AI меняет бюджет инфраструктуры: почему расходы уходят из GPU в CPU, память и сеть

Что изменилось в инфраструктуре agentic AI

Куда на практике уходят деньги

Почему считать надо не цену токена, а цену задачи

Как собрать бюджет без самообмана

Что спросить у подрядчика или команды до старта

Что важно запомнить

Источники для проверки

Вам также может быть интересно

Что случилось у McDonald’s с AI-ботами и как бизнесу не повторить эти ошибки

Почему CAPTCHA уже не спасает: современная защита сайта от ботов

GitHub Copilot Autofix: что реально изменилось в AppSec и почему это не автопочинка всего подряд

Контактная информация и реквизиты

Санкт-Петербург

Tampa, FL, US

nbm-it@mail.ru

Услуги

Разработка

Услуги

Маркетинг

О нас

Обучающий центр

Инструменты

Технологии