Сервер для RAG-консультанта: on-premise или аренда, зарубежные и российские LLM

26.05.20263 мин чтения
Дмитрий Мещеряков
Технический директорДмитрий Мещеряков

Запустить RAG-консультанта «на демо-сервере» обычно несложно. Сложность начинается на этапе production: когда нужно держать SLA, разграничивать доступы, хранить логи, обновлять индексы без простоя и контролировать стоимость инференса.

Именно поэтому в проектах внедрения AI важен не только выбор модели, но и правильная инфраструктура. В большинстве случаев решение принимается между двумя сценариями:

  • on-premise (внутри контура компании);
  • аренда инфраструктуры (облако/VPS/DC в РФ или за рубежом).

Если нужен полный проект под ключ, включая архитектуру, деплой и интеграции, это закрывается на странице AI-консультанта с RAG.

Когда выбирать on-premise

On-premise чаще выбирают компании, где критичны:

  • защита персональных и коммерческих данных;
  • внутренние политики ИБ и аудит доступа;
  • требования отраслевого комплаенса;
  • минимизация внешних зависимостей.

Плюсы этого подхода:

  • полный контроль над данными и логами;
  • гибкая настройка сетевой и ролевой модели;
  • прогнозируемое поведение при высокой нагрузке.

Ограничения:

  • выше порог входа по инфраструктуре;
  • нужен процесс сопровождения (DevOps/MLOps);
  • масштабирование требует планирования ресурсов заранее.

Когда выгоднее аренда мощностей

Арендная инфраструктура подходит, когда важны скорость и гибкость:

  • быстрый запуск пилота;
  • масштабирование «по кнопке» при росте нагрузки;
  • меньше капитальных затрат на старте.

Плюсы:

  • короткий time-to-market;
  • удобный эксперимент с несколькими LLM;
  • проще запускать тестовые среды для команд.

Риски, которые нужно закрывать:

  • политика размещения данных;
  • юрисдикция и условия провайдера;
  • контроль периметра и ключей доступа;
  • устойчивость бюджета при резких пиках запросов.

Минимальные требования к инфраструктуре

Точная конфигурация зависит от числа пользователей, длины контекста и выбранной модели. Но для ориентирования удобно использовать базовые уровни:

  1. Пилот (до 30-50 активных пользователей): CPU + умеренный RAM, ограниченный пул документов.
  2. Отдел/направление: выделенный векторный индекс, стабильный inference-контур, мониторинг.
  3. Корпоративный контур: отдельные среды dev/stage/prod, отказоустойчивость, бэкапы и DR-план.

В production важно закладывать не только «железо», но и эксплуатационные процессы:

  • метрики latency/throughput/quality;
  • алерты и журналирование;
  • контроль версий индексов и промптов;
  • регламент инцидентов и rollback.

Выбор LLM: зарубежные, российские или гибрид

В большинстве enterprise-проектов рабочим оказывается гибридный подход:

  • зарубежные модели используют для сложной генерации и reasoning-задач;
  • российские модели — для локальных сценариев, регуляторных ограничений и оптимизации стоимости;
  • роутинг запросов выбирает модель по типу задачи.

Ключевая мысль: не нужно «ставить одну модель на всё». Гораздо стабильнее разделять сценарии по критериям:

  • критичность точности;
  • чувствительность данных;
  • допустимая задержка;
  • стоимость ответа.

Безопасность RAG-контура

Вопросы ИБ здесь системные, а не точечные. Минимальный набор:

  • RBAC/ABAC по ролям и источникам;
  • шифрование данных при хранении и передаче;
  • санитизация входных запросов;
  • защита от prompt injection и data exfiltration;
  • маскирование чувствительных сущностей в логах.

Для внутренних внедрений полезно сразу описывать threat model: какие данные нельзя выдавать и при каких условиях ответ должен блокироваться.

Архитектура, которая чаще всего работает

Практически устойчивый вариант для среднего бизнеса:

  1. Источники данных: CRM, база тикетов, Wiki, документы.
  2. ETL-слой с расписанием обновлений и дедупликацией.
  3. Векторный индекс + keyword-поиск (гибрид).
  4. LLM-router для выбора модели под сценарий.
  5. API-слой и UI-каналы (внутренний портал, чат, helpdesk).
  6. Набор метрик качества и эксплуатационный мониторинг.

Если нужен быстрый пилот, можно стартовать с урезанного контура, а затем наращивать надежность по мере подтверждения бизнес-эффекта.

Как оценить TCO до запуска

Перед стартом стоит посчитать не только стоимость разработки, но и Total Cost of Ownership:

  • инфраструктура (серверы/облако, хранилище, сеть);
  • inference (токены/запросы/нагрузка);
  • поддержка индексов и качества базы знаний;
  • DevOps/MLOps сопровождение;
  • лицензии и интеграционные коннекторы.

Хорошая оценка TCO снижает риск ситуации, когда пилот выглядит дешево, а в эксплуатации бюджет выходит из-под контроля.

Где это связано с CRM и внутренними процессами

На практике максимальный эффект от RAG проявляется в связке с процессами продаж и сервиса: быстрые ответы менеджерам, подсказки по регламентам, ускорение обработки заявок. Это логично стыкуется с разработкой и внедрением CRM и кейсами автоматизации вроде AI2Media — AI-платформа и рабочие сценарии внедрения.

FAQ

Можно ли начать без GPU?
Для ограниченного пилота — да, но при росте нагрузки и усложнении сценариев обычно требуется отдельный inference-контур.

Что выбрать первым: on-premise или облако?
Если критична безопасность и регуляторика — on-premise. Если приоритет скорость запуска и проверка гипотез — облако.

Нужно ли сразу подключать несколько LLM?
Не обязательно, но архитектуру лучше проектировать так, чтобы можно было добавить вторую модель без рефакторинга всей системы.

Источники

Оставьте свои контакты — мы перезвоним, разберёмся в задаче и предложим оптимальный путь. За плечами более 350 проектов, каждый из которых мы запускали с индивидуального подхода. Гарантируем экспертную консультацию в рабочее время.