VPS — стандартная инфраструктура для автономных ИИ-агентов. Агент, запущенный на локальной машине, останавливается когда закрывается ноутбук. На VPS он работает 24/7, получает стабильный IP, имеет доступ к сети и API без ограничений домашнего интернета. Именно поэтому все серьёзные агентные рабочие процессы рано или поздно переезжают на сервер.
Что такое ИИ-агент и зачем ему сервер
ИИ-агент — программа, которая самостоятельно выполняет цепочки действий для достижения цели. В отличие от чат-бота который просто отвечает на вопросы, агент планирует шаги, вызывает инструменты, проверяет результаты и корректирует курс. Он может зайти на сайт, собрать данные, обработать их через языковую модель, отправить письмо и записать результат в базу — всё без участия человека.
Типичные задачи которые решают агенты на VPS:
- Мониторинг цен конкурентов и автоматическое обновление прайсов
- Парсинг вакансий, новостей, тендерных площадок с уведомлениями
- Автоматизация переписки в мессенджерах и email
- Генерация и публикация контента по расписанию
- Обработка входящих обращений через CRM без участия менеджера
- Финансовый мониторинг: транзакции, курсы, аномалии
Всё это требует непрерывной работы — агент должен быть включён когда нужно сработать триггер, а не когда открыт ноутбук.
Два типа агентов — два типа требований к серверу
Прежде чем выбирать конфигурацию VPS, важно понять какой именно агент будет работать. Требования отличаются кардинально.
Агенты на основе API. Используют внешние языковые модели — OpenAI GPT-4o, Anthropic Claude, Google Gemini. Сам агент только оркестрирует: вызывает API, обрабатывает ответ, вызывает следующий инструмент. Всё тяжёлое вычисление происходит на серверах провайдера модели. Такие агенты практически не требуют ресурсов — 1-2 GB RAM и 1 vCPU достаточно для запуска даже сложных многоагентных цепочек.
Агенты с локальными моделями. Запускают языковую модель прямо на сервере через Ollama, LlamaCpp, vLLM или аналоги. Это требует принципиально других ресурсов: минимум 8 GB RAM для небольших моделей (7B параметров), 16-32 GB для моделей среднего размера (13B-30B), и GPU для приемлемой скорости генерации. Зато полная конфиденциальность — данные не покидают сервер, и нет затрат на API.
Технические требования по типам задач
Лёгкие агенты (API-модели, автоматизация, боты)
Фреймворки: LangChain, LlamaIndex, AutoGPT, CrewAI, n8n, Flowise.
Минимальная конфигурация:
- 1-2 vCPU
- 2-4 GB RAM
- 20-40 GB SSD
- Python 3.10+ или Node.js 18+
Эта конфигурация закрывает большинство агентных сценариев если вы используете внешние API. Стоимость на THE.Hosting — от €5.77/месяц.
Агенты средней сложности (RAG, векторные базы, многоагентные системы)
Если агент работает с большим объёмом документов через RAG (Retrieval-Augmented Generation), использует локальную векторную базу (Chroma, Qdrant, Weaviate), или запускает несколько параллельных агентов — требования растут.
Рекомендуемая конфигурация:
- 4 vCPU
- 8-16 GB RAM
- 80-160 GB NVMe
Локальные модели через Ollama
Ollama — самый простой способ запустить open-source языковую модель на VPS. Поддерживает Llama 3, Mistral, Gemma, Phi, Qwen и десятки других. Без GPU работает на CPU, но медленно.
Требования в зависимости от размера модели:
| Модель | Параметры | RAM | Генерация (CPU) |
|---|---|---|---|
| Phi-3 Mini | 3.8B | 4 GB | ~8-12 токен/сек |
| Llama 3.1 | 8B | 8 GB | ~4-6 токен/сек |
| Mistral | 7B | 8 GB | ~4-6 токен/сек |
| Llama 3.1 | 70B | 48 GB | ~0.5-1 токен/сек |
Для продакшн-использования локальных моделей GPU обязателен — без него скорость генерации неприемлема для большинства сценариев.
Настройка VPS под ИИ-агента
Установка Docker и базового окружения
Docker — стандартный способ запускать агентные стеки. Изолирует зависимости и упрощает управление сервисами.
apt update && apt install -y docker.io docker-compose
systemctl enable --now docker
Установка Ollama для локальных моделей
curl -fsSL https://ollama.com/install.sh | sh
Скачать модель и запустить:
ollama pull llama3.1
ollama run llama3.1
Ollama поднимает REST API на http://localhost:11434 — к нему подключаются агентные фреймворки.
Запуск n8n — визуальный агентный оркестратор
n8n позволяет строить агентные цепочки без кода, через визуальный интерфейс. Поддерживает AI-ноды с OpenAI, Anthropic, локальными моделями через Ollama.
docker run -d \
--name n8n \
-p 5678:5678 \
-v n8n_dаta:/home/node/.n8n \
docker.n8n.io/n8nio/n8n
После запуска веб-интерфейс доступен на http://ваш-IP:5678.
Запуск Flowise — визуальный конструктор LangChain агентов
Flowise предоставляет drag-and-drop интерфейс для построения LangChain цепочек. Проще n8n для чисто ИИ-задач.
docker run -d \
--name flowise \
-p 3000:3000 \
flowiseai/flowise
Python-агент через CrewAI
Установка в виртуальное окружение:
python3 -m venv agent-env
source agent-env/bin/activate
pip install crewai langchain-openai
Пример простейшего агента с двумя ролями:
from crewai import Agent, Task, Crew
researcher = Agent(
role='Исследователь',
goal='Найти актуальную информацию по теме',
backstory='Опытный аналитик данных',
verbose=True
)
writer = Agent(
role='Автор',
goal='Написать понятный отчёт на основе исследования',
backstory='Технический писатель с опытом',
verbose=True
)
task1 = Task(description='Исследовать тему VPS для ИИ', agent=researcher)
task2 = Task(description='Написать отчёт на основе исследования', agent=writer)
crew = Crew(agents=[researcher, writer], tasks=[task1, task2])
result = crew.kickoff()
Автозапуск агента через systemd
Чтобы агент запускался после перезагрузки сервера, создайте systemd-сервис:
nano /etc/systemd/system/ai-agent.service
[Unit]
Description=AI Agent Service
After=network.target
[Service]
Type=simple
User=ubuntu
WorkingDirectory=/home/ubuntu/agent
ExecStart=/home/ubuntu/agent-env/bin/python main.py
Restart=on-failure
RestartSec=10
[Install]
WantedBy=multi-user.target
systemctl enable ai-agent
systemctl start ai-agent
Популярные фреймворки для агентов на VPS
LangChain / LangGraph — самый популярный Python-фреймворк. Богатая экосистема инструментов, поддержка всех крупных LLM-провайдеров. LangGraph добавляет возможность строить агентов с состоянием и циклическими цепочками.
CrewAI — фреймворк для многоагентных систем. Удобен когда нужно распределить задачи между несколькими агентами с разными ролями. Активно развивается и имеет меньший порог входа чем LangGraph.
AutoGPT — один из первых автономных агентов с открытым кодом. Работает по принципу «поставь цель — агент планирует и выполняет». Требует внешнего API (OpenAI) и подходит для исследовательских задач.
n8n — визуальный оркестратор с поддержкой AI-нод. Лучший выбор если нужно интегрировать агента с большим количеством внешних сервисов через готовые коннекторы.
Flowise — визуальный конструктор на основе LangChain. Проще n8n для чисто ИИ-цепочек, сложнее для общей автоматизации.
Dify — полноценная платформа для разработки и деплоя ИИ-приложений. Включает конструктор агентов, RAG-пайплайны, API-gateway и аналитику.
Безопасность агента на сервере
ИИ-агент с доступом к API, базам данных и внешним сервисам — расширенная поверхность атаки. Несколько обязательных мер:
Никогда не храните API-ключи в коде. Используйте переменные окружения или секреты через .env файл с ограниченными правами:
chmod 600 .env
Запускайте агента от непривилегированного пользователя — не от root. Создайте отдельного пользователя:
adduser --disabled-password agent-user
Ограничьте сетевой доступ агента если он не должен обращаться к произвольным ресурсам. Настройте UFW с белым списком разрешённых хостов.
Ведите логи всех действий агента. В продакшн-среде это обязательно — нужно понимать что агент делал если что-то пошло не так.
Мониторинг и управление
Для мониторинга агентных процессов удобны несколько инструментов.
Langfuse — open-source платформа для трассировки LLM-запросов. Показывает каждый вызов модели, потраченные токены, задержки. Разворачивается на том же VPS через Docker.
LangSmith — облачный аналог от создателей LangChain. Проще в настройке, но данные уходят на серверы Langfuse.
Portainer — веб-интерфейс для управления Docker-контейнерами. Если агент работает в Docker, Portainer позволяет перезапускать, просматривать логи и управлять им через браузер без SSH.
Часто задаваемые вопросы
Какой минимальный VPS нужен для запуска ИИ-агента?
Для агентов на основе внешних API (OpenAI, Anthropic) достаточно 1 vCPU и 2 GB RAM. Агент только оркестрирует вызовы — всё вычисление происходит на серверах провайдера модели. Для локальных моделей через Ollama минимум — 8 GB RAM для модели 7-8B параметров.
Можно ли запустить GPT-4 на VPS?
Нет — GPT-4 доступен только через API OpenAI. На VPS можно запустить open-source модели: Llama 3.1, Mistral, Gemma, Qwen. Они уступают GPT-4 по качеству, но не требуют ежемесячных трат на API и полностью конфиденциальны.
Нужен ли GPU для ИИ-агентов?
Зависит от задачи. API-агентам GPU не нужен вообще. Для локальных моделей GPU кардинально ускоряет генерацию: модель 7B на CPU даёт 4-6 токен/сек, на GPU — 60-100 токен/сек. Для продакшн-сценариев с локальными моделями GPU необходим.
Как защитить API-ключи агента на сервере?
Храните ключи в переменных окружения, никогда не в коде. Используйте файл .env с правами 600 и загружайте через библиотеку python-dotenv. Не добавляйте .env в репозиторий — внесите в .gitignore.
Сколько агентов можно запустить на одном VPS?
API-агентов — столько сколько выдержит лимит запросов вашего LLM-провайдера. Ресурсы сервера при этом нагружены минимально. Для локальных моделей каждый активный инстанс занимает RAM под модель — несколько параллельных агентов с одной моделью делят её через Ollama-сервер без дублирования памяти.
VPS на THE.Hosting с NVMe-дисками и выбором из 50+ локаций — готовая основа для агентных рабочих процессов. Тарифы от €5.77/месяц для лёгких API-агентов, от €15/месяц для конфигураций с локальными моделями. Разворачивается за 60 секунд, поддержка 24/7 через тикет-систему.