Ollama — инструмент который превращает запуск больших языковых моделей из сложной DevOps-задачи в несколько команд в терминале. Скачиваете модель, запускаете — Llama, Mistral, Gemma, DeepSeek, Qwen, Phi работают локально на вашем железе без внешних API и без отправки данных куда-либо.
На личном компьютере Ollama запускают для экспериментов. На VPS — для задач которые требуют постоянной доступности: собственный API для приложений, приватный чат-ассистент для команды, RAG-пайплайн поверх корпоративных документов, автоматизация без зависимости от OpenAI или Anthropic.
Из этого руководства вы узнаете как установить Ollama на VPS THE.Hosting, выбрать тариф под нужную модель, открыть API для приложений и подключить веб-интерфейс.
Почему VPS, а не локальная машина
Локальный запуск требует чтобы компьютер был включён. Коллеги не могут достучаться до вашей локальной машины. Ноутбук с Ollama в спящем режиме — мёртвый API.
VPS работает 24/7, имеет публичный IP, не зависит от вашего электричества и интернета. Для командного использования или боевых приложений — единственный разумный вариант.
Дополнительный аргумент: конфиденциальность. Промпты, документы, ответы — всё обрабатывается на вашем сервере и никуда не уходит. Для юридических, медицинских или финансовых данных которые нельзя отправлять в облачные API — это принципиально.
Сколько ресурсов нужно: RAM определяет всё
Главное ограничение при запуске LLM — оперативная память. Модель должна полностью поместиться в RAM (или VRAM если есть GPU). Если не помещается — Ollama частично выгружает слои на диск, скорость генерации падает в 5–10 раз.
Ориентировочные требования по размеру модели:
| Модель | Параметры | Минимум RAM | Комфортно |
|---|---|---|---|
| Llama 3.2, Phi-3 mini | 1–3B | 4 GB | 8 GB |
| Llama 3.1, Mistral, Gemma 3 | 7–8B | 8 GB | 16 GB |
| Llama 3.1, Gemma 3 | 13B | 16 GB | 32 GB |
| Qwen 2.5, DeepSeek R1 | 32B | 32 GB | 64 GB |
| Llama 3.3, DeepSeek R1 | 70B | 64 GB | 128 GB |
Цифры ориентировочные для квантизованных версий (Q4). Полноточные модели требуют в 2–3 раза больше.
По процессору: для параллельных запросов от нескольких пользователей нужно 4–8 vCPU. Одиночные тестовые запросы работают и на 2 vCPU.
GPU: Ollama работает без видеокарты — только на CPU. Но скорость генерации на CPU для 7B модели составляет 3–8 токенов в секунду, что медленно. С NVIDIA GPU (CUDA 5.0+) — 30–60 токенов/сек для тех же моделей. Если скорость критична — нужен Dedicated сервер с GPU.
Рекомендации по тарифу на THE.Hosting:
- Эксперименты с 3B моделями — 2 vCPU / 4 GB RAM
- 7B модели для личного использования — 4 vCPU / 8 GB RAM
- 7–13B в командном режиме — 4–8 vCPU / 16–32 GB RAM
- 30–70B модели — Dedicated сервер от 64 GB RAM
Стартовый VPS от €5.77/мес. При KYC — тестовый тариф €1/мес до 6 месяцев.
Установка Ollama на VPS
Подключаетесь к серверу:
ssh root@ваш-IP-адрес
Обновляете систему:
apt update && apt upgrade -y
Устанавливаете Ollama одной командой — скрипт автоматически определяет архитектуру и наличие GPU:
curl -fsSL https://ollama.com/install.sh | sh
Проверяете что служба запустилась:
systemctl status ollama
Статус active (running) — всё в порядке. Ollama слушает на 127.0.0.1:11434.
Скачивание и запуск моделей
Скачиваете модель из официального каталога (ollama.com/library):
ollama pull llama3.2:3b
Запускаете интерактивный чат:
ollama run llama3.2:3b
Вводите любой вопрос — модель отвечает прямо в терминале. Для выхода из чата — /bye.
Популярные модели для старта:
Для общих задач и экспериментов — llama3.2:3b или llama3.2:1b (быстро, не требовательны к RAM). Для качественных ответов на русском — qwen2.5:7b (хорошо работает с кириллицей). Для написания кода — deepseek-coder-v2:16b или qwen2.5-coder:7b. Для рассуждений — deepseek-r1:8b.
Посмотреть скачанные модели:
ollama list
Удалить модель:
ollama rm llama3.2:3b
Открытие API для внешних подключений
По умолчанию Ollama принимает запросы только с localhost. Для доступа из приложений или от других серверов нужно открыть API.
Открываете конфигурацию службы:
systemctl edit ollama
Добавляете переменные окружения:
[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"
Перезапускаете службу:
systemctl daemon-reload
systemctl restart ollama
Теперь API доступен на порту 11434. Проверяете с другой машины:
curl http://ваш-IP:11434/api/generate \
-d '{"model": "llama3.2:3b", "prompt": "Привет!", "stream": false}'
Важно: не оставляйте порт 11434 открытым в интернете без защиты — у Ollama нет встроенной аутентификации. Используйте Nginx с Basic Auth или ограничьте доступ по IP через файрвол:
ufw allow from ваш-IP to any port 11434
ufw deny 11434
Nginx как обратный прокси с Basic Auth
Для безопасного доступа по HTTPS с паролем — Nginx перед Ollama.
Устанавливаете Nginx и утилиту для паролей:
apt install nginx apache2-utils -y
Создаёте файл паролей:
htpasswd -c /etc/nginx/.htpasswd ваш_логин
Создаёте конфиг виртуального хоста:
nano /etc/nginx/sites-available/ollama
Содержимое:
server {
listen 443 ssl;
server_name ollama.ваш-домен.com;
ssl_certificate /etc/letsencrypt/live/ollama.ваш-домен.com/fullchain.pem;
ssl_certificate_key /etc/letsencrypt/live/ollama.ваш-домен.com/privkey.pem;
auth_basic "Ollama API";
auth_basic_user_file /etc/nginx/.htpasswd;
location / {
proxy_pass http://127.0.0.1:11434;
proxy_set_header Host $host;
proxy_set_header X-Real-IP $remote_addr;
}
}
Активируете и получаете SSL:
ln -s /etc/nginx/sites-available/ollama /etc/nginx/sites-enabled/
apt install certbot python3-certbot-nginx -y
certbot --nginx -d ollama.ваш-домен.com
systemctl reload nginx
Веб-интерфейс: Open WebUI
Open WebUI — браузерный интерфейс для Ollama. Выглядит как ChatGPT, работает с вашими локальными моделями.
Устанавливаете Docker:
curl -fsSL https://get.docker.com | sh
Запускаете Open WebUI:
docker run -d \
--network=host \
-v open-webui:/app/backend/data \
--name open-webui \
--restart always \
ghcr.io/open-webui/open-webui:main
Open WebUI доступен на порту 3000. Оберните в Nginx с HTTPS аналогично примеру выше — и получите приватный ChatGPT-интерфейс на вашем домене.
Выбор геолокации сервера
Для личного или командного использования — выбирайте локацию ближе к пользователям. Это снижает задержку при обращении к API.
Для европейской команды — Германия (Франкфурт) или Нидерланды (Меппел). Для работы с GDPR-чувствительными данными — Германия оптимальна, данные остаются в ЕС.
Для команд в СНГ — Финляндия (Хельсинки) или Молдова (Кишинёв).
Для азиатских пользователей — Япония (Токио) или Гонконг.
Для американского рынка — США (Нью-Джерси).
Типичные проблемы
Модель загружается, но генерация очень медленная. RAM меньше размера модели — Ollama выгружает слои на диск. Проверьте ollama ps — там видно сколько слоёв в RAM и сколько на CPU. Решение: модель меньшего размера или больше RAM.
curl: Failed to connect при обращении к API извне. Ollama слушает только localhost. Добавьте OLLAMA_HOST=0.0.0.0 в конфигурацию службы и перезапустите.
Модель не скачивается. Проверьте место на диске (df -h). Модели занимают от 1–2 GB (1-3B) до 40+ GB (70B). Для больших моделей нужен расширенный диск.
Open WebUI не видит Ollama. При использовании --network=host Open WebUI обращается к Ollama по localhost:11434. Убедитесь что Ollama запущена и порт открыт: curl localhost:11434.
Готовы запустить свои языковые модели?
THE.Hosting — KVM, Ubuntu, 50+ геолокаций. Выбирайте тариф под нужный размер модели.
Стартовый VPS от €5.77/мес, при KYC — €1/мес до 6 месяцев. Для мощных моделей — Dedicated серверы с большим объёмом RAM.
Выбрать VPS для Ollama
Dedicated серверы
FAQ:
Ollama работает без GPU?
Да, только на CPU. Скорость генерации будет ниже: 3–8 токенов/сек для 7B модели против 30–60 токенов/сек с хорошим GPU. Для личного использования и экспериментов CPU вполне достаточно.
Какую модель выбрать для работы с русским языком?
Лучший результат на русском дают Qwen 2.5 (7B, 14B, 32B) и последние версии Llama 3.x. DeepSeek R1 тоже хорошо понимает кириллицу. Gemma 3 заметно хуже на нелатинских языках.
Как использовать Ollama как замену OpenAI API?
Ollama имеет совместимый с OpenAI API эндпоинт: http://localhost:11434/v1/. Укажите его как base_url в любом клиенте который поддерживает OpenAI API — библиотеки Python, LangChain, LlamaIndex, n8n — и замените ключ на любую строку.
Можно ли запускать несколько моделей одновременно?
Да. Ollama загружает несколько моделей в RAM одновременно если хватает памяти. Неиспользуемая модель выгружается автоматически через 5 минут простоя.
Безопасно ли открывать порт 11434 в интернет?
Нет — Ollama не имеет встроенной аутентификации. Используйте Nginx с Basic Auth, ограничьте доступ по IP через файрвол, или туннельте через WireGuard/SSH.
Полезные ссылки THE.Hosting:
- VPS в 50+ локациях — от €5.77/мес
- Dedicated серверы
- VPS в Германии
- VPS в Нидерландах
- VPS в США
- VPS в Японии
- База знаний
Ресурсы Ollama: