Ollama на VPS: запускаем языковые модели на собственном сервере - Полезная информация о хостинге от THE.Hosting

11.05.2026

18:36

Ollama — инструмент который превращает запуск больших языковых моделей из сложной DevOps-задачи в несколько команд в терминале. Скачиваете модель, запускаете — Llama, Mistral, Gemma, DeepSeek, Qwen, Phi работают локально на вашем железе без внешних API и без отправки данных куда-либо.

На личном компьютере Ollama запускают для экспериментов. На VPS — для задач которые требуют постоянной доступности: собственный API для приложений, приватный чат-ассистент для команды, RAG-пайплайн поверх корпоративных документов, автоматизация без зависимости от OpenAI или Anthropic.

Из этого руководства вы узнаете как установить Ollama на VPS THE.Hosting, выбрать тариф под нужную модель, открыть API для приложений и подключить веб-интерфейс.

Почему VPS, а не локальная машина

Локальный запуск требует чтобы компьютер был включён. Коллеги не могут достучаться до вашей локальной машины. Ноутбук с Ollama в спящем режиме — мёртвый API.

VPS работает 24/7, имеет публичный IP, не зависит от вашего электричества и интернета. Для командного использования или боевых приложений — единственный разумный вариант.

Дополнительный аргумент: конфиденциальность. Промпты, документы, ответы — всё обрабатывается на вашем сервере и никуда не уходит. Для юридических, медицинских или финансовых данных которые нельзя отправлять в облачные API — это принципиально.

Сколько ресурсов нужно: RAM определяет всё

Главное ограничение при запуске LLM — оперативная память. Модель должна полностью поместиться в RAM (или VRAM если есть GPU). Если не помещается — Ollama частично выгружает слои на диск, скорость генерации падает в 5–10 раз.

Ориентировочные требования по размеру модели:

Модель	Параметры	Минимум RAM	Комфортно
Llama 3.2, Phi-3 mini	1–3B	4 GB	8 GB
Llama 3.1, Mistral, Gemma 3	7–8B	8 GB	16 GB
Llama 3.1, Gemma 3	13B	16 GB	32 GB
Qwen 2.5, DeepSeek R1	32B	32 GB	64 GB
Llama 3.3, DeepSeek R1	70B	64 GB	128 GB

Цифры ориентировочные для квантизованных версий (Q4). Полноточные модели требуют в 2–3 раза больше.

По процессору: для параллельных запросов от нескольких пользователей нужно 4–8 vCPU. Одиночные тестовые запросы работают и на 2 vCPU.

GPU: Ollama работает без видеокарты — только на CPU. Но скорость генерации на CPU для 7B модели составляет 3–8 токенов в секунду, что медленно. С NVIDIA GPU (CUDA 5.0+) — 30–60 токенов/сек для тех же моделей. Если скорость критична — нужен Dedicated сервер с GPU.

Рекомендации по тарифу на THE.Hosting:

Эксперименты с 3B моделями — 2 vCPU / 4 GB RAM
7B модели для личного использования — 4 vCPU / 8 GB RAM
7–13B в командном режиме — 4–8 vCPU / 16–32 GB RAM
30–70B модели — Dedicated сервер от 64 GB RAM

Стартовый VPS от €5.77/мес. При KYC — тестовый тариф €1/мес до 6 месяцев.

Установка Ollama на VPS

Подключаетесь к серверу:

ssh root@ваш-IP-адрес

Обновляете систему:

apt update && apt upgrade -y

Устанавливаете Ollama одной командой — скрипт автоматически определяет архитектуру и наличие GPU:

curl -fsSL https://ollama.com/install.sh | sh

Проверяете что служба запустилась:

systemctl status ollama

Статус active (running) — всё в порядке. Ollama слушает на 127.0.0.1:11434.

Скачивание и запуск моделей

Скачиваете модель из официального каталога (ollama.com/library):

ollama pull llama3.2:3b

Запускаете интерактивный чат:

ollama run llama3.2:3b

Вводите любой вопрос — модель отвечает прямо в терминале. Для выхода из чата — /bye.

Популярные модели для старта:

Для общих задач и экспериментов — llama3.2:3b или llama3.2:1b (быстро, не требовательны к RAM). Для качественных ответов на русском — qwen2.5:7b (хорошо работает с кириллицей). Для написания кода — deepseek-coder-v2:16b или qwen2.5-coder:7b. Для рассуждений — deepseek-r1:8b.

Посмотреть скачанные модели:

ollama list

Удалить модель:

ollama rm llama3.2:3b

Открытие API для внешних подключений

По умолчанию Ollama принимает запросы только с localhost. Для доступа из приложений или от других серверов нужно открыть API.

Открываете конфигурацию службы:

systemctl edit ollama

Добавляете переменные окружения:

[Service]
Environment="OLLAMA_HOST=0.0.0.0"
Environment="OLLAMA_ORIGINS=*"

Перезапускаете службу:

systemctl daemon-reload
systemctl restart ollama

Теперь API доступен на порту 11434. Проверяете с другой машины:

curl http://ваш-IP:11434/api/generate \
  -d '{"model": "llama3.2:3b", "prompt": "Привет!", "stream": false}'

Важно: не оставляйте порт 11434 открытым в интернете без защиты — у Ollama нет встроенной аутентификации. Используйте Nginx с Basic Auth или ограничьте доступ по IP через файрвол:

ufw allow from ваш-IP to any port 11434
ufw deny 11434

Nginx как обратный прокси с Basic Auth

Для безопасного доступа по HTTPS с паролем — Nginx перед Ollama.

Устанавливаете Nginx и утилиту для паролей:

apt install nginx apache2-utils -y

Создаёте файл паролей:

htpasswd -c /etc/nginx/.htpasswd ваш_логин

Создаёте конфиг виртуального хоста:

nano /etc/nginx/sites-available/ollama

Содержимое:

server {
    listen 443 ssl;
    server_name ollama.ваш-домен.com;

    ssl_certificate /etc/letsencrypt/live/ollama.ваш-домен.com/fullchain.pem;
    ssl_certificate_key /etc/letsencrypt/live/ollama.ваш-домен.com/privkey.pem;

    auth_basic "Ollama API";
    auth_basic_user_file /etc/nginx/.htpasswd;

    location / {
        proxy_pass http://127.0.0.1:11434;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
    }
}

Активируете и получаете SSL:

ln -s /etc/nginx/sites-available/ollama /etc/nginx/sites-enabled/
apt install certbot python3-certbot-nginx -y
certbot --nginx -d ollama.ваш-домен.com
systemctl reload nginx

Веб-интерфейс: Open WebUI

Open WebUI — браузерный интерфейс для Ollama. Выглядит как ChatGPT, работает с вашими локальными моделями.

Устанавливаете Docker:

curl -fsSL https://get.docker.com | sh

Запускаете Open WebUI:

docker run -d \
  --network=host \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Open WebUI доступен на порту 3000. Оберните в Nginx с HTTPS аналогично примеру выше — и получите приватный ChatGPT-интерфейс на вашем домене.

Выбор геолокации сервера

Для личного или командного использования — выбирайте локацию ближе к пользователям. Это снижает задержку при обращении к API.

Для европейской команды — Германия (Франкфурт) или Нидерланды (Меппел). Для работы с GDPR-чувствительными данными — Германия оптимальна, данные остаются в ЕС.

Для команд в СНГ — Финляндия (Хельсинки) или Молдова (Кишинёв).

Для азиатских пользователей — Япония (Токио) или Гонконг.

Для американского рынка — США (Нью-Джерси).

Типичные проблемы

Модель загружается, но генерация очень медленная. RAM меньше размера модели — Ollama выгружает слои на диск. Проверьте ollama ps — там видно сколько слоёв в RAM и сколько на CPU. Решение: модель меньшего размера или больше RAM.

curl: Failed to connect при обращении к API извне. Ollama слушает только localhost. Добавьте OLLAMA_HOST=0.0.0.0 в конфигурацию службы и перезапустите.

Модель не скачивается. Проверьте место на диске (df -h). Модели занимают от 1–2 GB (1-3B) до 40+ GB (70B). Для больших моделей нужен расширенный диск.

Open WebUI не видит Ollama. При использовании --network=host Open WebUI обращается к Ollama по localhost:11434. Убедитесь что Ollama запущена и порт открыт: curl localhost:11434.

Готовы запустить свои языковые модели?

THE.Hosting — KVM, Ubuntu, 50+ геолокаций. Выбирайте тариф под нужный размер модели.

Стартовый VPS от €5.77/мес, при KYC — €1/мес до 6 месяцев. Для мощных моделей — Dedicated серверы с большим объёмом RAM.

Выбрать VPS для Ollama
Dedicated серверы

FAQ:

Ollama работает без GPU?

Да, только на CPU. Скорость генерации будет ниже: 3–8 токенов/сек для 7B модели против 30–60 токенов/сек с хорошим GPU. Для личного использования и экспериментов CPU вполне достаточно.

Какую модель выбрать для работы с русским языком?

Лучший результат на русском дают Qwen 2.5 (7B, 14B, 32B) и последние версии Llama 3.x. DeepSeek R1 тоже хорошо понимает кириллицу. Gemma 3 заметно хуже на нелатинских языках.

Как использовать Ollama как замену OpenAI API?

Ollama имеет совместимый с OpenAI API эндпоинт: http://localhost:11434/v1/. Укажите его как base_url в любом клиенте который поддерживает OpenAI API — библиотеки Python, LangChain, LlamaIndex, n8n — и замените ключ на любую строку.

Можно ли запускать несколько моделей одновременно?

Да. Ollama загружает несколько моделей в RAM одновременно если хватает памяти. Неиспользуемая модель выгружается автоматически через 5 минут простоя.

Безопасно ли открывать порт 11434 в интернет?

Нет — Ollama не имеет встроенной аутентификации. Используйте Nginx с Basic Auth, ограничьте доступ по IP через файрвол, или туннельте через WireGuard/SSH.

Полезные ссылки THE.Hosting:

Ресурсы Ollama:

-15% на White и Black Pearl

На заказ нового выделенного сервера в США и Нидерландах

Выбрать сервер

Другие статьи

11.05.2026

База знаний / Обзоры

iDevAffiliate: запуск партнёрской программы с разовой лицензией 2026

11.05.2026

База знаний / Инструкции

Post Affiliate Pro: платформа для запуска собственной партнёрской программы

11.05.2026

База знаний / Инструкции

FunnelFlux: трекер с визуальным конструктором воронок и нелинейным трекингом