Александр Руин

Консультант по проектированию AI‑систем

Александр Руин — консультант по проектированию систем. Помогаю спроектировать архитектуру, оценить риски и выстроить прозрачный процесс — от выбора технологий до сопровождения. Рутину берут на себя AI‑исполнители. Направления: автоматизация, интеграции, AI‑продукты.

Ollama: что это такое — и что мы обнаружили при реальном тестировании на разном железе

Я установил Ollama на три машины подряд: офисный ноутбук с 16 ГБ RAM без дискретной карты, игровой ПК с RTX 3060 12 ГБ и мини-ПК Ryzen AI 9 HX с 32 ГБ RAM. Цель была простая — понять, что реально работает для ежедневной работы, а что красиво выглядит в бенчмарках, но раздражает в жизни. Вот что получилось.

TL;DR: - Ollama — движок для локального запуска LLM: скачиваете модель один раз, используете без ограничений и без интернета - На CPU без видеокарты 7B-модель даёт 3–6 токенов/сек — медленно, но рабочее для вдумчивого чтения ответов - RTX 3060 12 ГБ поднимает Qwen 2.5 7B до 45–55 токенов/сек — это быстрее, чем печатает большинство людей - Главная неочевидная ошибка — не RAM, а swap: без правильного swap система зависает вместо медленной работы - AI Home Server поставляется с предустановленной Ollama на Ryzen AI — запуск за 2 минуты без терминала

Что такое Ollama и чем отличается от ChatGPT?

Ollama — это не нейросеть, а инфраструктура для её запуска. Она делает три вещи: скачивает модель в оптимизированном формате GGUF, запускает её в памяти вашего компьютера, и открывает REST API на localhost:11434 — совместимый с OpenAI API.

Для пользователя это значит: один раз скачал 4–8 ГБ, и дальше ChatGPT-уровень без интернета, без подписки, без того, чтобы ваши корпоративные запросы уходили на сторонние серверы.

Критерий ChatGPT API Ollama на своём ПК AI Home Server
Приватность данных Данные на серверах OpenAI Данные только на вашем ПК Данные только на устройстве
Стоимость $20+/мес Бесплатно (электричество) 30 000 ₽ разово
Скорость ответа 30–80 токенов/сек (зависит от нагрузки) 3–55 токенов/сек (зависит от железа) 25–45 токенов/сек (Ryzen AI)
Работа без интернета Нет Да Да
Настройка Не нужна 15–30 мин 2 минуты

Что мы обнаружили при тестировании на трёх конфигурациях

Конфигурация 1: ноутбук без GPU (Intel i7-12700H, 16 ГБ RAM)

Запустили Qwen 2.5 7B в формате Q4_K_M (размер 4.7 ГБ). Результат: 3.8 токенов/сек на CPU.

Это медленнее, чем хотелось бы для живого разговора, но вполне реально для задач типа «проанализируй документ и дай структурированный ответ», где не нужно ждать в реальном времени. Модель загружается за 25 секунд и держится в памяти между запросами.

Неожиданная проблема: при попытке запустить модель 14B система зависла намертво — не выдала ошибку, просто перестала отвечать. Причина: нехватка RAM плюс неправильный swap. Решение:

sudo swapoff -a
sudo fallocate -l 16G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

После этого 14B модель загрузилась за 3 минуты и работает на CPU — медленно (1.2 токенов/сек), но стабильно.

Конфигурация 2: игровой ПК (Ryzen 5 5600X, RTX 3060 12 ГБ, 32 ГБ RAM)

Та же Qwen 2.5 7B Q4_K_M: 47 токенов/сек. Это уже быстрее человеческого чтения — ответы появляются мгновенно, диалог комфортный.

DeepSeek-R1 7B: 39 токенов/сек. Phi-4 14B Q4: 22 токенов/сек — тоже приятно.

Неочевидный нюанс с VRAM: модель 14B в Q4 занимает 8.5 ГБ VRAM. При 12 ГБ VRAM карты у вас остаётся 3.5 ГБ — недостаточно для второй сессии браузера с WebGL. Chrome при этом начинает скидывать GPU-буферы и тормозит. Решение — либо закрывать вкладки перед большими задачами, либо использовать 8B-модели (5.5 ГБ VRAM — влезает рядом с браузером).

Конфигурация 3: мини-ПК Ryzen AI 9 HX 375 (NPU + iGPU, 32 ГБ RAM)

Это наша тестовая платформа для AI Home Server. iGPU Radeon 890M с 16 ГБ shared memory:

  • Qwen 2.5 7B Q4: 28 токенов/сек — комфортный диалог
  • DeepSeek-R1 8B Q4: 31 токенов/сек
  • Phi-4 14B Q4: 18 токенов/сек — медленнее, но модель умнее

Потребление: ~25 Вт в простое, ~45 Вт при активном инференсе. За сутки непрерывной работы — около 1 кВт·ч (≈5–6 рублей).

Как установить Ollama за 3 шага — и что реально идёт не так

Шаг 1. Установка

Linux:

curl -fsSL https://ollama.ai/install.sh | sh

Установка занимает 2 минуты. Ollama запускается как systemd-сервис автоматически.

Windows: скачайте установщик с ollama.com. Ollama появится в системном трее и стартует при запуске Windows.

macOS: .dmg-установщик, Ollama использует Metal GPU на Apple Silicon — нативно и быстро.

Частая ошибка на Linux: после установки ollama serve может выдать Error: listen tcp 127.0.0.1:11434: bind: address already in use — сервис уже запущен автоматически через systemd. Проверьте: systemctl status ollama. Просто используйте ollama run без ручного запуска сервера.

Шаг 2. Запустите первую модель

ollama run llama3.2        # универсальный чат, начать с этого
ollama run deepseek-r1     # код, математика, аналитика с chain-of-thought
ollama run qwen2.5         # лучший русский язык среди open-source
ollama run phi4            # экономит VRAM, хорошо работает на слабом железе

Первый запуск скачивает модель (3–7 ГБ). Чтобы не ждать скачивания перед первым использованием, скачайте заранее:

ollama pull qwen2.5:7b

Что часто удивляет новичков: после ollama run открывается терминальный чат. Чтобы выйти — /bye, а не Ctrl+C (это убивает сервер, а не чат).

Шаг 3. Добавьте веб-интерфейс

Open WebUI — браузерный интерфейс с историей диалогов, RAG по документам и переключением моделей на лету. Запускается через Docker:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main

После этого открывайте http://localhost:3000.

Не хотите разбираться с Docker? AI Home Server поставляется с предустановленными Ollama и Open WebUI — подключили к розетке, и всё работает через 2 минуты.

Реальные замеры: токены в секунду на разном железе

Железо Модель Формат Токены/сек
Intel i7-12700H (CPU only, 16 ГБ) Qwen 2.5 7B Q4_K_M 3.8
Intel i7-12700H (CPU only, 16 ГБ) Phi-4 14B Q4_K_M 1.2
RTX 3060 12 ГБ Qwen 2.5 7B Q4_K_M 47
RTX 3060 12 ГБ DeepSeek-R1 7B Q4_K_M 39
RTX 3060 12 ГБ Phi-4 14B Q4_K_M 22
Ryzen AI 9 HX (iGPU 16 ГБ shared) Qwen 2.5 7B Q4_K_M 28
Ryzen AI 9 HX (iGPU 16 ГБ shared) DeepSeek-R1 8B Q4_K_M 31

Для комфортного живого диалога нужно минимум 15–20 токенов/сек. Ниже — ответы читаешь быстрее, чем они генерируются, что утомляет. CPU-режим подходит для фоновых задач: «напиши отчёт, пока я занимаюсь другим».

Неочевидные нюансы, которые не пишут в других гайдах

1. Модели остаются в памяти между запросами. По умолчанию Ollama держит загруженную модель 5 минут после последнего запроса. Это хорошо для скорости (повторный запрос мгновенный), но плохо если нужна вся RAM для другого. Изменить: OLLAMA_KEEP_ALIVE=0 — выгружает сразу после ответа.

2. Разница между Q4_K_M и Q8_0 почти не заметна на тексте. На нашем тесте генерации русскоязычных резюме и аналитических отчётов: Q4_K_M и Q8_0 дали идентичные ответы в 8 случаях из 10. Q8_0 нужен только для задач с точными числами (математика, код) — там разница есть.

3. Ollama API совместим с OpenAI. Можно подключить любое приложение, которое работает с ChatGPT, и направить его на http://localhost:11434/v1 — оно не заметит разницы. Это работает с LangChain, LlamaIndex, n8n и сотнями других инструментов.

4. На Windows без WSL2 скорость ниже на 15–20%. Если нужна максимальная скорость на Windows — включите WSL2 и запускайте Ollama внутри Ubuntu-дистрибутива.

Для каких задач Ollama реально полезна в бизнесе

  • Анализ документов: загрузите через Open WebUI PDF-контракт и попросите выявить риски — данные не покидают компанию
  • Код-ревью: Qwen 2.5 Coder 7B понимает Python, JavaScript, Go и даёт конкретные советы
  • Черновики писем и отчётов: быстрее ChatGPT для шаблонных задач, когда нет задержки сети
  • Внутренний помощник: через Open WebUI с RAG — обучите модель на ваших внутренних документах

Смотрите также

Часто задаваемые вопросы

Ollama бесплатная? Да, полностью open-source под лицензией MIT. Ollama не собирает телеметрию по умолчанию начиная с версии 0.3.0.

Какой ПК нужен для Ollama? 8 ГБ RAM для 3B-моделей, 16 ГБ для 7B. Для комфортной работы нужна видеокарта с 6+ ГБ VRAM — скорость 10–50 токенов/сек против 2–5 на CPU.

Какую модель выбрать для русского языка? Qwen 2.5 — лучший русский среди open-source в 2026 году. На 16 ГБ RAM берите 14B Q4_K_M, на 8 ГБ — 7B Q4_K_M.

Работает ли Ollama на Windows без видеокарты? Да. На CPU Intel i5-12400 (без GPU) Phi-4-mini 3.8B даёт ~6 токенов/сек — медленно, но работает для несрочных задач.

Почему первый запрос медленный? Первый запрос после загрузки модели инициализирует KV-кэш. Это нормально — последующие запросы в той же сессии быстрее.


Нужен домашний AI-сервер без настройки? AI Home Server — мини-ПК на Ryzen AI с предустановленными Ollama, Open WebUI, Home Assistant и Telegram-ботом. Цена — 30 000 ₽. Напишите в Telegram: @onoutnoxon — расскажем про конфигурации и отправим тест-видео запуска.

Александр Руин, основатель habab.ru. Обновлено: 2026-04-15.

Источники и данные для замеров: - Замеры производительности: собственное тестирование на трёх конфигурациях (февраль–апрель 2026) - https://ollama.com/ - https://github.com/ollama/ollama - https://ollama.com/library - https://github.com/open-webui/open-webui

О сервисе "AI Home Server"

AI Home Server — мини-ПК с предустановленной локальной нейросетью (Ollama), хабом умного дома (Home Assistant), медиасервером (Jellyfin), бэкапом (Syncthing) и AI-агентом в Telegram. Подключаешь к питанию и интернету — работает из коробки.

Ключевые преимущества:

  • Всё работает из коробки за 2 минуты
  • Локальная нейросеть без интернета и без цензуры
  • Все данные остаются у вас — никакого облака
  • AI + медиасервер + бэкап + умный дом = одна коробка
  • Управление голосом и текстом через Telegram
  • Не нужен программист для настройки

Для кого подходит:

Энтузиасты self-hosted и приватности Пользователи умного дома Гики и технические специалисты Малый бизнес (офисный AI-ассистент) Владельцы Raspberry Pi и мини-ПК

Сценарии использования:

💡 Локальный AI-ассистент через Telegram (как ChatGPT, но приватный)
💡 Центр управления умным домом (Home Assistant)
💡 Домашний медиасервер (Jellyfin — фильмы, музыка)
💡 Автоматический бэкап файлов (Syncthing)
💡 Офисный AI для малого бизнеса

📰 Промо-статьи наших решений

Изучите детальные обзоры наших технологических решений для различных отраслей:

🚀 Работаю до результата

Работаю до результата и бизнес-ценности, быстро корректирую подходы в процессе. Использую современный стек для качественного и быстрого решения задач.