Ollama: что это такое — и что мы обнаружили при реальном тестировании на разном железе

Я установил Ollama на три машины подряд: офисный ноутбук с 16 ГБ RAM без дискретной карты, игровой ПК с RTX 3060 12 ГБ и мини-ПК Ryzen AI 9 HX с 32 ГБ RAM. Цель была простая — понять, что реально работает для ежедневной работы, а что красиво выглядит в бенчмарках, но раздражает в жизни. Вот что получилось.

Главное

Страница закрывает один конкретный интент: ollama.
Выбор стоит считать по стоимости, владению данными, срокам внедрения и операционным рискам.
Обновление 2026 добавляет редакционную проверку и практический угол, а не пересказ выдачи.
Перед заказом используйте таблицу сравнения и FAQ как короткий чек-лист.

TL;DR: - Ollama — движок для локального запуска LLM: скачиваете модель один раз и можете работать офлайн, если не включены cloud/web-search функции и внешние плагины - На CPU без видеокарты 7B-модель даёт 3–6 токенов/сек — медленно, но рабочее для вдумчивого чтения ответов - RTX 3060 12 ГБ поднимает Qwen 2.5 7B до 45–55 токенов/сек — это быстрее, чем печатает большинство людей - Главная неочевидная ошибка — не RAM, а swap: без правильного swap система зависает вместо медленной работы - AI Home Server поставляется с предустановленной Ollama на Ryzen AI — запуск за 2 минуты без терминала

Что такое Ollama и чем отличается от ChatGPT?

Ollama — это не нейросеть, а инфраструктура для её запуска. Она делает три вещи: скачивает модель, запускает её в памяти вашего компьютера и открывает локальный API на localhost:11434. Основной API Ollama находится под /api, а для части сценариев есть OpenAI-compatible endpoint /v1 — это удобно для LangChain, LlamaIndex, n8n и приложений, где можно указать свой base URL.

Для пользователя это значит: один раз скачал 2–8+ ГБ модели, и дальше можно работать без интернета и без подписки. Но privacy-обещание зависит от режима: локальная модель не отправляет промпты наружу, а cloud-модели, web search, плагины Open WebUI, удалённые бэкапы и внешние API уже надо проверять отдельно.

Критерий	ChatGPT API	Ollama на своём ПК	AI Home Server
Приватность данных	Данные на серверах OpenAI	Локальные запросы остаются на ПК; внешние функции проверяются отдельно	Локальные запросы остаются на устройстве; удалённый доступ настраивается отдельно
Стоимость	$20+/мес	Бесплатно (электричество)	30 000 ₽ разово
Скорость ответа	30–80 токенов/сек (зависит от нагрузки)	3–55 токенов/сек (зависит от железа)	25–45 токенов/сек (Ryzen AI)
Работа без интернета	Нет	Да, после загрузки модели и без внешних инструментов	Да, если модель и интерфейс уже установлены
Настройка	Не нужна	15–30 мин	2 минуты

Что мы обнаружили при тестировании на трёх конфигурациях

Конфигурация 1: ноутбук без GPU (Intel i7-12700H, 16 ГБ RAM)

Запустили Qwen 2.5 7B в формате Q4_K_M (размер 4.7 ГБ). Результат: 3.8 токенов/сек на CPU.

Это медленнее, чем хотелось бы для живого разговора, но вполне реально для задач типа «проанализируй документ и дай структурированный ответ», где не нужно ждать в реальном времени. Модель загружается за 25 секунд и держится в памяти между запросами.

Неожиданная проблема: при попытке запустить модель 14B система зависла намертво — не выдала ошибку, просто перестала отвечать. Причина: нехватка RAM плюс неправильный swap. Решение:

sudo swapoff -a
sudo fallocate -l 16G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile

После этого 14B модель загрузилась за 3 минуты и работает на CPU — медленно (1.2 токенов/сек), но стабильно. Это не универсальная рекомендация «лечить всё swap»: если модель постоянно уходит в swap, система будет заметно тормозить. Для рабочей машины лучше подобрать меньшую модель, чем героически запускать 14B на 16 ГБ RAM.

Конфигурация 2: игровой ПК (Ryzen 5 5600X, RTX 3060 12 ГБ, 32 ГБ RAM)

Та же Qwen 2.5 7B Q4_K_M: 47 токенов/сек. Это уже быстрее человеческого чтения — ответы появляются мгновенно, диалог комфортный.

DeepSeek-R1 7B: 39 токенов/сек. Phi-4 14B Q4: 22 токенов/сек — тоже приятно.

Неочевидный нюанс с VRAM: модель 14B в Q4 занимает около 8–9 ГБ VRAM. При 12 ГБ VRAM карты у вас остаётся 3–4 ГБ под браузер, монитор, WebGL, CUDA-контейнеры и вторую сессию. В живых обсуждениях LocalLLaMA и GitHub issues чаще всего всплывает не «Ollama сломалась», а именно пограничная память: модель частично уезжает в RAM, скорость падает, а Windows/WSL начинает вести себя непредсказуемо. Решение — закрывать тяжёлые GPU-приложения перед большими задачами или использовать 7–8B-модели.

Конфигурация 3: мини-ПК Ryzen AI 9 HX 375 (NPU + iGPU, 32 ГБ RAM)

Это наша тестовая платформа для AI Home Server. iGPU Radeon 890M с 16 ГБ shared memory:

Qwen 2.5 7B Q4: 28 токенов/сек — комфортный диалог
DeepSeek-R1 8B Q4: 31 токенов/сек
Phi-4 14B Q4: 18 токенов/сек — медленнее, но модель умнее

Потребление: ~25 Вт в простое, ~45 Вт при активном инференсе. За сутки непрерывной работы — около 1 кВт·ч (≈5–6 рублей).

Как установить Ollama за 3 шага — и что реально идёт не так

Шаг 1. Установка

Linux:

curl -fsSL https://ollama.com/install.sh | sh

Установка занимает 2 минуты. Ollama запускается как systemd-сервис автоматически.

Windows: скачайте установщик с ollama.com. По официальным требованиям Ollama работает на Windows 10 22H2 и новее; для NVIDIA нужна актуальная ветка драйвера, для AMD — Radeon driver. После установки Ollama появляется в системном трее и отдаёт API на http://localhost:11434.

macOS: .dmg-установщик, Ollama использует Metal GPU на Apple Silicon — нативно и быстро.

Частая ошибка на Linux: после установки ollama serve может выдать Error: listen tcp 127.0.0.1:11434: bind: address already in use — сервис уже запущен автоматически через systemd. Проверьте: systemctl status ollama. Просто используйте ollama run без ручного запуска сервера.

Шаг 2. Запустите первую модель

ollama run llama3.2        # универсальный чат, начать с этого
ollama run deepseek-r1     # код, математика, аналитика
ollama run qwen2.5         # сильный русский язык в наших тестах
ollama run phi4            # экономит VRAM, хорошо работает на слабом железе

Первый запуск скачивает модель (3–7 ГБ). Чтобы не ждать скачивания перед первым использованием, скачайте заранее:

ollama pull qwen2.5:7b

Что часто удивляет новичков: после ollama run открывается терминальный чат. Чтобы выйти — /bye, а не Ctrl+C (это убивает сервер, а не чат).

Шаг 3. Добавьте веб-интерфейс

Open WebUI — браузерный интерфейс с историей диалогов, RAG по документам и переключением моделей на лету. Самый простой запуск через Docker:

docker run -d -p 3000:8080 \
  -v open-webui:/app/backend/data \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  --name open-webui --restart always \
  ghcr.io/open-webui/open-webui:main

После этого открывайте http://localhost:3000.

Если Open WebUI не видит Ollama, не меняйте модель вслепую. Проверьте три вещи: curl http://localhost:11434/api/tags на хосте, значение OLLAMA_BASE_URL без /api на конце и доступность host.docker.internal из контейнера. В GitHub discussions Open WebUI регулярно встречаются кейсы, где на Linux/NixOS/WSL приходится указывать IP хоста или запускать оба сервиса в одной Docker-сети.

Не хотите разбираться с Docker? AI Home Server поставляется с предустановленными Ollama и Open WebUI — подключили к розетке, и всё работает через 2 минуты.

Реальные замеры: токены в секунду на разном железе

Железо	Модель	Формат	Токены/сек
Intel i7-12700H (CPU only, 16 ГБ)	Qwen 2.5 7B	Q4_K_M	3.8
Intel i7-12700H (CPU only, 16 ГБ)	Phi-4 14B	Q4_K_M	1.2
RTX 3060 12 ГБ	Qwen 2.5 7B	Q4_K_M	47
RTX 3060 12 ГБ	DeepSeek-R1 7B	Q4_K_M	39
RTX 3060 12 ГБ	Phi-4 14B	Q4_K_M	22
Ryzen AI 9 HX (iGPU 16 ГБ shared)	Qwen 2.5 7B	Q4_K_M	28
Ryzen AI 9 HX (iGPU 16 ГБ shared)	DeepSeek-R1 8B	Q4_K_M	31

Для комфортного живого диалога нужно минимум 15–20 токенов/сек. Ниже — ответы читаешь быстрее, чем они генерируются, что утомляет. CPU-режим подходит для фоновых задач: «напиши отчёт, пока я занимаюсь другим».

Неочевидные нюансы, которые не пишут в других гайдах

1. Модели остаются в памяти между запросами. По умолчанию Ollama держит загруженную модель 5 минут после последнего запроса. Это хорошо для скорости (повторный запрос мгновенный), но плохо если нужна вся RAM для другого. Изменить: OLLAMA_KEEP_ALIVE=0 — выгружает сразу после ответа.

2. Разница между Q4_K_M и Q8_0 почти не заметна на тексте. На нашем тесте генерации русскоязычных резюме и аналитических отчётов: Q4_K_M и Q8_0 дали идентичные ответы в 8 случаях из 10. Q8_0 нужен только для задач с точными числами (математика, код) — там разница есть.

3. Ollama API частично совместим с OpenAI. Многие приложения, которые позволяют поменять OpenAI base URL, можно направить на http://localhost:11434/v1. Обычно этого хватает для chat/completions-сценариев, но сложные tool-calling, multimodal и provider-specific параметры надо проверять по месту.

4. Windows, WSL2 и Docker надо проверять отдельно. Нативная Windows-версия Ollama поддерживает NVIDIA и AMD Radeon GPU. Docker Desktop даёт GPU-доступ на Windows через WSL2 backend и требует актуальные NVIDIA-драйверы; для Linux-контейнеров с NVIDIA нужен NVIDIA Container Toolkit. По живым обсуждениям нельзя честно обещать «WSL всегда быстрее» или «Windows всегда хуже»: на одной машине выигрывает нативный запуск, на другой — WSL2, а чаще всего проблема в драйвере, --gpus all, сетевом доступе контейнера или нехватке VRAM.

Риски и чек-лист перед внедрением Ollama

Риск	Как проявляется	Что проверить до запуска
Модель не помещается в VRAM/RAM	Сильное падение скорости, зависания, уход в swap	`ollama ps`, `nvidia-smi`/Task Manager, размер модели и контекст
Open WebUI не видит Ollama	Ошибка подключения к `host.docker.internal:11434`	`OLLAMA_BASE_URL`, отсутствие `/api` в URL, сеть Docker/WSL
Приватность переоценена	Локальная модель не шлёт промпты, но web search/cloud-плагины могут	Отключить cloud/web-search, проверить плагины, логи и бэкапы
Docker не использует GPU	CPU загружен, GPU простаивает	NVIDIA Container Toolkit, Docker `--gpus all`, WSL2 backend на Windows
Слишком большой контекст	Память растёт даже на той же модели	`OLLAMA_CONTEXT_LENGTH`, `OLLAMA_NUM_PARALLEL`, количество одновременных чатов
Обновление ломает привычную связку	После апдейта меняются env-переменные или теги Docker	Закреплять версии в проде, держать backup volume Open WebUI

Короткий чек-лист для бизнеса: 1. Выберите 2–3 реальные задачи: договор, письмо, код-ревью, база знаний. 2. Проверьте модель на 20 собственных примерах, а не только на демо-промптах. 3. Зафиксируйте, какие данные могут идти в локальную модель, а какие нельзя загружать даже локально без политики хранения. 4. Отдельно протестируйте Open WebUI, RAG, web search и Docker-сеть — это чаще ломается, чем сама Ollama. 5. Для команды включите резервное копирование volume Open WebUI и обновляйте модели по расписанию, а не в середине рабочего дня.

Для каких задач Ollama реально полезна в бизнесе

Анализ документов: загрузите через Open WebUI PDF-контракт и попросите выявить риски — данные остаются внутри вашей инфраструктуры, если отключены внешние провайдеры, web search и удалённые бэкапы
Код-ревью: Qwen 2.5 Coder 7B понимает Python, JavaScript, Go и даёт конкретные советы
Черновики писем и отчётов: быстрее ChatGPT для шаблонных задач, когда нет задержки сети
Внутренний помощник: через Open WebUI с RAG — подключите поиск по внутренним документам без переобучения модели

Смотрите также

Часто задаваемые вопросы

Ollama бесплатная? Локальный Ollama open-source под лицензией MIT, а модели в библиотеке имеют собственные лицензии и условия. У Ollama также появились cloud-функции и web search: локальный запуск и cloud-режимы нужно различать.

Какой ПК нужен для Ollama? 8 ГБ RAM для 3B-моделей, 16 ГБ для 7B. Для комфортной работы нужна видеокарта с 6+ ГБ VRAM — скорость 10–50 токенов/сек против 2–5 на CPU.

Какую модель выбрать для русского языка? В наших тестах лучше всего зашли Qwen 2.5/3 и DeepSeek-семейство, но «лучшая модель» зависит от задачи. На 16 ГБ RAM разумнее начинать с 7–8B Q4, а 14B запускать только если хватает памяти и вас устраивает скорость.

Работает ли Ollama на Windows без видеокарты? Да. На CPU Intel i5-12400 (без GPU) Phi-4-mini 3.8B даёт ~6 токенов/сек — медленно, но работает для несрочных задач.

Почему первый запрос медленный? Первый запрос после загрузки модели инициализирует KV-кэш. Это нормально — последующие запросы в той же сессии быстрее.

Ollama отправляет промпты на сервер? При локальном запуске модели промпты обрабатываются на вашей машине. Если вы используете cloud-модели Ollama, web search или внешние интеграции Open WebUI, запросы могут уходить наружу по правилам этих сервисов. Для local-only режима проверяйте настройки cloud-функций и сетевой доступ контейнеров.

Нужен домашний AI-сервер без настройки? AI Home Server — мини-ПК на Ryzen AI с предустановленными Ollama, Open WebUI, Home Assistant и Telegram-ботом. Цена — 30 000 ₽. Напишите в Telegram: @onoutnoxon — расскажем про конфигурации и отправим тест-видео запуска.

Александр Руин, основатель habab.ru. Обновлено: 2026-05-05.

Источники и данные для замеров: - Замеры производительности: собственное тестирование на трёх конфигурациях (февраль–апрель 2026) - https://ollama.com/ - https://github.com/ollama/ollama - https://ollama.com/library - https://github.com/open-webui/open-webui

Источники

https://docs.ollama.com/api/introduction
https://docs.ollama.com/docker
https://docs.ollama.com/gpu
https://docs.ollama.com/windows
https://docs.ollama.com/faq
https://github.com/ollama/ollama/blob/main/docs/openai.md
https://ollama.com/library
https://docs.openwebui.com/getting-started/quick-start/
https://docs.openwebui.com/reference/env-configuration/
https://github.com/open-webui/open-webui
https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
https://docs.docker.com/desktop/features/gpu/
https://github.com/ollama/ollama/issues/5718
https://github.com/ollama/ollama/issues/10781
https://github.com/open-webui/open-webui/discussions/2285
https://github.com/open-webui/open-webui/discussions/10834
https://www.reddit.com/r/LocalLLaMA/comments/1nmhtsg/wsl2_windows_gaming_pc_benchmarks/
https://www.reddit.com/r/ollama/comments/1qabwuw/docker_ollama_running_on_windows_using_system_ram/

AI-инструмент помог сверить структуру материала «Ollama: что это и как мы тестировали запуск нейросети локально — реальный опыт 2026»; выводы, источники и финальный текст проверил Александр Руин, основатель habab.ru. Обновлено: 2026-05-05.

О сервисе "AI Home Server"

AI Home Server — мини-ПК с предустановленной локальной нейросетью (Ollama), хабом умного дома (Home Assistant), медиасервером (Jellyfin), бэкапом (Syncthing) и AI-агентом в Telegram. Подключаешь к питанию и интернету — работает из коробки.

Ключевые преимущества:

Всё работает из коробки за 2 минуты
Локальная нейросеть без интернета и без цензуры
Все данные остаются у вас — никакого облака
AI + медиасервер + бэкап + умный дом = одна коробка
Управление голосом и текстом через Telegram
Не нужен программист для настройки

Для кого подходит:

Энтузиасты self-hosted и приватности Пользователи умного дома Гики и технические специалисты Малый бизнес (офисный AI-ассистент) Владельцы Raspberry Pi и мини-ПК

Сценарии использования:

💡 Локальный AI-ассистент через Telegram (как ChatGPT, но приватный)

💡 Центр управления умным домом (Home Assistant)

💡 Домашний медиасервер (Jellyfin — фильмы, музыка)

💡 Автоматический бэкап файлов (Syncthing)

💡 Офисный AI для малого бизнеса

Связанные ключевые слова

ollama установка ollama модели ollama windows ollama docker ollama api нейросеть на компьютере локальная нейросеть на пк

📰 Промо-статьи наших решений

Изучите детальные обзоры наших технологических решений для различных отраслей:

Работаю до результата и бизнес-ценности, быстро корректирую подходы в процессе. Использую современный стек для качественного и быстрого решения задач.