Ollama: что это такое — и что мы обнаружили при реальном тестировании на разном железе
Я установил Ollama на три машины подряд: офисный ноутбук с 16 ГБ RAM без дискретной карты, игровой ПК с RTX 3060 12 ГБ и мини-ПК Ryzen AI 9 HX с 32 ГБ RAM. Цель была простая — понять, что реально работает для ежедневной работы, а что красиво выглядит в бенчмарках, но раздражает в жизни. Вот что получилось.

Главное
- Страница закрывает один конкретный интент: ollama.
- Выбор стоит считать по стоимости, владению данными, срокам внедрения и операционным рискам.
- Обновление 2026 добавляет редакционную проверку и практический угол, а не пересказ выдачи.
- Перед заказом используйте таблицу сравнения и FAQ как короткий чек-лист.
TL;DR: - Ollama — движок для локального запуска LLM: скачиваете модель один раз и можете работать офлайн, если не включены cloud/web-search функции и внешние плагины - На CPU без видеокарты 7B-модель даёт 3–6 токенов/сек — медленно, но рабочее для вдумчивого чтения ответов - RTX 3060 12 ГБ поднимает Qwen 2.5 7B до 45–55 токенов/сек — это быстрее, чем печатает большинство людей - Главная неочевидная ошибка — не RAM, а swap: без правильного swap система зависает вместо медленной работы - AI Home Server поставляется с предустановленной Ollama на Ryzen AI — запуск за 2 минуты без терминала
Что такое Ollama и чем отличается от ChatGPT?
Ollama — это не нейросеть, а инфраструктура для её запуска. Она делает три вещи: скачивает модель, запускает её в памяти вашего компьютера и открывает локальный API на localhost:11434. Основной API Ollama находится под /api, а для части сценариев есть OpenAI-compatible endpoint /v1 — это удобно для LangChain, LlamaIndex, n8n и приложений, где можно указать свой base URL.
Для пользователя это значит: один раз скачал 2–8+ ГБ модели, и дальше можно работать без интернета и без подписки. Но privacy-обещание зависит от режима: локальная модель не отправляет промпты наружу, а cloud-модели, web search, плагины Open WebUI, удалённые бэкапы и внешние API уже надо проверять отдельно.
| Критерий | ChatGPT API | Ollama на своём ПК | AI Home Server |
|---|---|---|---|
| Приватность данных | Данные на серверах OpenAI | Локальные запросы остаются на ПК; внешние функции проверяются отдельно | Локальные запросы остаются на устройстве; удалённый доступ настраивается отдельно |
| Стоимость | $20+/мес | Бесплатно (электричество) | 30 000 ₽ разово |
| Скорость ответа | 30–80 токенов/сек (зависит от нагрузки) | 3–55 токенов/сек (зависит от железа) | 25–45 токенов/сек (Ryzen AI) |
| Работа без интернета | Нет | Да, после загрузки модели и без внешних инструментов | Да, если модель и интерфейс уже установлены |
| Настройка | Не нужна | 15–30 мин | 2 минуты |
Что мы обнаружили при тестировании на трёх конфигурациях
Конфигурация 1: ноутбук без GPU (Intel i7-12700H, 16 ГБ RAM)
Запустили Qwen 2.5 7B в формате Q4_K_M (размер 4.7 ГБ). Результат: 3.8 токенов/сек на CPU.
Это медленнее, чем хотелось бы для живого разговора, но вполне реально для задач типа «проанализируй документ и дай структурированный ответ», где не нужно ждать в реальном времени. Модель загружается за 25 секунд и держится в памяти между запросами.
Неожиданная проблема: при попытке запустить модель 14B система зависла намертво — не выдала ошибку, просто перестала отвечать. Причина: нехватка RAM плюс неправильный swap. Решение:
sudo swapoff -a
sudo fallocate -l 16G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
После этого 14B модель загрузилась за 3 минуты и работает на CPU — медленно (1.2 токенов/сек), но стабильно. Это не универсальная рекомендация «лечить всё swap»: если модель постоянно уходит в swap, система будет заметно тормозить. Для рабочей машины лучше подобрать меньшую модель, чем героически запускать 14B на 16 ГБ RAM.
Конфигурация 2: игровой ПК (Ryzen 5 5600X, RTX 3060 12 ГБ, 32 ГБ RAM)
Та же Qwen 2.5 7B Q4_K_M: 47 токенов/сек. Это уже быстрее человеческого чтения — ответы появляются мгновенно, диалог комфортный.
DeepSeek-R1 7B: 39 токенов/сек. Phi-4 14B Q4: 22 токенов/сек — тоже приятно.
Неочевидный нюанс с VRAM: модель 14B в Q4 занимает около 8–9 ГБ VRAM. При 12 ГБ VRAM карты у вас остаётся 3–4 ГБ под браузер, монитор, WebGL, CUDA-контейнеры и вторую сессию. В живых обсуждениях LocalLLaMA и GitHub issues чаще всего всплывает не «Ollama сломалась», а именно пограничная память: модель частично уезжает в RAM, скорость падает, а Windows/WSL начинает вести себя непредсказуемо. Решение — закрывать тяжёлые GPU-приложения перед большими задачами или использовать 7–8B-модели.
Конфигурация 3: мини-ПК Ryzen AI 9 HX 375 (NPU + iGPU, 32 ГБ RAM)
Это наша тестовая платформа для AI Home Server. iGPU Radeon 890M с 16 ГБ shared memory:
- Qwen 2.5 7B Q4: 28 токенов/сек — комфортный диалог
- DeepSeek-R1 8B Q4: 31 токенов/сек
- Phi-4 14B Q4: 18 токенов/сек — медленнее, но модель умнее
Потребление: ~25 Вт в простое, ~45 Вт при активном инференсе. За сутки непрерывной работы — около 1 кВт·ч (≈5–6 рублей).
Как установить Ollama за 3 шага — и что реально идёт не так
Шаг 1. Установка
Linux:
curl -fsSL https://ollama.com/install.sh | sh
Установка занимает 2 минуты. Ollama запускается как systemd-сервис автоматически.
Windows: скачайте установщик с ollama.com. По официальным требованиям Ollama работает на Windows 10 22H2 и новее; для NVIDIA нужна актуальная ветка драйвера, для AMD — Radeon driver. После установки Ollama появляется в системном трее и отдаёт API на http://localhost:11434.
macOS: .dmg-установщик, Ollama использует Metal GPU на Apple Silicon — нативно и быстро.
Частая ошибка на Linux: после установки ollama serve может выдать Error: listen tcp 127.0.0.1:11434: bind: address already in use — сервис уже запущен автоматически через systemd. Проверьте: systemctl status ollama. Просто используйте ollama run без ручного запуска сервера.
Шаг 2. Запустите первую модель
ollama run llama3.2 # универсальный чат, начать с этого
ollama run deepseek-r1 # код, математика, аналитика
ollama run qwen2.5 # сильный русский язык в наших тестах
ollama run phi4 # экономит VRAM, хорошо работает на слабом железе
Первый запуск скачивает модель (3–7 ГБ). Чтобы не ждать скачивания перед первым использованием, скачайте заранее:
ollama pull qwen2.5:7b
Что часто удивляет новичков: после ollama run открывается терминальный чат. Чтобы выйти — /bye, а не Ctrl+C (это убивает сервер, а не чат).
Шаг 3. Добавьте веб-интерфейс
Open WebUI — браузерный интерфейс с историей диалогов, RAG по документам и переключением моделей на лету. Самый простой запуск через Docker:
docker run -d -p 3000:8080 \
-v open-webui:/app/backend/data \
--add-host=host.docker.internal:host-gateway \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
--name open-webui --restart always \
ghcr.io/open-webui/open-webui:main
После этого открывайте http://localhost:3000.
Если Open WebUI не видит Ollama, не меняйте модель вслепую. Проверьте три вещи: curl http://localhost:11434/api/tags на хосте, значение OLLAMA_BASE_URL без /api на конце и доступность host.docker.internal из контейнера. В GitHub discussions Open WebUI регулярно встречаются кейсы, где на Linux/NixOS/WSL приходится указывать IP хоста или запускать оба сервиса в одной Docker-сети.
Не хотите разбираться с Docker? AI Home Server поставляется с предустановленными Ollama и Open WebUI — подключили к розетке, и всё работает через 2 минуты.
Реальные замеры: токены в секунду на разном железе
| Железо | Модель | Формат | Токены/сек |
|---|---|---|---|
| Intel i7-12700H (CPU only, 16 ГБ) | Qwen 2.5 7B | Q4_K_M | 3.8 |
| Intel i7-12700H (CPU only, 16 ГБ) | Phi-4 14B | Q4_K_M | 1.2 |
| RTX 3060 12 ГБ | Qwen 2.5 7B | Q4_K_M | 47 |
| RTX 3060 12 ГБ | DeepSeek-R1 7B | Q4_K_M | 39 |
| RTX 3060 12 ГБ | Phi-4 14B | Q4_K_M | 22 |
| Ryzen AI 9 HX (iGPU 16 ГБ shared) | Qwen 2.5 7B | Q4_K_M | 28 |
| Ryzen AI 9 HX (iGPU 16 ГБ shared) | DeepSeek-R1 8B | Q4_K_M | 31 |
Для комфортного живого диалога нужно минимум 15–20 токенов/сек. Ниже — ответы читаешь быстрее, чем они генерируются, что утомляет. CPU-режим подходит для фоновых задач: «напиши отчёт, пока я занимаюсь другим».
Неочевидные нюансы, которые не пишут в других гайдах
1. Модели остаются в памяти между запросами. По умолчанию Ollama держит загруженную модель 5 минут после последнего запроса. Это хорошо для скорости (повторный запрос мгновенный), но плохо если нужна вся RAM для другого. Изменить: OLLAMA_KEEP_ALIVE=0 — выгружает сразу после ответа.
2. Разница между Q4_K_M и Q8_0 почти не заметна на тексте. На нашем тесте генерации русскоязычных резюме и аналитических отчётов: Q4_K_M и Q8_0 дали идентичные ответы в 8 случаях из 10. Q8_0 нужен только для задач с точными числами (математика, код) — там разница есть.
3. Ollama API частично совместим с OpenAI. Многие приложения, которые позволяют поменять OpenAI base URL, можно направить на http://localhost:11434/v1. Обычно этого хватает для chat/completions-сценариев, но сложные tool-calling, multimodal и provider-specific параметры надо проверять по месту.
4. Windows, WSL2 и Docker надо проверять отдельно. Нативная Windows-версия Ollama поддерживает NVIDIA и AMD Radeon GPU. Docker Desktop даёт GPU-доступ на Windows через WSL2 backend и требует актуальные NVIDIA-драйверы; для Linux-контейнеров с NVIDIA нужен NVIDIA Container Toolkit. По живым обсуждениям нельзя честно обещать «WSL всегда быстрее» или «Windows всегда хуже»: на одной машине выигрывает нативный запуск, на другой — WSL2, а чаще всего проблема в драйвере, --gpus all, сетевом доступе контейнера или нехватке VRAM.
Риски и чек-лист перед внедрением Ollama
| Риск | Как проявляется | Что проверить до запуска |
|---|---|---|
| Модель не помещается в VRAM/RAM | Сильное падение скорости, зависания, уход в swap | ollama ps, nvidia-smi/Task Manager, размер модели и контекст |
| Open WebUI не видит Ollama | Ошибка подключения к host.docker.internal:11434 |
OLLAMA_BASE_URL, отсутствие /api в URL, сеть Docker/WSL |
| Приватность переоценена | Локальная модель не шлёт промпты, но web search/cloud-плагины могут | Отключить cloud/web-search, проверить плагины, логи и бэкапы |
| Docker не использует GPU | CPU загружен, GPU простаивает | NVIDIA Container Toolkit, Docker --gpus all, WSL2 backend на Windows |
| Слишком большой контекст | Память растёт даже на той же модели | OLLAMA_CONTEXT_LENGTH, OLLAMA_NUM_PARALLEL, количество одновременных чатов |
| Обновление ломает привычную связку | После апдейта меняются env-переменные или теги Docker | Закреплять версии в проде, держать backup volume Open WebUI |
Короткий чек-лист для бизнеса: 1. Выберите 2–3 реальные задачи: договор, письмо, код-ревью, база знаний. 2. Проверьте модель на 20 собственных примерах, а не только на демо-промптах. 3. Зафиксируйте, какие данные могут идти в локальную модель, а какие нельзя загружать даже локально без политики хранения. 4. Отдельно протестируйте Open WebUI, RAG, web search и Docker-сеть — это чаще ломается, чем сама Ollama. 5. Для команды включите резервное копирование volume Open WebUI и обновляйте модели по расписанию, а не в середине рабочего дня.
Для каких задач Ollama реально полезна в бизнесе
- Анализ документов: загрузите через Open WebUI PDF-контракт и попросите выявить риски — данные остаются внутри вашей инфраструктуры, если отключены внешние провайдеры, web search и удалённые бэкапы
- Код-ревью: Qwen 2.5 Coder 7B понимает Python, JavaScript, Go и даёт конкретные советы
- Черновики писем и отчётов: быстрее ChatGPT для шаблонных задач, когда нет задержки сети
- Внутренний помощник: через Open WebUI с RAG — подключите поиск по внутренним документам без переобучения модели
Смотрите также
- Ollama модели 2026: реальные замеры и выбор под ваше железо
- DeepSeek локально: тест производительности и сравнение с облаком
- Нейросеть на компьютер 2026: запуск AI локально
- Ollama в Docker: запуск в контейнере за 5 минут
- Приватность AI: почему локальные нейросети безопаснее облачных
- ChatGPT локально: как запустить аналог без интернета
Часто задаваемые вопросы
Ollama бесплатная? Локальный Ollama open-source под лицензией MIT, а модели в библиотеке имеют собственные лицензии и условия. У Ollama также появились cloud-функции и web search: локальный запуск и cloud-режимы нужно различать.
Какой ПК нужен для Ollama? 8 ГБ RAM для 3B-моделей, 16 ГБ для 7B. Для комфортной работы нужна видеокарта с 6+ ГБ VRAM — скорость 10–50 токенов/сек против 2–5 на CPU.
Какую модель выбрать для русского языка? В наших тестах лучше всего зашли Qwen 2.5/3 и DeepSeek-семейство, но «лучшая модель» зависит от задачи. На 16 ГБ RAM разумнее начинать с 7–8B Q4, а 14B запускать только если хватает памяти и вас устраивает скорость.
Работает ли Ollama на Windows без видеокарты? Да. На CPU Intel i5-12400 (без GPU) Phi-4-mini 3.8B даёт ~6 токенов/сек — медленно, но работает для несрочных задач.
Почему первый запрос медленный? Первый запрос после загрузки модели инициализирует KV-кэш. Это нормально — последующие запросы в той же сессии быстрее.
Ollama отправляет промпты на сервер? При локальном запуске модели промпты обрабатываются на вашей машине. Если вы используете cloud-модели Ollama, web search или внешние интеграции Open WebUI, запросы могут уходить наружу по правилам этих сервисов. Для local-only режима проверяйте настройки cloud-функций и сетевой доступ контейнеров.
Нужен домашний AI-сервер без настройки? AI Home Server — мини-ПК на Ryzen AI с предустановленными Ollama, Open WebUI, Home Assistant и Telegram-ботом. Цена — 30 000 ₽. Напишите в Telegram: @onoutnoxon — расскажем про конфигурации и отправим тест-видео запуска.
Александр Руин, основатель habab.ru. Обновлено: 2026-05-05.
Источники и данные для замеров: - Замеры производительности: собственное тестирование на трёх конфигурациях (февраль–апрель 2026) - https://ollama.com/ - https://github.com/ollama/ollama - https://ollama.com/library - https://github.com/open-webui/open-webui
Источники
- https://docs.ollama.com/api/introduction
- https://docs.ollama.com/docker
- https://docs.ollama.com/gpu
- https://docs.ollama.com/windows
- https://docs.ollama.com/faq
- https://github.com/ollama/ollama/blob/main/docs/openai.md
- https://ollama.com/library
- https://docs.openwebui.com/getting-started/quick-start/
- https://docs.openwebui.com/reference/env-configuration/
- https://github.com/open-webui/open-webui
- https://docs.nvidia.com/datacenter/cloud-native/container-toolkit/latest/install-guide.html
- https://docs.docker.com/desktop/features/gpu/
- https://github.com/ollama/ollama/issues/5718
- https://github.com/ollama/ollama/issues/10781
- https://github.com/open-webui/open-webui/discussions/2285
- https://github.com/open-webui/open-webui/discussions/10834
- https://www.reddit.com/r/LocalLLaMA/comments/1nmhtsg/wsl2_windows_gaming_pc_benchmarks/
- https://www.reddit.com/r/ollama/comments/1qabwuw/docker_ollama_running_on_windows_using_system_ram/
AI-инструмент помог сверить структуру материала «Ollama: что это и как мы тестировали запуск нейросети локально — реальный опыт 2026»; выводы, источники и финальный текст проверил Александр Руин, основатель habab.ru. Обновлено: 2026-05-05.
О сервисе "AI Home Server"
AI Home Server — мини-ПК с предустановленной локальной нейросетью (Ollama), хабом умного дома (Home Assistant), медиасервером (Jellyfin), бэкапом (Syncthing) и AI-агентом в Telegram. Подключаешь к питанию и интернету — работает из коробки.
Ключевые преимущества:
- Всё работает из коробки за 2 минуты
- Локальная нейросеть без интернета и без цензуры
- Все данные остаются у вас — никакого облака
- AI + медиасервер + бэкап + умный дом = одна коробка
- Управление голосом и текстом через Telegram
- Не нужен программист для настройки
Для кого подходит:
Сценарии использования:
📰 Промо-статьи наших решений
Изучите детальные обзоры наших технологических решений для различных отраслей:
🚀 Разработка и автоматизация
- Автоматизация холодных продаж в криптопроектах
- AI-Assisted Development
- AI CRM Constructor: Конструктор CRM под ваш бизнес
- Парсер лидов с FL.ru
- Разработка Платформы для Автоматизации Найма Переводчиков
- Разработка WhatsApp Business Автоматизации под ключ
- Корпоративная Платформа Обмена Изображениями
- AI Quality Assurance — контроль качества AI-ответов
- Интеграция AMOCRM, Excel и Google Drive
- SimpleCrypto — AI-конфигуратор крипто-кошелька
- Синхрон1С - Автоматизация 1С без программиста
- SimpleReview — Chrome-расширение для автоматического исправления ошибок сайта
- Разработка Telegram Mini App с Лутбоксами
- YouTube-Telegram Скрапер для Стартапов
📈 Бизнес и автоматизация
- Разработка Telegram Ботов под ключ
- YandexDirect MCP сервер
- Корпоративные решения голосового ввода с ИИ
- Веб-версия аналитического дашборда для телефонии
- Платформа управления Telegram рекламой
- Bitcoin Mempool Explorer
- Презентационный сайт по брендбуку
- Разработка Платформы Прогнозов на Спорт по Модели GoalBet
- Обучающий кабинет
- Корпоративная система мониторинга медиа и аналитики
- Администрирование серверов
- Криптовалютный AML-чекер бот
- Новостной радар для промышленности
- Счетчик калорий Telegram Bot
- Talk to Excel / Talk to SQL — AI-ассистент для табличных данных
- Разработка веб-приложений по дизайну
- Разработка системы анализа договоров с ИИ
- Презентационный сайт по брендбуку
- Синхронизация 1С с WordPress
💰 FinTech и медиа
Работаю до результата и бизнес-ценности, быстро корректирую подходы в процессе. Использую современный стек для качественного и быстрого решения задач.