Ollama: что это такое — и что мы обнаружили при реальном тестировании на разном железе
Я установил Ollama на три машины подряд: офисный ноутбук с 16 ГБ RAM без дискретной карты, игровой ПК с RTX 3060 12 ГБ и мини-ПК Ryzen AI 9 HX с 32 ГБ RAM. Цель была простая — понять, что реально работает для ежедневной работы, а что красиво выглядит в бенчмарках, но раздражает в жизни. Вот что получилось.
TL;DR: - Ollama — движок для локального запуска LLM: скачиваете модель один раз, используете без ограничений и без интернета - На CPU без видеокарты 7B-модель даёт 3–6 токенов/сек — медленно, но рабочее для вдумчивого чтения ответов - RTX 3060 12 ГБ поднимает Qwen 2.5 7B до 45–55 токенов/сек — это быстрее, чем печатает большинство людей - Главная неочевидная ошибка — не RAM, а swap: без правильного swap система зависает вместо медленной работы - AI Home Server поставляется с предустановленной Ollama на Ryzen AI — запуск за 2 минуты без терминала
Что такое Ollama и чем отличается от ChatGPT?
Ollama — это не нейросеть, а инфраструктура для её запуска. Она делает три вещи: скачивает модель в оптимизированном формате GGUF, запускает её в памяти вашего компьютера, и открывает REST API на localhost:11434 — совместимый с OpenAI API.
Для пользователя это значит: один раз скачал 4–8 ГБ, и дальше ChatGPT-уровень без интернета, без подписки, без того, чтобы ваши корпоративные запросы уходили на сторонние серверы.
| Критерий | ChatGPT API | Ollama на своём ПК | AI Home Server |
|---|---|---|---|
| Приватность данных | Данные на серверах OpenAI | Данные только на вашем ПК | Данные только на устройстве |
| Стоимость | $20+/мес | Бесплатно (электричество) | 30 000 ₽ разово |
| Скорость ответа | 30–80 токенов/сек (зависит от нагрузки) | 3–55 токенов/сек (зависит от железа) | 25–45 токенов/сек (Ryzen AI) |
| Работа без интернета | Нет | Да | Да |
| Настройка | Не нужна | 15–30 мин | 2 минуты |
Что мы обнаружили при тестировании на трёх конфигурациях
Конфигурация 1: ноутбук без GPU (Intel i7-12700H, 16 ГБ RAM)
Запустили Qwen 2.5 7B в формате Q4_K_M (размер 4.7 ГБ). Результат: 3.8 токенов/сек на CPU.
Это медленнее, чем хотелось бы для живого разговора, но вполне реально для задач типа «проанализируй документ и дай структурированный ответ», где не нужно ждать в реальном времени. Модель загружается за 25 секунд и держится в памяти между запросами.
Неожиданная проблема: при попытке запустить модель 14B система зависла намертво — не выдала ошибку, просто перестала отвечать. Причина: нехватка RAM плюс неправильный swap. Решение:
sudo swapoff -a
sudo fallocate -l 16G /swapfile
sudo chmod 600 /swapfile
sudo mkswap /swapfile
sudo swapon /swapfile
После этого 14B модель загрузилась за 3 минуты и работает на CPU — медленно (1.2 токенов/сек), но стабильно.
Конфигурация 2: игровой ПК (Ryzen 5 5600X, RTX 3060 12 ГБ, 32 ГБ RAM)
Та же Qwen 2.5 7B Q4_K_M: 47 токенов/сек. Это уже быстрее человеческого чтения — ответы появляются мгновенно, диалог комфортный.
DeepSeek-R1 7B: 39 токенов/сек. Phi-4 14B Q4: 22 токенов/сек — тоже приятно.
Неочевидный нюанс с VRAM: модель 14B в Q4 занимает 8.5 ГБ VRAM. При 12 ГБ VRAM карты у вас остаётся 3.5 ГБ — недостаточно для второй сессии браузера с WebGL. Chrome при этом начинает скидывать GPU-буферы и тормозит. Решение — либо закрывать вкладки перед большими задачами, либо использовать 8B-модели (5.5 ГБ VRAM — влезает рядом с браузером).
Конфигурация 3: мини-ПК Ryzen AI 9 HX 375 (NPU + iGPU, 32 ГБ RAM)
Это наша тестовая платформа для AI Home Server. iGPU Radeon 890M с 16 ГБ shared memory:
- Qwen 2.5 7B Q4: 28 токенов/сек — комфортный диалог
- DeepSeek-R1 8B Q4: 31 токенов/сек
- Phi-4 14B Q4: 18 токенов/сек — медленнее, но модель умнее
Потребление: ~25 Вт в простое, ~45 Вт при активном инференсе. За сутки непрерывной работы — около 1 кВт·ч (≈5–6 рублей).
Как установить Ollama за 3 шага — и что реально идёт не так
Шаг 1. Установка
Linux:
curl -fsSL https://ollama.ai/install.sh | sh
Установка занимает 2 минуты. Ollama запускается как systemd-сервис автоматически.
Windows: скачайте установщик с ollama.com. Ollama появится в системном трее и стартует при запуске Windows.
macOS: .dmg-установщик, Ollama использует Metal GPU на Apple Silicon — нативно и быстро.
Частая ошибка на Linux: после установки ollama serve может выдать Error: listen tcp 127.0.0.1:11434: bind: address already in use — сервис уже запущен автоматически через systemd. Проверьте: systemctl status ollama. Просто используйте ollama run без ручного запуска сервера.
Шаг 2. Запустите первую модель
ollama run llama3.2 # универсальный чат, начать с этого
ollama run deepseek-r1 # код, математика, аналитика с chain-of-thought
ollama run qwen2.5 # лучший русский язык среди open-source
ollama run phi4 # экономит VRAM, хорошо работает на слабом железе
Первый запуск скачивает модель (3–7 ГБ). Чтобы не ждать скачивания перед первым использованием, скачайте заранее:
ollama pull qwen2.5:7b
Что часто удивляет новичков: после ollama run открывается терминальный чат. Чтобы выйти — /bye, а не Ctrl+C (это убивает сервер, а не чат).
Шаг 3. Добавьте веб-интерфейс
Open WebUI — браузерный интерфейс с историей диалогов, RAG по документам и переключением моделей на лету. Запускается через Docker:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
ghcr.io/open-webui/open-webui:main
После этого открывайте http://localhost:3000.
Не хотите разбираться с Docker? AI Home Server поставляется с предустановленными Ollama и Open WebUI — подключили к розетке, и всё работает через 2 минуты.
Реальные замеры: токены в секунду на разном железе
| Железо | Модель | Формат | Токены/сек |
|---|---|---|---|
| Intel i7-12700H (CPU only, 16 ГБ) | Qwen 2.5 7B | Q4_K_M | 3.8 |
| Intel i7-12700H (CPU only, 16 ГБ) | Phi-4 14B | Q4_K_M | 1.2 |
| RTX 3060 12 ГБ | Qwen 2.5 7B | Q4_K_M | 47 |
| RTX 3060 12 ГБ | DeepSeek-R1 7B | Q4_K_M | 39 |
| RTX 3060 12 ГБ | Phi-4 14B | Q4_K_M | 22 |
| Ryzen AI 9 HX (iGPU 16 ГБ shared) | Qwen 2.5 7B | Q4_K_M | 28 |
| Ryzen AI 9 HX (iGPU 16 ГБ shared) | DeepSeek-R1 8B | Q4_K_M | 31 |
Для комфортного живого диалога нужно минимум 15–20 токенов/сек. Ниже — ответы читаешь быстрее, чем они генерируются, что утомляет. CPU-режим подходит для фоновых задач: «напиши отчёт, пока я занимаюсь другим».
Неочевидные нюансы, которые не пишут в других гайдах
1. Модели остаются в памяти между запросами. По умолчанию Ollama держит загруженную модель 5 минут после последнего запроса. Это хорошо для скорости (повторный запрос мгновенный), но плохо если нужна вся RAM для другого. Изменить: OLLAMA_KEEP_ALIVE=0 — выгружает сразу после ответа.
2. Разница между Q4_K_M и Q8_0 почти не заметна на тексте. На нашем тесте генерации русскоязычных резюме и аналитических отчётов: Q4_K_M и Q8_0 дали идентичные ответы в 8 случаях из 10. Q8_0 нужен только для задач с точными числами (математика, код) — там разница есть.
3. Ollama API совместим с OpenAI. Можно подключить любое приложение, которое работает с ChatGPT, и направить его на http://localhost:11434/v1 — оно не заметит разницы. Это работает с LangChain, LlamaIndex, n8n и сотнями других инструментов.
4. На Windows без WSL2 скорость ниже на 15–20%. Если нужна максимальная скорость на Windows — включите WSL2 и запускайте Ollama внутри Ubuntu-дистрибутива.
Для каких задач Ollama реально полезна в бизнесе
- Анализ документов: загрузите через Open WebUI PDF-контракт и попросите выявить риски — данные не покидают компанию
- Код-ревью: Qwen 2.5 Coder 7B понимает Python, JavaScript, Go и даёт конкретные советы
- Черновики писем и отчётов: быстрее ChatGPT для шаблонных задач, когда нет задержки сети
- Внутренний помощник: через Open WebUI с RAG — обучите модель на ваших внутренних документах
Смотрите также
- Ollama модели 2026: реальные замеры и выбор под ваше железо
- DeepSeek локально: тест производительности и сравнение с облаком
- Нейросеть на компьютер 2026: запуск AI локально
- Ollama в Docker: запуск в контейнере за 5 минут
- Приватность AI: почему локальные нейросети безопаснее облачных
- ChatGPT локально: как запустить аналог без интернета
Часто задаваемые вопросы
Ollama бесплатная? Да, полностью open-source под лицензией MIT. Ollama не собирает телеметрию по умолчанию начиная с версии 0.3.0.
Какой ПК нужен для Ollama? 8 ГБ RAM для 3B-моделей, 16 ГБ для 7B. Для комфортной работы нужна видеокарта с 6+ ГБ VRAM — скорость 10–50 токенов/сек против 2–5 на CPU.
Какую модель выбрать для русского языка? Qwen 2.5 — лучший русский среди open-source в 2026 году. На 16 ГБ RAM берите 14B Q4_K_M, на 8 ГБ — 7B Q4_K_M.
Работает ли Ollama на Windows без видеокарты? Да. На CPU Intel i5-12400 (без GPU) Phi-4-mini 3.8B даёт ~6 токенов/сек — медленно, но работает для несрочных задач.
Почему первый запрос медленный? Первый запрос после загрузки модели инициализирует KV-кэш. Это нормально — последующие запросы в той же сессии быстрее.
Нужен домашний AI-сервер без настройки? AI Home Server — мини-ПК на Ryzen AI с предустановленными Ollama, Open WebUI, Home Assistant и Telegram-ботом. Цена — 30 000 ₽. Напишите в Telegram: @onoutnoxon — расскажем про конфигурации и отправим тест-видео запуска.
Александр Руин, основатель habab.ru. Обновлено: 2026-04-15.
Источники и данные для замеров: - Замеры производительности: собственное тестирование на трёх конфигурациях (февраль–апрель 2026) - https://ollama.com/ - https://github.com/ollama/ollama - https://ollama.com/library - https://github.com/open-webui/open-webui
О сервисе "AI Home Server"
AI Home Server — мини-ПК с предустановленной локальной нейросетью (Ollama), хабом умного дома (Home Assistant), медиасервером (Jellyfin), бэкапом (Syncthing) и AI-агентом в Telegram. Подключаешь к питанию и интернету — работает из коробки.
Ключевые преимущества:
- Всё работает из коробки за 2 минуты
- Локальная нейросеть без интернета и без цензуры
- Все данные остаются у вас — никакого облака
- AI + медиасервер + бэкап + умный дом = одна коробка
- Управление голосом и текстом через Telegram
- Не нужен программист для настройки
Для кого подходит:
Сценарии использования:
📰 Промо-статьи наших решений
Изучите детальные обзоры наших технологических решений для различных отраслей:
🚀 Разработка и автоматизация
- Автоматизация холодных продаж в криптопроектах
- AI-Assisted Development
- AI CRM Constructor: Конструктор CRM под ваш бизнес
- Парсер лидов с FL.ru
- Разработка Платформы для Автоматизации Найма Переводчиков
- Разработка WhatsApp Business Автоматизации под ключ
- Корпоративная Платформа Обмена Изображениями
- AI Quality Assurance — контроль качества AI-ответов
- Интеграция AMOCRM, Excel и Google Drive
- SimpleCrypto — AI-конфигуратор крипто-кошелька
- Синхрон1С - Автоматизация 1С без программиста
- Разработка Telegram Mini App с Лутбоксами
- YouTube-Telegram Скрапер для Стартапов
📈 Бизнес и автоматизация
- Разработка Telegram Ботов под ключ
- YandexDirect MCP сервер
- Корпоративные решения голосового ввода с ИИ
- Веб-версия аналитического дашборда для телефонии
- Платформа управления Telegram рекламой
- Bitcoin Mempool Explorer
- Презентационный сайт по брендбуку
- Разработка Платформы Прогнозов на Спорт по Модели GoalBet
- Обучающий кабинет
- Корпоративная система мониторинга медиа и аналитики
- Администрирование серверов
- Криптовалютный AML-чекер бот
- Новостной радар для промышленности
- Счетчик калорий Telegram Bot
- Talk to Excel / Talk to SQL — AI-ассистент для табличных данных
- Разработка веб-приложений по дизайну
- Разработка системы анализа договоров с ИИ
- Презентационный сайт по брендбуку
- Синхронизация 1С с WordPress
💰 FinTech и медиа
Работаю до результата и бизнес-ценности, быстро корректирую подходы в процессе. Использую современный стек для качественного и быстрого решения задач.