Александр Руин

Консультант по проектированию AI‑систем

Александр Руин — консультант по проектированию систем. Помогаю спроектировать архитектуру, оценить риски и выстроить прозрачный процесс — от выбора технологий до сопровождения. Рутину берут на себя AI‑исполнители. Направления: автоматизация, интеграции, AI‑продукты.

Нейросеть на компьютер 2026: что реально запустится на вашем ПК

Можно поставить нейросеть на компьютер и работать без облачного чата. Но результат зависит не от слова "AI", а от трех скучных вещей: сколько у вас RAM, сколько VRAM, и помещается ли выбранная модель в быструю память без свопа и CPU fallback.

Мы тестировали локальный запуск на четырех конфигурациях: Intel N100 mini-PC, ноутбук с CPU без дискретной GPU, Ryzen AI 9 mini-PC и десктоп с RTX 3060 12 ГБ. Ниже не универсальный бенчмарк всех моделей, а практическая карта ожиданий: что попробовать за 15 минут, где начинаются тормоза, когда нужен Open WebUI, а когда проще поставить LM Studio.

Нейросеть на компьютер реальные замеры на разном железе перед покупкой

Главное

  • Для первого теста достаточно Ollama и одной модели: phi4-mini для 8 ГБ RAM, qwen2.5:7b или qwen3:8b для 16 ГБ RAM, qwen3:14b для 32 ГБ RAM или 12 ГБ VRAM.
  • 8 ГБ RAM годятся только для маленьких моделей и короткого контекста. На 16 ГБ без GPU 7B-модель обычно работает, но чат ощущается медленным.
  • RTX 3060 12 ГБ остается практичным минимумом для комфортных 7B-14B моделей, если модель и KV-cache помещаются в VRAM.
  • AMD iGPU/Ryzen AI в Ollama нужно проверять по актуальным ROCm/Vulkan docs, потому что поддержка зависит от ОС, драйвера и конкретного чипа.
  • Open WebUI удобен для браузерного чата и RAG, но чаще всего ломается не модель, а адрес Ollama внутри Docker-сети.
  • Локальная модель не равна ChatGPT: она хороша для приватных документов, кода, черновиков и автоматизаций, но качество зависит от выбранной модели и промпта.

Быстрый ответ: какую модель пробовать первой

Ваш компьютер Что запускать первым Ожидание по ощущениям Что проверить
8 ГБ RAM, без GPU phi4-mini простые ответы, короткий контекст чтобы не включался своп
16 ГБ RAM, без GPU qwen2.5:7b или qwen3:8b работает, но не как быстрый чат ollama ps, нагрузка CPU, RAM
32 ГБ RAM, без GPU 7B-14B Q4 годится для документов и черновиков температура, своп, длина контекста
RTX 3060 12 ГБ 7B-14B Q4/Q5 комфортный интерактивный режим помещается ли модель целиком в VRAM
Apple Silicon 16+ ГБ 7B-14B Q4 часто комфортно для домашнего использования единая память и размер контекста
Ryzen AI / Radeon 7B-14B после проверки драйвера зависит от ROCm/Vulkan пути список поддерживаемых GPU в Ollama docs

Практическое правило: размер файла модели не равен всей памяти, которая нужна в работе. Добавляйте запас на runtime, контекст и KV-cache. Если модель 9 ГБ, то 12 ГБ VRAM может хватить для коротких задач, но длинный контекст или параллельные запросы легко вытолкнут часть работы на CPU.

Наши замеры: ориентиры, а не гарантия

Условия: Ollama, Ubuntu 22.04/24.04 в зависимости от машины, генерация около 200 токенов, 5 прогонов после прогрева. Цифры нужны для выбора класса железа, а не для спора о каждом токене в секунду: версия модели, quant, драйвер, context length и температура меняют результат.

Железо Модель Скорость в нашем тесте Практический вывод
Intel N100, 8 ГБ RAM Phi-4-mini 3.8B 5-6 ток/с терпимо для коротких вопросов
Intel N100, 16 ГБ RAM Qwen2.5 7B Q4 2-3 ток/с лучше для фоновых задач, не для диалога
i7-12700H, 16 ГБ RAM, без GPU Qwen2.5 7B Q4 3-4 ток/с документ можно обработать, чат медленный
Ryzen 5 5600X + RTX 3060 12 ГБ Qwen2.5 7B Q4 40+ ток/с быстрый интерактивный чат
Ryzen 5 5600X + RTX 3060 12 ГБ Qwen2.5/Qwen3 14B Q4 20+ ток/с рабочий уровень для кода и документов
Ryzen AI 9 HX, 32 ГБ единой памяти 7B-14B Q4 18-28 ток/с хороший домашний сервер, если драйверный путь стабилен

Важная деталь из практики: "модель запустилась" и "моделью приятно пользоваться" - разные состояния. На N100 7B-модель отвечает, но 100-словный ответ может занять десятки секунд. Для личного ассистента это быстро надоедает; для ночной обработки заметок или документов терпимо.

Как поставить нейросеть на компьютер за 15 минут

1. Установить Ollama

На Linux официальный способ установки выглядит так:

curl -fsSL https://ollama.com/install.sh | sh

Проверка:

ollama -v
ollama run phi4-mini

На Windows и macOS лучше брать установщик с сайта Ollama. Если у вас NVIDIA GPU на Windows и вы хотите Linux-стек, проверяйте CUDA в WSL2 по документации NVIDIA/Microsoft, а не по случайному гайду: внутри WSL не нужно ставить обычный Linux-драйвер NVIDIA вместо Windows-драйвера.

2. Выбрать модель под память

# 8 ГБ RAM
ollama run phi4-mini

# 16 ГБ RAM или RTX 3060
ollama run qwen2.5:7b

# 32 ГБ RAM или 12+ ГБ VRAM
ollama run qwen3:14b

Официальная библиотека Ollama показывает размеры моделей и варианты тегов. Например, у Qwen2.5 есть 7B и 14B варианты, а у Qwen3 - 8B, 14B, 30B и крупнее. Не начинайте с 30B/70B на обычном ПК: сначала добейтесь стабильного 7B-14B.

3. Проверить, где реально считается модель

После запуска модели выполните:

ollama ps
nvidia-smi
free -h

Что важно увидеть:

  • модель загружена не только в CPU;
  • RAM не ушла в swap;
  • в nvidia-smi есть процесс Ollama, если вы рассчитывали на NVIDIA GPU;
  • context length не завышен "на всякий случай".

На практике большая часть жалоб "Ollama медленный" сводится к двум причинам: модель не помещается в VRAM/RAM или Ollama/Open WebUI обращается не к тому серверу.

Open WebUI: когда нужен браузерный интерфейс

Если нужен интерфейс как у ChatGPT, история чатов, загрузка документов и пользователи, ставят Open WebUI. Базовая Docker-команда для подключения к уже установленному Ollama:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  -v open-webui:/app/backend/data \
  --name open-webui \
  --restart always \
  ghcr.io/open-webui/open-webui:main

Если модели не видны, не переустанавливайте всё подряд. Сначала проверьте:

curl http://localhost:11434/api/tags
docker logs --tail=80 open-webui

В Linux Docker host.docker.internal иногда не резолвится без --add-host, а в некоторых сетевых схемах работает адрес bridge-шлюза вроде 172.17.0.1:11434. Это не факт о модели, это обычная Docker-сеть. В GitHub Discussions и Reddit Open WebUI такие кейсы повторяются регулярно, поэтому мы сразу закладываем проверку URL в чек-лист внедрения.

LM Studio: когда проще не трогать Docker

LM Studio полезен, если вам нужен настольный интерфейс, быстрый подбор GGUF-моделей и ручной GPU offload без настройки сервера. По официальным требованиям LM Studio: на Windows x64 нужен CPU с AVX2, рекомендуется минимум 16 ГБ RAM и 4 ГБ dedicated VRAM; на macOS поддерживается Apple Silicon и рекомендуется 16+ ГБ RAM.

Где LM Studio практичнее Ollama:

  • пользователь не хочет командную строку;
  • нужно быстро сравнить quant-варианты одной модели;
  • на ноутбуке или mini-PC хочется вручную двигать GPU offload;
  • серверный доступ по сети не нужен.

Где Ollama/Open WebUI практичнее:

  • нужен API на localhost:11434;
  • модель должна работать как сервис;
  • нужен Telegram-бот, RAG, интеграция с Home Assistant или внутренними инструментами;
  • несколько устройств должны ходить к одному домашнему серверу.

Таблица рисков перед покупкой железа

Риск Как проявляется Почему возникает Что делать
Модель ушла на CPU скорость падает до 1-4 ток/с не хватило VRAM или драйвер не подхватился смотреть ollama ps, nvidia-smi, логи Ollama
Своп на 16 ГБ RAM ПК "завис", браузер тормозит модель + контекст + система не помещаются брать меньшую модель или уменьшать context length
Open WebUI не видит модели пустой список моделей неверный OLLAMA_BASE_URL из контейнера проверить /api/tags с хоста и из Docker-сети
AMD GPU не ускоряет CPU загружен, GPU простаивает ROCm/Vulkan поддержка зависит от чипа и ОС сверить GPU с Ollama hardware support и ROCm docs
Слишком длинный контекст сначала быстро, потом резко медленно KV-cache съедает память не ставить 32K/128K без нужды
Ожидание "как ChatGPT" ответы хуже в сложных задачах локальная 7B-14B модель меньше облачных флагманов подбирать модель под задачу, хранить сложные задачи для облака

Чек-лист перед установкой

  1. Запишите железо: CPU, RAM, GPU, объём VRAM, ОС.
  2. Выберите одну стартовую модель, а не пять сразу.
  3. Оставьте 20-30% памяти в запасе под систему и контекст.
  4. После первого ответа проверьте ollama ps, nvidia-smi или монитор ресурсов.
  5. Не увеличивайте context length, пока не измерили базовую скорость.
  6. Для Open WebUI сначала проверьте curl http://localhost:11434/api/tags, потом запускайте контейнер.
  7. Если нужен доступ с телефона, продумайте локальную сеть, пароль и резервное копирование истории.

Что умеет AI Home Server

AI Home Server - это готовая конфигурация домашнего сервера с локальной нейросетью. Мы ставим Ollama, Open WebUI, Telegram-бота и базовые домашние сервисы, а модель подбираем под конкретное железо, чтобы сервер не превращался в "запустилось, но пользоваться невозможно".

Функция Самостоятельная установка AI Home Server
Ollama и модели ставите и подбираете сами предустановлено
Open WebUI Docker, сеть, volume, update настроено
Telegram-доступ отдельная разработка включается под ваш сценарий
Home Assistant / Jellyfin / Syncthing отдельная настройка можно включить в сборку
Диагностика GPU/RAM разбираетесь по логам проверяем при сборке
Время до первого теста 30-90 минут, если всё штатно после подключения к сети

Стоимость базовой сборки: 30 000 ₽. Конфигурацию лучше обсуждать после ответа на три вопроса: какие документы обрабатываются, нужен ли доступ с телефона и сколько пользователей будут обращаться к серверу одновременно.

Часто задаваемые вопросы

Можно ли запустить нейросеть без видеокарты? Да, но комфорт зависит от размера модели. На 8 ГБ RAM начинайте с маленьких моделей вроде Phi-4-mini. На 16 ГБ RAM 7B-модель обычно запускается, но для живого диалога без ожидания лучше GPU или 32 ГБ единой памяти.

Какая видеокарта нужна для локальной нейросети? Минимально разумный вариант для 2026 - NVIDIA с 8-12 ГБ VRAM. RTX 3060 12 ГБ хороша именно объёмом памяти. 8 ГБ VRAM подойдут для 7B-моделей и короткого контекста, но 14B уже часто требует компромиссов.

Локальная нейросеть работает без интернета? После установки и загрузки модели - да, для обычной генерации интернет не нужен. Но первая загрузка моделей, обновления, web search и облачные модели требуют сети.

Почему модель сначала отвечала быстро, а потом стала медленной? Частые причины: вырос контекст, начался своп, GPU занята другой задачей, модель частично ушла на CPU или Open WebUI отправляет запросы не туда. Начинайте диагностику с ollama ps, логов и проверки памяти.

Чем локальная модель хуже облачной? 7B-14B модели хорошо закрывают приватные черновики, резюме документов, кодовые подсказки и простые агенты. В сложном многошаговом рассуждении, редких фактах и длинных задачах облачные флагманы всё ещё часто сильнее. Поэтому честная схема - локально обрабатывать приватное и рутинное, облако оставлять для задач, где качество важнее автономности.

Что выбрать: Ollama, Open WebUI или LM Studio? Ollama - если нужен локальный API и сервер. Open WebUI - если нужен браузерный интерфейс поверх Ollama. LM Studio - если нужен настольный интерфейс и быстрый ручной подбор моделей без Docker.

Смотрите также

Хотите локальную нейросеть на компьютере или отдельном mini-PC без недели экспериментов с драйверами, Docker и моделями? Напишите в Telegram: @onoutnoxon - подберём конфигурацию под ваши задачи и покажем, какие модели будут работать комфортно.

Александр Руин, основатель habab.ru. По нашим замерам на четырёх конфигурациях, апрель 2026. Обновлено: 2026-05-05. Материал обновлён с использованием AI-инструмента для структурирования, но факты и формулировки сверены вручную по первичным источникам и практическим обсуждениям.

Источники: - Ollama Linux docs: https://docs.ollama.com/linux - Ollama API docs: https://docs.ollama.com/api/introduction - Ollama hardware support / GPU docs: https://docs.ollama.com/gpu - Ollama model library: https://ollama.com/library/qwen3 и https://ollama.com/library/qwen2.5 - Open WebUI Quick Start: https://docs.openwebui.com/getting-started/quick-start/ - LM Studio system requirements: https://lmstudio.ai/docs/app/system-requirements - NVIDIA CUDA on WSL User Guide: https://docs.nvidia.com/cuda/wsl-user-guide/index.html - AMD ROCm on Radeon and Ryzen docs: https://rocm.docs.amd.com/projects/radeon-ryzen/en/latest/ - Практические сигналы проблем: Ollama GitHub issue про CPU fallback https://github.com/ollama/ollama/issues/14258, Open WebUI discussion про OLLAMA_BASE_URL https://github.com/open-webui/open-webui/discussions/2285, Reddit LocalLLaMA обсуждения RTX 3060 12 ГБ https://www.reddit.com/r/LocalLLaMA/comments/1qz6w36/what_models_are_you_running_on_rtx_3060_12gb_in/

О сервисе "AI Home Server"

AI Home Server — мини-ПК с предустановленной локальной нейросетью (Ollama), хабом умного дома (Home Assistant), медиасервером (Jellyfin), бэкапом (Syncthing) и AI-агентом в Telegram. Подключаешь к питанию и интернету — работает из коробки.

Ключевые преимущества:

  • Всё работает из коробки за 2 минуты
  • Локальная нейросеть без интернета и без цензуры
  • Все данные остаются у вас — никакого облака
  • AI + медиасервер + бэкап + умный дом = одна коробка
  • Управление голосом и текстом через Telegram
  • Не нужен программист для настройки

Для кого подходит:

Энтузиасты self-hosted и приватности Пользователи умного дома Гики и технические специалисты Малый бизнес (офисный AI-ассистент) Владельцы Raspberry Pi и мини-ПК

Сценарии использования:

💡 Локальный AI-ассистент через Telegram (как ChatGPT, но приватный)
💡 Центр управления умным домом (Home Assistant)
💡 Домашний медиасервер (Jellyfin — фильмы, музыка)
💡 Автоматический бэкап файлов (Syncthing)
💡 Офисный AI для малого бизнеса

📰 Промо-статьи наших решений

Изучите детальные обзоры наших технологических решений для различных отраслей:

🚀 Работаю до результата

Работаю до результата и бизнес-ценности, быстро корректирую подходы в процессе. Использую современный стек для качественного и быстрого решения задач.