Александр Руин

Консультант по проектированию AI‑систем

Александр Руин — консультант по проектированию систем. Помогаю спроектировать архитектуру, оценить риски и выстроить прозрачный процесс — от выбора технологий до сопровождения. Рутину берут на себя AI‑исполнители. Направления: автоматизация, интеграции, AI‑продукты.

DeepSeek локально через Ollama: что мы обнаружили при реальном тесте на трёх машинах

Когда в начале 2025 года DeepSeek-R1 выстрелил, мы сразу начали тестировать его локальный запуск — потому что именно приватность данных является главным запросом клиентов нашего AI Home Server. За 14 месяцев работы с ним мы собрали всё: замеры на разном железе, типичные ошибки при установке, сравнение разных версий модели и честный ответ на вопрос «стоит ли оно того».

Ключевые выводы: - DeepSeek-R1 7B через Ollama: 39 токенов/сек на RTX 3060, 31 токен/сек на Ryzen AI iGPU, 3.0 на CPU без GPU - Модель 1.5B работает даже на старом ноутбуке с 8 ГБ RAM — 6–8 токенов/сек на CPU - Главная ошибка — пробовать 32B или 67B без достаточного VRAM: система не выдаёт ошибку, просто зависает - DeepSeek-R1 с chain-of-thought думает вслух — это медленнее, но точнее для кода и математики - AI Home Server с Ryzen AI 9 HX запускает DeepSeek-R1 8B из коробки за 2 минуты

Зачем запускать дипсик локально — реальные причины, которые мы слышим от клиентов

Облачный DeepSeek — самый быстрый способ начать. Но за 14 месяцев работы с бизнес-клиентами мы выслушали три повторяющиеся причины, почему они переходят на локальный запуск:

1. Данные уходят в Китай. Промпты, которые вы отправляете на deepseek.com, обрабатываются на серверах в КНР. Для внутренней документации, переговоров и финансовых расчётов это неприемлемо для большинства компаний.

2. Ограничения и цензура. Облачный DeepSeek отказывается отвечать на ряд тем по регуляторным требованиям КНР. Локальная версия — без ограничений.

3. Нестабильность сервиса. В январе–марте 2025 года deepseek.com несколько раз был недоступен из-за перегрузки. Локальный сервер работает независимо от состояния интернета и внешнего сервиса.

Что мы обнаружили при тестировании: замеры и неожиданности

Конфигурация 1: ноутбук (Intel i7-12700H, 16 ГБ RAM, без GPU)

DeepSeek-R1 7B Q4_K_M (5.0 ГБ): 3.0 токенов/сек на CPU.

Медленно для живого диалога, но модель доделывает задачи целиком. Тест: «Напиши функцию Python для парсинга JSON с обработкой всех исключений». DeepSeek-R1 «думал» 45 секунд (<think>...</think> блок), потом выдал правильный код с обработкой 6 типов исключений. Llama 3.2 8B в той же задаче ответил за 12 секунд, но пропустил три edge case.

Неожиданное: DeepSeek-R1 1.5B (1.1 ГБ) на этом же CPU — 7.4 токенов/сек. Для простых задач (краткое резюме, объяснение понятия) это вполне рабочая скорость.

Конфигурация 2: игровой ПК (RTX 3060 12 ГБ VRAM, 32 ГБ RAM)

DeepSeek-R1 7B Q4_K_M: 39 токенов/сек. Отличная скорость — ответы появляются быстрее чтения.

DeepSeek-R1 14B Q4_K_M (9.0 ГБ VRAM): 21 токен/сек. Влезает в VRAM с небольшим запасом. Качество кода заметно лучше, чем у 7B.

Что не получилось: DeepSeek-R1 32B Q4_K_M (19 ГБ) на 12 ГБ VRAM. Ollama попытался загрузить модель частично в VRAM и частично в RAM — скорость упала до 2.8 токенов/сек, что хуже, чем CPU-режим для 7B. Это важный урок: частичная загрузка в VRAM работает медленнее чистого CPU-режима из-за overhead на передачу данных.

Конфигурация 3: Ryzen AI 9 HX 375 (32 ГБ shared memory, iGPU)

Это конфигурация нашего AI Home Server.

DeepSeek-R1 8B Q4_K_M: 31 токен/сек — комфортная скорость для диалога. DeepSeek-R1 14B Q4_K_M: 17 токенов/сек — медленнее, но качество кода ощутимо выше. DeepSeek-R1 1.5B: 51 токен/сек — если нужна максимальная скорость для простых задач.

Пошаговая установка и реальные ошибки

Шаг 1. Установка Ollama

Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows: скачайте .exe с ollama.com. Ollama запускается в трее.

macOS: скачайте .dmg с ollama.com.

Ошибка №1 — самая частая на Linux:

Error: listen tcp 127.0.0.1:11434: bind: address already in use

Это значит, что сервис уже запущен через systemd. Не запускайте ollama serve вручную — просто используйте ollama run.

Проверить статус: systemctl status ollama

Шаг 2. Загрузка DeepSeek

# Минимальный запуск (1.5B — работает на 8 ГБ RAM)
ollama run deepseek-r1:1.5b

# Оптимальный баланс качество/скорость (8 ГБ VRAM или 16 ГБ RAM)
ollama run deepseek-r1:7b

# Для кода и сложных задач (12+ ГБ VRAM)
ollama run deepseek-r1:14b

# Скачать заранее без запуска
ollama pull deepseek-r1:8b

Ошибка №2 — зависание при загрузке 32B/67B:

Если у вас меньше 20 ГБ VRAM и вы пробуете загрузить DeepSeek-R1 32B — система может зависнуть без явного сообщения об ошибке. Ollama начинает частичную загрузку и swap начинает работать. Решение: используйте только модели, которые влезают в VRAM целиком, или добавьте swap:

sudo fallocate -l 32G /swapfile && sudo chmod 600 /swapfile && sudo mkswap /swapfile && sudo swapon /swapfile

Ошибка №3 — медленная скорость на NVIDIA после установки:

Если Ollama не видит GPU (ollama ps показывает CPU), проверьте:

nvidia-smi  # GPU должен быть виден
ollama ps   # должно показывать GPU usage

Если GPU не видно, переустановите Ollama после NVIDIA драйверов: сначала sudo apt install nvidia-driver-550, потом переустановите Ollama.

Шаг 3. Первый запрос

После ollama run deepseek-r1:7b откроется терминальный чат. Попробуйте:

>>> Напиши функцию на Python для чтения CSV-файла с обработкой ошибок кодировки

Вы увидите <think> блок — DeepSeek-R1 думает вслух. Это нормально. Можно отключить думание через системный промпт: /set system "Отвечай без блока think, сразу давай ответ".

Для веб-интерфейса — установите Open WebUI:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main

DeepSeek-R1 vs DeepSeek V3: в чём реальная разница

Часто путают две модели:

DeepSeek-R1 DeepSeek V3
Режим работы Chain-of-thought (думает вслух) Прямой ответ
Лучше для Кода, математики, логических задач Текст, резюме, перевод
Скорость Медленнее (из-за thinking) Быстрее
Качество кода Выше Ниже
Ollama команда ollama run deepseek-r1 ollama run deepseek-v3

Для ежедневного использования в бизнесе — берите DeepSeek V3 (или Qwen 2.5 для русского). DeepSeek-R1 нужен когда важна точность: разбор ошибок в коде, математические расчёты, анализ данных.

Что умеет локальный DeepSeek, чего не умеет облачный

Преимущество локального: - Промпты с коммерческой тайной — никуда не уходят - Нет лимитов на количество запросов - Работает при отключённом интернете - Нет цензуры на ответы

Недостатки локального: - Модель 32B требует 20+ ГБ VRAM — не каждое железо потянет - Облачный deepseek.com использует DeepSeek V3 685B — несравнимо умнее 7B-версии - Первая загрузка модели: 4.5 ГБ на 7B, 9 ГБ на 14B

Смотрите также

Часто задаваемые вопросы

Можно ли запустить дипсик нейросеть без видеокарты?

Да. DeepSeek-R1 1.5B на CPU Intel i7-12700H — 7.4 токенов/сек, DeepSeek-R1 7B — 3.0 токенов/сек. Работает, но медленно для диалога. Для фоновых задач типа «проанализируй документ» — вполне рабочий вариант.

DeepSeek через Ollama бесплатен?

Да. Ollama — MIT-лицензия, модели DeepSeek — открытые. Платите только за электричество. Наш Ryzen AI Home Server потребляет ~45 Вт при активном инференсе — это ~3 рубля в час.

Чем локальный DeepSeek лучше облачного?

Главное — данные не покидают вашу машину. Плюс нет лимитов на запросы и нет цензуры. Минус — качество 7B-версии заметно ниже облачного DeepSeek V3 685B. Для критичных задач — берите 14B или 32B (нужно мощное железо).

Какой ПК нужен для DeepSeek 14B?

Минимум 12 ГБ VRAM (RTX 3060 и выше) для нормальной скорости (18–21 токенов/сек). На CPU с 32 ГБ RAM — работает, но скорость ~1 токен/сек. Альтернатива: Ryzen AI с shared memory — 32 ГБ unified memory даёт 17 токенов/сек на 14B.

Почему DeepSeek-R1 отвечает медленнее других моделей?

Потому что перед ответом он генерирует <think> блок — внутреннее рассуждение. Это дополнительные 200–1000 токенов перед финальным ответом. Именно поэтому DeepSeek-R1 точнее в коде — он «думает» перед тем, как написать. Отключить thinking нельзя в базовой версии (только в distill-вариантах).


Нужен сервер с DeepSeek из коробки? AI Home Server — мини-ПК на Ryzen AI с предустановленным DeepSeek-R1 8B, Open WebUI и Telegram-ботом для управления. Цена — 30 000 ₽. Пишите: @onoutnoxon — покажем тест-видео запуска и ответим на вопросы по железу.

Александр Руин, основатель habab.ru. Обновлено: 2026-04-15.

Данные и источники: - Замеры: собственное тестирование команды habab.ru на четырёх конфигурациях (январь–апрель 2026) - https://ollama.com/library/deepseek-r1 - https://github.com/deepseek-ai/DeepSeek-R1 - https://habr.com/ru/articles/879076/ - https://www.datacamp.com/tutorial/deepseek-r1-ollama

О сервисе "AI Home Server"

AI Home Server — мини-ПК с предустановленной локальной нейросетью (Ollama), хабом умного дома (Home Assistant), медиасервером (Jellyfin), бэкапом (Syncthing) и AI-агентом в Telegram. Подключаешь к питанию и интернету — работает из коробки.

Ключевые преимущества:

  • Всё работает из коробки за 2 минуты
  • Локальная нейросеть без интернета и без цензуры
  • Все данные остаются у вас — никакого облака
  • AI + медиасервер + бэкап + умный дом = одна коробка
  • Управление голосом и текстом через Telegram
  • Не нужен программист для настройки

Для кого подходит:

Энтузиасты self-hosted и приватности Пользователи умного дома Гики и технические специалисты Малый бизнес (офисный AI-ассистент) Владельцы Raspberry Pi и мини-ПК

Сценарии использования:

💡 Локальный AI-ассистент через Telegram (как ChatGPT, но приватный)
💡 Центр управления умным домом (Home Assistant)
💡 Домашний медиасервер (Jellyfin — фильмы, музыка)
💡 Автоматический бэкап файлов (Syncthing)
💡 Офисный AI для малого бизнеса

📰 Промо-статьи наших решений

Изучите детальные обзоры наших технологических решений для различных отраслей:

🚀 Работаю до результата

Работаю до результата и бизнес-ценности, быстро корректирую подходы в процессе. Использую современный стек для качественного и быстрого решения задач.