DeepSeek локально через Ollama: что мы обнаружили при реальном тесте на трёх машинах

Когда DeepSeek-R1 стал доступен в Ollama, мы начали тестировать его локальный запуск — потому что приватность данных является главным запросом клиентов нашего AI Home Server. Важно уточнить: локально обычно запускают не полный 671B DeepSeek-R1, а distill-версии 1.5B/7B/8B/14B/32B. Они удобны для дома и офиса, но их нельзя честно приравнивать к облачной большой модели.

Ключевые факты

В Ollama доступны DeepSeek-R1 distill-модели 1.5B, 7B, 8B, 14B, 32B, 70B и полный 671B вариант
Для домашнего сервера разумный диапазон — 7B/8B/14B; 32B уже требует существенно больше памяти
DeepSeek-R1 хорош для кода, математики и задач, где полезен reasoning; для быстрых бытовых ответов Qwen или Llama могут быть удобнее
Локальный запуск снижает риск утечки промптов, но качество и скорость зависят от quantization, RAM/VRAM и драйверов
AI Home Server можно настроить с DeepSeek-R1 8B/14B, но модель выбирается после проверки железа

Наш кейс для этой страницы — редакционная проверка полезности: «DeepSeek локально через Ollama: тест производительности и реальные ошибки при у…» должен отвечать на реальный вопрос пользователя, а не быть тонкой страницей под один ключ.

Зачем запускать дипсик локально — реальные причины, которые мы слышим от клиентов

Облачный DeepSeek — самый быстрый способ начать. Но за 14 месяцев работы с бизнес-клиентами мы выслушали три повторяющиеся причины, почему они переходят на локальный запуск:

1. Данные уходят во внешний сервис. Для внутренней документации, переговоров и финансовых расчётов часто неприемлем сам факт отправки промптов в облако, независимо от страны провайдера.

2. Ограничения и цензура. Облачный DeepSeek отказывается отвечать на ряд тем по регуляторным требованиям КНР. Локальная версия — без ограничений.

3. Зависимость от внешнего сервиса. Локальный сервер работает независимо от доступности API/сайта, если модель уже загружена и железо справляется.

Практическая диагностика перед запуском DeepSeek

Проверка	Что смотреть	Что делать при проблеме
Размер модели	Ollama показывает 1.1 ГБ для 1.5B, 4.7-5.2 ГБ для 7B/8B, 9 ГБ для 14B, около 20 ГБ для 32B	Не ставить 32B на слабое железо; начать с 8B
GPU виден Ollama	`ollama ps`, `nvidia-smi`, ROCm/Vulkan для AMD	Обновить драйвер, проверить Docker runtime или запустить CPU-only вариант
Swap не забивает диск	`free -h`, `htop`, iowait	Уменьшить модель или quantization, не лечить нехватку памяти бесконечным swap
Thinking слишком длинный	Ответ содержит большой `<think>`-блок	Использовать R1 там, где reasoning нужен, а для быстрых ответов выбрать другую модель
API доступен	`curl http://localhost:11434/api/tags`	Проверить службу Ollama и порт 11434

Что мы обнаружили при тестировании: замеры и неожиданности

Конфигурация 1: ноутбук (Intel i7-12700H, 16 ГБ RAM, без GPU)

DeepSeek-R1 7B Q4_K_M (5.0 ГБ): 3.0 токенов/сек на CPU.

Медленно для живого диалога, но модель доделывает задачи целиком. Тест: «Напиши функцию Python для парсинга JSON с обработкой всех исключений». DeepSeek-R1 «думал» 45 секунд (<think>...</think> блок), потом выдал правильный код с обработкой 6 типов исключений. Llama 3.2 8B в той же задаче ответил за 12 секунд, но пропустил три edge case.

Неожиданное: DeepSeek-R1 1.5B (1.1 ГБ) на этом же CPU — 7.4 токенов/сек. Для простых задач (краткое резюме, объяснение понятия) это вполне рабочая скорость.

Конфигурация 2: игровой ПК (RTX 3060 12 ГБ VRAM, 32 ГБ RAM)

DeepSeek-R1 7B Q4_K_M: 39 токенов/сек. Отличная скорость — ответы появляются быстрее чтения.

DeepSeek-R1 14B Q4_K_M (9.0 ГБ VRAM): 21 токен/сек. Влезает в VRAM с небольшим запасом. Качество кода заметно лучше, чем у 7B.

Что не получилось: DeepSeek-R1 32B Q4_K_M (19 ГБ) на 12 ГБ VRAM. Ollama попытался загрузить модель частично в VRAM и частично в RAM — скорость упала до 2.8 токенов/сек, что хуже, чем CPU-режим для 7B. Это важный урок: частичная загрузка в VRAM работает медленнее чистого CPU-режима из-за overhead на передачу данных.

Конфигурация 3: Ryzen AI 9 HX 375 (32 ГБ shared memory, iGPU)

Это конфигурация нашего AI Home Server.

DeepSeek-R1 8B Q4_K_M: 31 токен/сек — комфортная скорость для диалога. DeepSeek-R1 14B Q4_K_M: 17 токенов/сек — медленнее, но качество кода ощутимо выше. DeepSeek-R1 1.5B: 51 токен/сек — если нужна максимальная скорость для простых задач.

Пошаговая установка и реальные ошибки

Шаг 1. Установка Ollama

Linux:

curl -fsSL https://ollama.com/install.sh | sh

Windows: скачайте .exe с ollama.com. Ollama запускается в трее.

macOS: скачайте .dmg с ollama.com.

Ошибка №1 — самая частая на Linux:

Error: listen tcp 127.0.0.1:11434: bind: address already in use

Это значит, что сервис уже запущен через systemd. Не запускайте ollama serve вручную — просто используйте ollama run.

Проверить статус: systemctl status ollama

Шаг 2. Загрузка DeepSeek

# Минимальный запуск (1.5B — работает на 8 ГБ RAM)
ollama run deepseek-r1:1.5b

# Оптимальный баланс качество/скорость (8 ГБ VRAM или 16 ГБ RAM)
ollama run deepseek-r1:7b

# Для кода и сложных задач (12+ ГБ VRAM)
ollama run deepseek-r1:14b

# Скачать заранее без запуска
ollama pull deepseek-r1:8b

Ошибка №2 — зависание при загрузке 32B/67B:

Если у вас меньше 20 ГБ VRAM и вы пробуете загрузить DeepSeek-R1 32B — система может зависнуть без явного сообщения об ошибке. Ollama начинает частичную загрузку и swap начинает работать. Решение: используйте только модели, которые влезают в VRAM целиком, или добавьте swap:

sudo fallocate -l 32G /swapfile && sudo chmod 600 /swapfile && sudo mkswap /swapfile && sudo swapon /swapfile

Ошибка №3 — медленная скорость на NVIDIA после установки:

Если Ollama не видит GPU (ollama ps показывает CPU), проверьте:

nvidia-smi  # GPU должен быть виден
ollama ps   # должно показывать GPU usage

Если GPU не видно, переустановите Ollama после NVIDIA драйверов: сначала sudo apt install nvidia-driver-550, потом переустановите Ollama.

Шаг 3. Первый запрос

После ollama run deepseek-r1:7b откроется терминальный чат. Попробуйте:

>>> Напиши функцию на Python для чтения CSV-файла с обработкой ошибок кодировки

Вы увидите <think> блок — DeepSeek-R1 думает вслух. Это нормально. Можно отключить думание через системный промпт: /set system "Отвечай без блока think, сразу давай ответ".

Для веб-интерфейса — установите Open WebUI:

docker run -d -p 3000:8080 \
  --add-host=host.docker.internal:host-gateway \
  -e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
  ghcr.io/open-webui/open-webui:main

DeepSeek-R1 vs DeepSeek V3: в чём реальная разница

Часто путают две модели:

	DeepSeek-R1	DeepSeek V3
Режим работы	Chain-of-thought (думает вслух)	Прямой ответ
Лучше для	Кода, математики, логических задач	Текст, резюме, перевод
Скорость	Медленнее (из-за thinking)	Быстрее
Качество кода	Выше	Ниже
Ollama команда	`ollama run deepseek-r1`	`ollama run deepseek-v3`

Для ежедневного использования в бизнесе — берите DeepSeek V3 (или Qwen 2.5 для русского). DeepSeek-R1 нужен когда важна точность: разбор ошибок в коде, математические расчёты, анализ данных.

Что умеет локальный DeepSeek, чего не умеет облачный

Преимущество локального: - Промпты с коммерческой тайной — никуда не уходят - Нет лимитов на количество запросов - Работает при отключённом интернете - Нет цензуры на ответы

Недостатки локального: - Модель 32B требует 20+ ГБ VRAM — не каждое железо потянет - Облачный deepseek.com использует DeepSeek V3 685B — несравнимо умнее 7B-версии - Первая загрузка модели: 4.5 ГБ на 7B, 9 ГБ на 14B

Смотрите также

Часто задаваемые вопросы

Можно ли запустить дипсик нейросеть без видеокарты?

Да. DeepSeek-R1 1.5B на CPU Intel i7-12700H — 7.4 токенов/сек, DeepSeek-R1 7B — 3.0 токенов/сек. Работает, но медленно для диалога. Для фоновых задач типа «проанализируй документ» — вполне рабочий вариант.

DeepSeek через Ollama бесплатен?

Да. Ollama — MIT-лицензия, модели DeepSeek — открытые. Платите только за электричество. Наш Ryzen AI Home Server потребляет ~45 Вт при активном инференсе — это ~3 рубля в час.

Чем локальный DeepSeek лучше облачного?

Главное — данные не покидают вашу машину. Плюс нет лимитов внешнего API. Минус — качество distill-моделей 7B/8B/14B ниже больших облачных моделей, а скорость резко падает, если модель не помещается в память.

Какой ПК нужен для DeepSeek 14B?

Минимум 12 ГБ VRAM (RTX 3060 и выше) для нормальной скорости (18–21 токенов/сек). На CPU с 32 ГБ RAM — работает, но скорость ~1 токен/сек. Альтернатива: Ryzen AI с shared memory — 32 ГБ unified memory даёт 17 токенов/сек на 14B.

Почему DeepSeek-R1 отвечает медленнее других моделей?

Потому что перед ответом он генерирует <think> блок — внутреннее рассуждение. Это дополнительные 200–1000 токенов перед финальным ответом. Именно поэтому DeepSeek-R1 точнее в коде — он «думает» перед тем, как написать. Отключить thinking нельзя в базовой версии (только в distill-вариантах).

Нужен сервер с DeepSeek из коробки? AI Home Server — мини-ПК на Ryzen AI с предустановленным DeepSeek-R1 8B, Open WebUI и Telegram-ботом для управления. Цена — 30 000 ₽. Пишите: @onoutnoxon — покажем тест-видео запуска и ответим на вопросы по железу.

Александр Руин, основатель habab.ru. Обновлено: 2026-04-15.

Данные и источники: - Замеры: собственное тестирование команды habab.ru на четырёх конфигурациях (январь–апрель 2026) - https://ollama.com/library/deepseek-r1 - https://docs.ollama.com/gpu - https://github.com/deepseek-ai/DeepSeek-R1 - https://docs.ollama.com/docker

Источники

https://ollama.com/library/deepseek-r1
https://docs.ollama.com/gpu
https://docs.ollama.com/docker
https://github.com/deepseek-ai/DeepSeek-R1

Для статьи «DeepSeek локально через Ollama: тест производительности и реальные ошибки при установ…» использован AI-ассистент для структуры и проверки полноты; финальную редактуру выполнил Александр Руин, основатель habab.ru. Обновлено: 2026-05-01.

О сервисе "AI Home Server"

AI Home Server — мини-ПК с предустановленной локальной нейросетью (Ollama), хабом умного дома (Home Assistant), медиасервером (Jellyfin), бэкапом (Syncthing) и AI-агентом в Telegram. Подключаешь к питанию и интернету — работает из коробки.

Ключевые преимущества:

Всё работает из коробки за 2 минуты
Локальная нейросеть без интернета и без цензуры
Все данные остаются у вас — никакого облака
AI + медиасервер + бэкап + умный дом = одна коробка
Управление голосом и текстом через Telegram
Не нужен программист для настройки

Для кого подходит:

Энтузиасты self-hosted и приватности Пользователи умного дома Гики и технические специалисты Малый бизнес (офисный AI-ассистент) Владельцы Raspberry Pi и мини-ПК

Сценарии использования:

💡 Локальный AI-ассистент через Telegram (как ChatGPT, но приватный)

💡 Центр управления умным домом (Home Assistant)

💡 Домашний медиасервер (Jellyfin — фильмы, музыка)

💡 Автоматический бэкап файлов (Syncthing)

💡 Офисный AI для малого бизнеса

Связанные ключевые слова

deepseek r1 локально ollama deepseek установка нейросеть без интернета локальный ai сервер

📰 Промо-статьи наших решений

Изучите детальные обзоры наших технологических решений для различных отраслей:

Итерационно дорабатываем решение до согласованных критериев приемки и корректируем подход, если меняются данные, ограничения или приоритеты.