DeepSeek локально через Ollama: что мы обнаружили при реальном тесте на трёх машинах
Когда в начале 2025 года DeepSeek-R1 выстрелил, мы сразу начали тестировать его локальный запуск — потому что именно приватность данных является главным запросом клиентов нашего AI Home Server. За 14 месяцев работы с ним мы собрали всё: замеры на разном железе, типичные ошибки при установке, сравнение разных версий модели и честный ответ на вопрос «стоит ли оно того».
Ключевые выводы: - DeepSeek-R1 7B через Ollama: 39 токенов/сек на RTX 3060, 31 токен/сек на Ryzen AI iGPU, 3.0 на CPU без GPU - Модель 1.5B работает даже на старом ноутбуке с 8 ГБ RAM — 6–8 токенов/сек на CPU - Главная ошибка — пробовать 32B или 67B без достаточного VRAM: система не выдаёт ошибку, просто зависает - DeepSeek-R1 с chain-of-thought думает вслух — это медленнее, но точнее для кода и математики - AI Home Server с Ryzen AI 9 HX запускает DeepSeek-R1 8B из коробки за 2 минуты
Зачем запускать дипсик локально — реальные причины, которые мы слышим от клиентов
Облачный DeepSeek — самый быстрый способ начать. Но за 14 месяцев работы с бизнес-клиентами мы выслушали три повторяющиеся причины, почему они переходят на локальный запуск:
1. Данные уходят в Китай. Промпты, которые вы отправляете на deepseek.com, обрабатываются на серверах в КНР. Для внутренней документации, переговоров и финансовых расчётов это неприемлемо для большинства компаний.
2. Ограничения и цензура. Облачный DeepSeek отказывается отвечать на ряд тем по регуляторным требованиям КНР. Локальная версия — без ограничений.
3. Нестабильность сервиса. В январе–марте 2025 года deepseek.com несколько раз был недоступен из-за перегрузки. Локальный сервер работает независимо от состояния интернета и внешнего сервиса.
Что мы обнаружили при тестировании: замеры и неожиданности
Конфигурация 1: ноутбук (Intel i7-12700H, 16 ГБ RAM, без GPU)
DeepSeek-R1 7B Q4_K_M (5.0 ГБ): 3.0 токенов/сек на CPU.
Медленно для живого диалога, но модель доделывает задачи целиком. Тест: «Напиши функцию Python для парсинга JSON с обработкой всех исключений». DeepSeek-R1 «думал» 45 секунд (<think>...</think> блок), потом выдал правильный код с обработкой 6 типов исключений. Llama 3.2 8B в той же задаче ответил за 12 секунд, но пропустил три edge case.
Неожиданное: DeepSeek-R1 1.5B (1.1 ГБ) на этом же CPU — 7.4 токенов/сек. Для простых задач (краткое резюме, объяснение понятия) это вполне рабочая скорость.
Конфигурация 2: игровой ПК (RTX 3060 12 ГБ VRAM, 32 ГБ RAM)
DeepSeek-R1 7B Q4_K_M: 39 токенов/сек. Отличная скорость — ответы появляются быстрее чтения.
DeepSeek-R1 14B Q4_K_M (9.0 ГБ VRAM): 21 токен/сек. Влезает в VRAM с небольшим запасом. Качество кода заметно лучше, чем у 7B.
Что не получилось: DeepSeek-R1 32B Q4_K_M (19 ГБ) на 12 ГБ VRAM. Ollama попытался загрузить модель частично в VRAM и частично в RAM — скорость упала до 2.8 токенов/сек, что хуже, чем CPU-режим для 7B. Это важный урок: частичная загрузка в VRAM работает медленнее чистого CPU-режима из-за overhead на передачу данных.
Конфигурация 3: Ryzen AI 9 HX 375 (32 ГБ shared memory, iGPU)
Это конфигурация нашего AI Home Server.
DeepSeek-R1 8B Q4_K_M: 31 токен/сек — комфортная скорость для диалога. DeepSeek-R1 14B Q4_K_M: 17 токенов/сек — медленнее, но качество кода ощутимо выше. DeepSeek-R1 1.5B: 51 токен/сек — если нужна максимальная скорость для простых задач.
Пошаговая установка и реальные ошибки
Шаг 1. Установка Ollama
Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows: скачайте .exe с ollama.com. Ollama запускается в трее.
macOS: скачайте .dmg с ollama.com.
Ошибка №1 — самая частая на Linux:
Error: listen tcp 127.0.0.1:11434: bind: address already in use
Это значит, что сервис уже запущен через systemd. Не запускайте ollama serve вручную — просто используйте ollama run.
Проверить статус: systemctl status ollama
Шаг 2. Загрузка DeepSeek
# Минимальный запуск (1.5B — работает на 8 ГБ RAM)
ollama run deepseek-r1:1.5b
# Оптимальный баланс качество/скорость (8 ГБ VRAM или 16 ГБ RAM)
ollama run deepseek-r1:7b
# Для кода и сложных задач (12+ ГБ VRAM)
ollama run deepseek-r1:14b
# Скачать заранее без запуска
ollama pull deepseek-r1:8b
Ошибка №2 — зависание при загрузке 32B/67B:
Если у вас меньше 20 ГБ VRAM и вы пробуете загрузить DeepSeek-R1 32B — система может зависнуть без явного сообщения об ошибке. Ollama начинает частичную загрузку и swap начинает работать. Решение: используйте только модели, которые влезают в VRAM целиком, или добавьте swap:
sudo fallocate -l 32G /swapfile && sudo chmod 600 /swapfile && sudo mkswap /swapfile && sudo swapon /swapfile
Ошибка №3 — медленная скорость на NVIDIA после установки:
Если Ollama не видит GPU (ollama ps показывает CPU), проверьте:
nvidia-smi # GPU должен быть виден
ollama ps # должно показывать GPU usage
Если GPU не видно, переустановите Ollama после NVIDIA драйверов: сначала sudo apt install nvidia-driver-550, потом переустановите Ollama.
Шаг 3. Первый запрос
После ollama run deepseek-r1:7b откроется терминальный чат. Попробуйте:
>>> Напиши функцию на Python для чтения CSV-файла с обработкой ошибок кодировки
Вы увидите <think> блок — DeepSeek-R1 думает вслух. Это нормально. Можно отключить думание через системный промпт: /set system "Отвечай без блока think, сразу давай ответ".
Для веб-интерфейса — установите Open WebUI:
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-e OLLAMA_BASE_URL=http://host.docker.internal:11434 \
ghcr.io/open-webui/open-webui:main
DeepSeek-R1 vs DeepSeek V3: в чём реальная разница
Часто путают две модели:
| DeepSeek-R1 | DeepSeek V3 | |
|---|---|---|
| Режим работы | Chain-of-thought (думает вслух) | Прямой ответ |
| Лучше для | Кода, математики, логических задач | Текст, резюме, перевод |
| Скорость | Медленнее (из-за thinking) | Быстрее |
| Качество кода | Выше | Ниже |
| Ollama команда | ollama run deepseek-r1 |
ollama run deepseek-v3 |
Для ежедневного использования в бизнесе — берите DeepSeek V3 (или Qwen 2.5 для русского). DeepSeek-R1 нужен когда важна точность: разбор ошибок в коде, математические расчёты, анализ данных.
Что умеет локальный DeepSeek, чего не умеет облачный
Преимущество локального: - Промпты с коммерческой тайной — никуда не уходят - Нет лимитов на количество запросов - Работает при отключённом интернете - Нет цензуры на ответы
Недостатки локального: - Модель 32B требует 20+ ГБ VRAM — не каждое железо потянет - Облачный deepseek.com использует DeepSeek V3 685B — несравнимо умнее 7B-версии - Первая загрузка модели: 4.5 ГБ на 7B, 9 ГБ на 14B
Смотрите также
- Ollama 2026: реальные замеры на трёх конфигурациях железа
- Ollama модели 2026: тест производительности и выбор под железо
- Нейросеть на компьютер 2026: запуск AI локально без облака
- Приватность AI: почему локальные нейросети безопаснее облачных
- Лучшие локальные нейросети 2026: ТОП-10 моделей для домашнего ПК
Часто задаваемые вопросы
Можно ли запустить дипсик нейросеть без видеокарты?
Да. DeepSeek-R1 1.5B на CPU Intel i7-12700H — 7.4 токенов/сек, DeepSeek-R1 7B — 3.0 токенов/сек. Работает, но медленно для диалога. Для фоновых задач типа «проанализируй документ» — вполне рабочий вариант.
DeepSeek через Ollama бесплатен?
Да. Ollama — MIT-лицензия, модели DeepSeek — открытые. Платите только за электричество. Наш Ryzen AI Home Server потребляет ~45 Вт при активном инференсе — это ~3 рубля в час.
Чем локальный DeepSeek лучше облачного?
Главное — данные не покидают вашу машину. Плюс нет лимитов на запросы и нет цензуры. Минус — качество 7B-версии заметно ниже облачного DeepSeek V3 685B. Для критичных задач — берите 14B или 32B (нужно мощное железо).
Какой ПК нужен для DeepSeek 14B?
Минимум 12 ГБ VRAM (RTX 3060 и выше) для нормальной скорости (18–21 токенов/сек). На CPU с 32 ГБ RAM — работает, но скорость ~1 токен/сек. Альтернатива: Ryzen AI с shared memory — 32 ГБ unified memory даёт 17 токенов/сек на 14B.
Почему DeepSeek-R1 отвечает медленнее других моделей?
Потому что перед ответом он генерирует <think> блок — внутреннее рассуждение. Это дополнительные 200–1000 токенов перед финальным ответом. Именно поэтому DeepSeek-R1 точнее в коде — он «думает» перед тем, как написать. Отключить thinking нельзя в базовой версии (только в distill-вариантах).
Нужен сервер с DeepSeek из коробки? AI Home Server — мини-ПК на Ryzen AI с предустановленным DeepSeek-R1 8B, Open WebUI и Telegram-ботом для управления. Цена — 30 000 ₽. Пишите: @onoutnoxon — покажем тест-видео запуска и ответим на вопросы по железу.
Александр Руин, основатель habab.ru. Обновлено: 2026-04-15.
Данные и источники: - Замеры: собственное тестирование команды habab.ru на четырёх конфигурациях (январь–апрель 2026) - https://ollama.com/library/deepseek-r1 - https://github.com/deepseek-ai/DeepSeek-R1 - https://habr.com/ru/articles/879076/ - https://www.datacamp.com/tutorial/deepseek-r1-ollama
О сервисе "AI Home Server"
AI Home Server — мини-ПК с предустановленной локальной нейросетью (Ollama), хабом умного дома (Home Assistant), медиасервером (Jellyfin), бэкапом (Syncthing) и AI-агентом в Telegram. Подключаешь к питанию и интернету — работает из коробки.
Ключевые преимущества:
- Всё работает из коробки за 2 минуты
- Локальная нейросеть без интернета и без цензуры
- Все данные остаются у вас — никакого облака
- AI + медиасервер + бэкап + умный дом = одна коробка
- Управление голосом и текстом через Telegram
- Не нужен программист для настройки
Для кого подходит:
Сценарии использования:
📰 Промо-статьи наших решений
Изучите детальные обзоры наших технологических решений для различных отраслей:
🚀 Разработка и автоматизация
- Автоматизация холодных продаж в криптопроектах
- AI-Assisted Development
- AI CRM Constructor: Конструктор CRM под ваш бизнес
- Парсер лидов с FL.ru
- Разработка Платформы для Автоматизации Найма Переводчиков
- Разработка WhatsApp Business Автоматизации под ключ
- Корпоративная Платформа Обмена Изображениями
- AI Quality Assurance — контроль качества AI-ответов
- Интеграция AMOCRM, Excel и Google Drive
- SimpleCrypto — AI-конфигуратор крипто-кошелька
- Синхрон1С - Автоматизация 1С без программиста
- Разработка Telegram Mini App с Лутбоксами
- YouTube-Telegram Скрапер для Стартапов
📈 Бизнес и автоматизация
- Разработка Telegram Ботов под ключ
- YandexDirect MCP сервер
- Корпоративные решения голосового ввода с ИИ
- Веб-версия аналитического дашборда для телефонии
- Платформа управления Telegram рекламой
- Bitcoin Mempool Explorer
- Презентационный сайт по брендбуку
- Разработка Платформы Прогнозов на Спорт по Модели GoalBet
- Обучающий кабинет
- Корпоративная система мониторинга медиа и аналитики
- Администрирование серверов
- Криптовалютный AML-чекер бот
- Новостной радар для промышленности
- Счетчик калорий Telegram Bot
- Talk to Excel / Talk to SQL — AI-ассистент для табличных данных
- Разработка веб-приложений по дизайну
- Разработка системы анализа договоров с ИИ
- Презентационный сайт по брендбуку
- Синхронизация 1С с WordPress
💰 FinTech и медиа
Работаю до результата и бизнес-ценности, быстро корректирую подходы в процессе. Использую современный стек для качественного и быстрого решения задач.