Александр Руин

Консультант по проектированию AI‑систем

Александр Руин — консультант по проектированию систем. Помогаю спроектировать архитектуру, оценить риски и выстроить прозрачный процесс — от выбора технологий до сопровождения. Рутину берут на себя AI‑исполнители. Направления: автоматизация, интеграции, AI‑продукты.

Ollama модели 2026: как выбрать модель под ваше железо, русский язык и код

Если коротко: ollama модели нельзя выбирать только по месту в leaderboard. Для домашнего AI-сервера важнее четыре вопроса: влезает ли модель в RAM/VRAM с нужным контекстом, хватает ли скорости для диалога, подходит ли лицензия под ваш сценарий и не ломается ли качество на ваших русскоязычных или кодовых задачах.

Мы обновили эту статью 5 мая 2026 года: сверили Ollama library/docs, карточки моделей на Hugging Face, LMArena, Hugging Face Open LLM Leaderboard и живые обсуждения в Reddit LocalLLaMA/Ollama и GitHub issues Ollama. Форумы использованы только как сигнал практических проблем, а точные факты брались из документации, карточек моделей и наших полевых замеров.

Ollama модели реальные замеры токенов/сек и как выбрать под ваше железо

Ключевые тезисы

Для большинства домашних и офисных установок в 2026 году разумный старт такой:

  • 8 ГБ RAM без GPU: llama3.2:3b или phi4-mini/phi4-mini-reasoning:3.8b; 7B-модели уже часто медленные и требуют закрывать лишние приложения.
  • 16 ГБ RAM без GPU: 7B-8B в Q4 можно использовать для несрочных задач, но диалог будет заметно медленнее GPU.
  • 16 ГБ RAM + GPU 8-12 ГБ: qwen2.5:7b, deepseek-r1:8b, llama3.1:8b и часть 14B Q4-сценариев.
  • 32 ГБ RAM + GPU или Apple Silicon unified memory: 14B Q4 становится комфортным классом, а 24B/32B уже надо проверять на конкретной задаче и контексте.

Важно: в Ollama llama3.2 - это прежде всего 1B/3B текстовые модели. Для 8B-бейзлайна в этой статье мы используем llama3.1:8b, а не выдуманный 8B-tag для Llama 3.2.

Содержание

Методика и ограничения

Мы тестировали не "абсолютно лучшую модель", а пригодность модели для AI Home Server: локальный чат, русскоязычные документы, простые кодовые задачи, анализ таблиц и работа через Open WebUI/Telegram-бота.

Конфигурации:

Код Железо Зачем включили
A Intel i7-12700H, 16 ГБ RAM, без GPU обычный ноутбук без дискретной видеокарты
B Ryzen 5 5600X, RTX 3060 12 ГБ VRAM, 32 ГБ RAM популярная недорогая GPU-сборка
C Ryzen AI 9 HX 375, 32 ГБ RAM, Radeon 890M shared memory современный мини-ПК/ноутбук с iGPU
D Intel N100, 16 ГБ RAM, без GPU слабый домашний мини-сервер

Каждую модель прогоняли на трех задачах: русское резюме на 300 слов, Python-функция с обработкой ошибок, анализ таблицы из 12 строк. Скорость - среднее по 5 запускам без прогрева. Это полевые замеры, а не воспроизводимый академический benchmark: драйверы, версия Ollama, контекст, температура, фоновые процессы и offload CPU/GPU могут заметно менять результат.

Полевые замеры токенов в секунду

Модель в Ollama Формат Размер в Ollama A: CPU B: RTX 3060 C: Ryzen AI D: N100
llama3.2:3b Q4_K_M около 2.0 ГБ 7.4 71 42 5.8
phi4-mini-reasoning:3.8b Q4_K_M 3.2 ГБ 6.8 62 38 5.1
qwen2.5:7b Q4_K_M 4.7 ГБ 3.8 47 28 2.8
llama3.1:8b Q4_K_M около 4.9 ГБ 3.2 48 29 2.4
deepseek-r1:8b Q4_K_M 5.2 ГБ 3.0 41 31 2.2
qwen2.5:14b Q4_K_M 9.0 ГБ 1.0 21 22 не рекомендуем
phi4:14b Q4_K_M около 8.5 ГБ 1.2 22 17 не рекомендуем
mistral-small3.1:24b Q4_K_M 15 ГБ зависания 14 11 не влезает
deepseek-r1:32b Q4_K_M 20 ГБ не тестировали 8 частично не влезает

Практическая шкала такая: 15+ токенов/сек обычно комфортно для чата, 8-15 токенов/сек терпимо для рабочих задач, ниже 8 токенов/сек лучше оставлять для фоновых суммаризаций, RAG-ответов или пакетной обработки.

Как выбрать модель: чек-лист

Перед установкой модели пройдите 9 вопросов. Этот чек-лист лучше любого общего рейтинга.

Вопрос Почему важно Что выбрать
1. Сколько RAM/VRAM реально свободно? Браузер, Docker и Open WebUI съедают память до запуска модели оставьте 20-30% запаса сверх размера модели
2. Нужен ли длинный контекст? KV cache растет вместе с контекстом, и модель может перестать влезать для чата начинайте с 4K-8K, длинные документы проверяйте отдельно
3. Русский текст или код? Модели по-разному держат стиль, склонения, JSON и edge cases Qwen для русского/структур, DeepSeek-R1/Qwen Coder для кода
4. Нужна ли скорость ответа? Reasoning-модели часто "думают" дольше для интерактивного чата берите меньшую instruct-модель
5. Будут ли tool calls/JSON? У некоторых моделей шаблон промпта и function calling критичны проверяйте карточку модели и шаблон Ollama
6. Можно ли использовать модель коммерчески? Лицензии отличаются: Apache 2.0, MIT, Llama Community License смотрите оригинальную карточку модели, не только Ollama tag
7. Нужны ли приватные данные локально? Это главный плюс Ollama, но логи и web UI тоже надо защищать ограничьте доступ к 11434, Open WebUI и бэкапам
8. Есть ли GPU fallback на CPU? Модель может внезапно стать медленной, если не влезла в VRAM проверяйте ollama ps и серверные логи
9. Есть ли собственный тестовый набор? Leaderboard не знает ваши документы, русский стиль и API сделайте 10-20 контрольных промптов до продакшена

Модели по сценариям

Русский язык и деловые тексты

В наших задачах лучше всего себя показал Qwen2.5 14B Q4_K_M, но это не универсальный "победитель". Карточка Qwen2.5 заявляет поддержку русского среди 29+ языков, длинный контекст и улучшения в structured output. На практике это помогает в резюме, коммерческих письмах, таблицах и JSON.

Если железо слабее, начинайте с Qwen2.5 7B Q4_K_M. Он обычно быстрее и проще в размещении, но чаще требует уточнений по стилю. Для 8 ГБ RAM без GPU лучше не пытаться получить "идеальный русский" от 7B/14B: маленькая модель с хорошим промптом даст меньше ожидания и меньше раздражения.

Код, логика и пошаговые задачи

Для кода мы смотрим не только на "написал ли функцию", а на обработку edge cases: пустые строки, UnicodeDecodeError, невалидный CSV, типы входных данных. В нашем наборе DeepSeek-R1 8B чаще проговаривал рассуждение и находил граничные случаи, но отвечал медленнее из-за thinking-режима.

Если нужен именно кодовый ассистент, сравните Qwen2.5-Coder 7B/14B/32B с DeepSeek-R1 на своих репозиториях. Карточка Qwen2.5-Coder описывает отдельную code-specific серию, а не просто общий чат. Для продакшена я бы не выбирал кодовую модель по одному HumanEval или LiveCodeBench: соберите 10 задач из своей кодовой базы и посмотрите, где меньше ручной правки.

Слабое железо и мини-ПК

На N100 и 8-16 ГБ RAM задача не "найти лучшую модель", а сохранить нормальную задержку. Llama 3.2 3B и Phi-4-mini 3.8B - реалистичный класс для локального чата, коротких суммаризаций и простых команд.

7B-8B на CPU без GPU могут работать, но часто уходят в 2-4 токена/сек. Это нормально для фоновой обработки, но плохо для живого диалога. Если клиент ожидает "как ChatGPT", лучше сразу закладывать GPU, Apple Silicon с достаточной unified memory или облачный fallback.

24B/32B и "максимальное качество"

Mistral Small 3.1 24B и DeepSeek-R1 32B интересны, когда есть 32+ ГБ RAM/VRAM и задача реально выигрывает от размера: длинные документы, сложные рассуждения, агентные сценарии, tool use. Но они чувствительны к контексту, offload и версии inference stack.

У Mistral Small 3.1 в Ollama Q4_K_M около 15 ГБ, а в оригинальной карточке Hugging Face для bf16/fp16 указан совсем другой класс GPU-памяти. Это хороший пример, почему нельзя переносить требования из карточки модели на quantized Ollama без проверки.

Таблица выбора под задачу и железо

Задача / железо 8 ГБ RAM, нет GPU 16 ГБ RAM, нет GPU 16 ГБ RAM + GPU 8-12 ГБ 32 ГБ RAM/GPU
Русский текст llama3.2:3b или Phi-4-mini qwen2.5:7b Q4, если скорость терпима qwen2.5:7b Q4/Q5 qwen2.5:14b Q4
Код и логика Phi-4-mini, короткие задачи deepseek-r1:8b или Qwen Coder 7B DeepSeek-R1 8B/Qwen Coder 14B DeepSeek-R1 14B/32B или Qwen Coder 32B
Универсальный чат llama3.2:3b llama3.1:8b или Qwen 7B Qwen 7B или Llama 3.1 8B Qwen 14B или Mistral Small 3.1
Длинные документы не рекомендуем только короткий контекст 7B/14B с тестом context size Mistral Small 3.1 или Qwen 14B/32B

Квантизация Q4, Q5, Q8

Ollama FAQ описывает q8_0 как 8-bit вариант примерно с половиной памяти от f16 и очень небольшой потерей точности, а q4_0 - как 4-bit вариант примерно с четвертью памяти от f16 и более заметным риском потери качества на больших контекстах. На практике в Ollama чаще выбирают Q4_K_M/Q5_K_M как баланс памяти и качества.

Наше правило:

  • Q4_K_M - стартовый выбор для чата, русского текста, RAG и демонстраций.
  • Q5_K_M/Q6_K - имеет смысл для основной рабочей модели, если есть запас VRAM/RAM.
  • Q8_0 - берите для задач, где ошибка дороже скорости: код, structured output, вычисления, проверка документов.
  • fp16/bf16 - чаще серверный сценарий, а не домашний AI Home Server.

Не делайте вывод "Q4 всегда достаточно". Если модель пишет код, генерирует JSON для интеграции или анализирует договор, прогоните контрольные кейсы в Q4 и Q8. Иногда разница проявляется не в красивом тексте, а в одном пропущенном edge case.

Типовые проблемы из практики

Живые обсуждения хорошо показывают, где пользователи ошибаются при выборе Ollama-моделей. Эти источники не заменяют документацию, но помогают не наступить на типовые проблемы.

  1. Модель скачалась, но не запустилась. В GitHub issue Ollama есть примеры, где большая модель скачивалась часами, а затем падала с model requires more system memory. Поэтому перед ollama pull смотрите размер tag и оставляйте запас.
  2. RAM вроде есть, но Ollama считает иначе. В Docker/Linux встречались жалобы, что cached memory влияет на проверку доступной памяти. Для сервера под клиента это значит: проверять поведение в той же среде, где будет эксплуатация.
  3. GPU есть, но ответы медленные. В issues Ollama обсуждали silent GPU-to-CPU fallback: модель может частично или полностью уйти на CPU без понятного сообщения пользователю. Проверяйте ollama ps, загрузку GPU и логи.
  4. Leaderboard не отвечает за ваш use case. LMArena полезна как human-preference сигнал, а Open LLM Leaderboard - как benchmark-контекст. Но локальная Q4-модель в Ollama, ваш prompt template и ваши документы могут вести себя иначе, чем leaderboard-версия.
  5. Context length незаметно увеличивает память. Пользователи LocalLLaMA/Ollama регулярно упираются не только в размер weights, но и в KV cache, несколько загруженных моделей и фоновые приложения.

Команды Ollama

# Базовая загрузка
ollama pull qwen2.5:14b

# Конкретная квантизация, если tag доступен в библиотеке
ollama pull qwen2.5:14b-instruct-q4_K_M

# Быстрый слабый baseline
ollama pull llama3.2:3b

# Reasoning-модель
ollama pull deepseek-r1:8b

# Просмотр загруженных моделей
ollama list

# Проверка, что сейчас загружено и где исполняется
ollama ps

# Удаление неиспользуемой модели
ollama rm qwen2.5:14b

Перед установкой смотрите актуальные tags в Ollama Library. Размеры и доступные квантизации меняются, а latest не всегда означает лучший выбор под ваше железо.

Когда лучше заказать настройку, а не выбирать самому

AI Home Server полезен, когда нужно не просто поставить одну модель, а собрать рабочий локальный контур: железо, Ollama, Open WebUI, Telegram-бот, доступы, бэкапы, обновления и понятный fallback, если локальная модель не справляется.

Обычно мы начинаем не с вопроса "какая модель лучшая", а с короткого профиля задач:

  • какие документы и языки;
  • сколько пользователей одновременно;
  • нужна ли обработка персональных/коммерческих данных локально;
  • какой предел задержки приемлем;
  • какие интеграции нужны: Telegram, CRM, 1С, файловое хранилище;
  • какие ответы считаются ошибкой и как их проверять.

После этого можно выбрать 2-3 модели-кандидата и прогнать их на ваших примерах. Это дешевле, чем купить лишнюю GPU или поставить 32B-модель, которая красиво выглядит в рейтинге, но не решает вашу задачу.

Часто задаваемые вопросы

Какая Ollama модель лучшая для русского языка? В наших тестах чаще всего выигрывал Qwen2.5 14B Q4_K_M, но это не универсальный ответ. Для 16 ГБ RAM без GPU разумнее начать с Qwen2.5 7B или меньшей модели, а для 8 ГБ RAM - с Llama 3.2 3B/Phi-4-mini и хорошего промпта.

DeepSeek-R1 лучше Qwen2.5 для кода? Не всегда. DeepSeek-R1 8B лучше показал себя на наших reasoning-задачах и edge cases, но thinking-режим увеличивает задержку. Для постоянной разработки сравните DeepSeek-R1 с Qwen2.5-Coder на задачах из вашей кодовой базы.

Почему модель в Ollama занимает меньше, чем в Hugging Face? Чаще всего вы смотрите разные форматы. Hugging Face card может описывать fp16/bf16 weights, а Ollama tag - GGUF-квантизацию Q4/Q5/Q8. Сравнивайте не название модели, а конкретный tag, размер файла, контекст и фактическую память при запуске.

Можно ли держать несколько моделей одновременно? Можно, но память быстро заканчивается. На практике одну основную модель держат загруженной, а остальные запускают по необходимости. Если нужны параллельные модели, заранее считайте RAM/VRAM и проверяйте ollama ps.

Какая минимальная видеокарта нужна? Для 3B-7B Q4 хватит 6-8 ГБ VRAM, но комфортнее 8-12 ГБ. RTX 3060 12 ГБ остается практичной бюджетной картой для 7B/8B и части 14B Q4-сценариев. Для 24B/32B лучше планировать 24+ ГБ VRAM или shared/unified memory с запасом.

Можно ли доверять LMArena и Open LLM Leaderboard? Их стоит использовать как фильтр кандидатов, а не как финальное решение. LMArena отражает предпочтения людей в парных сравнениях, Open LLM Leaderboard - benchmark-результаты открытых моделей. Локальная Ollama-модель в Q4 может вести себя иначе.

Источники

  • Ollama Library: https://ollama.com/library
  • Ollama FAQ по квантизации и памяти: https://docs.ollama.com/faq
  • Ollama tags qwen2.5: https://registry.ollama.com/library/qwen2.5/tags
  • Ollama tags llama3.2: https://ollama.com/library/llama3.2/tags
  • Ollama tags deepseek-r1: https://registry.ollama.com/library/deepseek-r1/tags
  • Ollama tags phi4-mini-reasoning: https://registry.ollama.com/library/phi4-mini-reasoning/tags
  • Ollama tags mistral-small3.1: https://registry.ollama.com/library/mistral-small3.1/tags
  • Qwen2.5 14B Instruct model card: https://huggingface.co/Qwen/Qwen2.5-14B-Instruct
  • Qwen2.5 Coder 14B Instruct model card: https://huggingface.co/Qwen/Qwen2.5-Coder-14B-Instruct
  • DeepSeek-R1 Distill Llama 8B model card: https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Llama-8B
  • Microsoft Phi-4-mini-instruct model card: https://huggingface.co/microsoft/Phi-4-mini-instruct
  • Phi-4-Mini technical report: https://arxiv.org/abs/2503.01743
  • Meta Llama 3.2 3B Instruct model card/files: https://huggingface.co/meta-llama/Llama-3.2-3B-Instruct
  • Mistral Small 3.1 24B Instruct model card: https://huggingface.co/mistralai/Mistral-Small-3.1-24B-Instruct-2503
  • Mistral Small 3.1 announcement: https://mistral.ai/news/mistral-small-3-1
  • LMArena leaderboard: https://lmarena.ai/leaderboard/
  • LMArena about/benchmark context: https://arena.ai/blog/about/
  • Hugging Face Open LLM Leaderboard hub: https://huggingface.co/open-llm-leaderboard
  • Ollama GitHub issue on memory check after download: https://github.com/ollama/ollama/issues/10920
  • Ollama GitHub issue on cached memory and RAM checks: https://github.com/ollama/ollama/issues/11497
  • Ollama GitHub issue on GPU-to-CPU fallback visibility: https://github.com/ollama/ollama/issues/14258
  • Reddit r/ollama RAM guide discussion: https://www.reddit.com/r/ollama/comments/1sku6qq/ram_guide_what_model_combinations_actually_fit_on/
  • Reddit r/ollama model selection discussion: https://www.reddit.com/r/ollama/comments/1sgv863/help_selecting_a_local_llm/
  • Reddit r/LocalLLaMA leaderboard caveats discussion: https://www.reddit.com/r/LocalLLaMA/comments/1jwllvz/open_llm_leaderboard_is_archived_what_are_the/

Собираем AI Home Server под ключ: подбираем железо, предустанавливаем модели, настраиваем Ollama, Open WebUI и Telegram-бота. Стоимость базовой настройки - 30 000 ₽. Напишите @onoutnoxon, если хотите подобрать конфигурацию под ваши документы, русский язык, код и приватные данные.

Статья подготовлена с участием AI-инструментов и проверена человеком: Александр Руин, основатель habab.ru. Дата проверки: 2026-05-05.

О сервисе "AI Home Server"

AI Home Server — мини-ПК с предустановленной локальной нейросетью (Ollama), хабом умного дома (Home Assistant), медиасервером (Jellyfin), бэкапом (Syncthing) и AI-агентом в Telegram. Подключаешь к питанию и интернету — работает из коробки.

Ключевые преимущества:

  • Всё работает из коробки за 2 минуты
  • Локальная нейросеть без интернета и без цензуры
  • Все данные остаются у вас — никакого облака
  • AI + медиасервер + бэкап + умный дом = одна коробка
  • Управление голосом и текстом через Telegram
  • Не нужен программист для настройки

Для кого подходит:

Энтузиасты self-hosted и приватности Пользователи умного дома Гики и технические специалисты Малый бизнес (офисный AI-ассистент) Владельцы Raspberry Pi и мини-ПК

Сценарии использования:

💡 Локальный AI-ассистент через Telegram (как ChatGPT, но приватный)
💡 Центр управления умным домом (Home Assistant)
💡 Домашний медиасервер (Jellyfin — фильмы, музыка)
💡 Автоматический бэкап файлов (Syncthing)
💡 Офисный AI для малого бизнеса

📰 Промо-статьи наших решений

Изучите детальные обзоры наших технологических решений для различных отраслей:

🚀 Работаю до результата

Работаю до результата и бизнес-ценности, быстро корректирую подходы в процессе. Использую современный стек для качественного и быстрого решения задач.