Самая дешёвая production-модель в 2026?

DeepSeek V4 Flash ($0,14/$0,28) и Gemini 2.5 Flash-Lite ($0,10/$0,40). Для CJK tokenizer DeepSeek часто выгоднее.

Тариф 200K у Gemini 3.1 Pro?

Chunk RAG до 200K или Context Caching. Выше 200K ввод удваивается: $2→$4.

DeepSeek V4 для продакшена?

Силён для китайских команд и китайскоязычных продуктов. US/EU: проверить compliance.

Бюджет indie $50/мес?

DeepSeek V4 Pro ($30), Gemini Flash-Lite ($10), резерв Claude Sonnet ($10).

Подписка или API?

Меньше ~2 ч/день—подписка. Больше ~4 ч или интеграция в продукт—API.

Цены API LLM и выбор модели 2026: GPT-5.5, Claude, Gemini, DeepSeek

Q: Стоит ли GPT-5.5 после подорожания?

Да при зависимости от стека OpenAI. Только текст/код: Gemini 3.1 Pro и Claude Opus 4.8 выгоднее.

Q: Opus 4.8 или GPT-5.5?

Код-агенты: Opus 4.8. Инструменты, мультимодал, голос: GPT-5.5. Ввод $5/M у обоих.

В июне 2026 разброс цен на выход LLM — до 643×; разбираем цену, конфиг, производительность и аудиторию, чтобы не ошибиться с счётом и контекстом.

643×

Разрыв цен выхода DeepSeek V4 Flash vs GPT-5.5 Pro

95%

Claude Fable 5 · лидер SWE-bench Verified

$0.10

Gemini 2.5 Flash-Lite вход / M токенов

1. Обзор цен LLM 2026

1.1 Флагманский tier: потолок возможностей и цены

Модель	Вендор	Вход	Кэш-вход	Выход	Контекст
GPT-5.5 Pro	OpenAI	$30	—	$180	~1M (эффективно ~258K)
Claude Fable 5	Anthropic	$10	$1	$50	1M
GPT-5.5	OpenAI	$5	$0.50	$30	~1M (эффективно ~258K)
Claude Opus 4.8	Anthropic	$5	$0.50	$25	1M
Claude Sonnet 4.6	Anthropic	$3	$0.30	$15	1M (единая цена)
Gemini 3.1 Pro ≤200K	Google	$2	$0.20	$12	2M
Gemini 3.1 Pro >200K	Google	$4	$0.40	$18	2M
DeepSeek V4 Pro	DeepSeek	$0.435	$0.0036	$0.87	128K–1M

Три контринтуитивных факта:

Gemini 3.1 Pro — самый дешёвый флагман. На миллион токенов: вход на 60 % дешевле GPT-5.5, выход на 60 % дешевле. На длинном контексте разрыв ещё больше.
Claude Opus 4.8 и GPT-5.5 стоят одинаково на входе ($5), но Claude на 17 % дешевле на выходе. Миллион сгенерированных токенов: Opus экономит $5.
DeepSeek V4 Pro дешевле на выходе, чем самый доступный Flash-Lite от Gemini. Это не «open source на скидку» — официальные коммерческие API-цены.

1.2 Средний tier: sweet spot для ежедневной работы

Модель	Вход	Выход	Контекст	Типичный сценарий
GPT-5.4	$2.50	$15	1M	Баланс в экосистеме OpenAI
GPT-5.3 Codex	$1.75	$14	128K	Автодополнение кода, интеграция в IDE
Gemini 3.5 Flash	$1.50	$9	1M	Мультимodal + быстрый reasoning
Claude Haiku 4.5	$1.00	$5.00	200K	Низкая задержка, высокая concurrency
Kimi K2.6	$0.60	$2.50	262K	Длинные китайские тексты
Qwen3.5-Plus	$0.40	$2.40	1M	Экосистема Alibaba, китайские сценарии

1.3 Экономичный tier: ров для массовых вызовов

Модель	Вход	Выход	Примечание
GPT-5.4-nano	$0.20	$1.25	Самый дешёвый US closed-source tier
Gemini 3.1 Flash-Lite	$0.25	$1.50	Нативный multimodal
Gemini 2.5 Flash-Lite	$0.10	$0.40	Минимальная цена
DeepSeek V4 Flash	$0.14	$0.28	Кэш-hit вход $0.0028
小米 MiMo-V2.5-Flash	$0.10	$0.30	Китайский ultra-low-cost
Grok 4.1 Fast	$0.20	$0.50	2M контекст + поиск в реальном времени

Насколько велик разрыв? В токенах выхода, база 1× (DeepSeek V4 Flash): GPT-5.5 = 107×, GPT-5.5 Pro = 643×, Claude Fable 5 = 179×.

2. Конфиг: что определяет счёт помимо прайса

2.1 Контекстное окно: номинал ≠ рабочий объём

Context в рекламе и context в production — часто разные вещи.

Модель	Номинальный контекст	Практический потолок	Подводный камень
GPT-5.5	1M	Lossy-сжатие с ~258K	Агент «забывает» посреди long run
Claude Sonnet 4.6	1M	1M единая цена, без ступеней	Лучшее соотношение цена/качество на длинном контексте
Gemini 3.1 Pro	2M	Вход ×2 после 200K	Посчитайте ступень до заливки RAG целиком
DeepSeek V4 Pro	128K–1M	Зависит от версии деплоя	Compliance и резидентность данных — отдельная оценка
Kimi K2.6	262K	262K	Силён на длинных китайских текстах

Рекомендация: RAG-пайплайн регулярно за 200K токенов? Claude Sonnet 4.6 (1M flat) или Gemini 3.1 Pro держать под 200K. Иначе счёт и latency улетят.

2.2 Prompt Caching: до −90 %, но три разных правила игры

В 2026 без кэша в prod вы платите за system prompt и док-базу заново на каждый запрос.

Вендор	Скидка кэша	Механизм	Нюанс
Anthropic	до 90 %	Ручные breakpoints `cache_control`	Тарифы записи 5 мин / 1 ч
OpenAI	50 %	Автоматически, без настройки	От 1024 токенов, одинаковый prefix = hit
Google	до 90 %	Implicit + explicit	Почасовая плата за хранение — редкие hits могут выйти дороже
DeepSeek	до 99 %	Автоматически	V4 Flash cache-hit вход $0.0028/M

Типовая экономия: 1 M входных токенов/день, 60 % — повторяющийся system prompt и RAG-контекст:

Claude Opus 4.8: $5 → ~$2.3/день (−54 %)
GPT-5.5: $5 → ~$3.2/день (−36 %)
Gemini 3.1 Pro: $2 → ~$1.1/день (−45 %)
DeepSeek V4 Pro: $0.435 → ~$0.05/день (−89 %)

2.3 Batch API и уровни reasoning

Batch API (OpenAI / Anthropic / Google): ещё −50 % для не-realtime задач — offline-обработка, массовый перевод, прогоны бенчмарков.
Reasoning effort: xhigh у GPT-5.5, extended thinking у Claude — скрытые reasoning-токены, всё считается как выход. «Ответ на 500 токенов» может съесть 5000+ reasoning-токенов.
Priority queue (OpenAI): ×2,5 за меньшую задержку. Окупается только для online-сервисов с жёстким SLA.

2.4 Ловушки tokenizer: тот же текст, +35 % токенов

Anthropic сменил tokenizer с Opus 4.7 — тот же текст может стоить до 35 % больше токенов. Тариф тот же, счёт другой. Для русского и английского: DeepSeek и Qwen часто tokenize эффективнее GPT — разница 10–20 % в стоимости, не мелочь.

3. Производительность: что говорят бенчмарки

3.1 Код: SWE-bench Verified (июнь 2026)

SWE-bench Verified проверяет, может ли модель починить реальные GitHub issues — 500 задач с ручной верификацией. Намного показательнее, чем «напиши Hello World».

Место	Модель	SWE-bench Verified	Выход ($/M)
1	Claude Fable 5	95.0%	$50
2	Claude Opus 4.8	88.6%	$25
3	GPT-5.5	82.6%	$30
4	Claude Opus 4.7	82.0%	$25
5	Gemini 3.5 Flash	79.8%	$9
6	Gemini 3.1 Pro	80.6%	$12
7	DeepSeek V4	~81%	$0.87

Как читать таблицу:

Код — по-прежнему территория Claude. Fable 5 и Opus 4.8 на лигу выше остальных. С Cursor, Claude Code или Devin-подобными инструментами это «починить с первого раза».
GPT-5.5 силён, но не король кода. Tool calling, multimodal, интеграция в экосистему — там его сила.
DeepSeek V4 при 81 % и $0.87/M на выходе: поразительное соотношение цена/качество. Для solo-dev и vibe coding — самый дешёвый «рабочий» tier.

Заметка: SWE-bench сильно зависит от agent scaffolding. Внутренние тесты вендоров часто на 15–30 п.п. выше публичных бенчмарков. Сравнивайте при одинаковом scaffolding, не абсолютные цифры.

Разработчик проверяет код и результаты SWE-bench — выбор LLM API по коду и цене

3.2 Reasoning и знания: MMLU-Pro, GPQA, длинный контекст

Измерение	Лидер	Применение
Сложный multi-step reasoning	Claude Fable 5, GPT-5.5 Pro	Матдоказательства, legal tech, помощь в исследованиях
Понимание длинных документов	Gemini 3.1 Pro (2M), Claude Sonnet 4.6 (1M flat)	Целый PDF на вход, Q&A на выход
Multimodal (изображение/звук/видео)	Серия Gemini 3, GPT-5.5	Native vision + audio
Поиск в реальном времени	Grok 4.x	Новости, sentiment, свежие данные
Китайский: понимание и генерация	DeepSeek V4, Qwen3.5, Kimi K2.6	Более эффективная tokenization для CJK

3.3 Задержка и пропускная способность

Модель	Time-to-first-token	Пропускная способность	Идеально для
Claude Haiku 4.5	Очень низкая	Высокая	Live-чат, классификация в реальном времени
Gemini 2.5 Flash-Lite	Очень низкая	Очень высокая	Миллионы вызовов/день
GPT-5.4-nano	Низкая	Высокая	Лёгкие задачи в стеке OpenAI
Claude Opus 4.8	Средняя	Средняя	Сложный однораундовый reasoning
Claude Fable 5	Высокая	Низкая	Долгие агенты, секунды не критичны

4. Аудитория: кому что брать

4.1 Solo-dev / vibe coding

Рекомендуемый стек:

Ежедневный код: Claude Opus 4.8 (API) или Claude Code Max $100/мес
Эконом-вариант: DeepSeek V4 Pro
Ultra-light: Gemini 2.5 Flash-Lite

Расчёт: Claude Code Max $100/мес ≈ 50 интенсивных Opus-сессий. Больше 2 ч кодинга/день: подписка выгоднее pay-per-token. Меньше — DeepSeek V4 Pro API дешевле.

Важно: в Cursor и аналогах обязательно ставьте spending hard cap. Кейсы из сообщества: MAX-режим, $11 922 за 4 недели.

4.2 Стартап / небольшой SaaS

Рекомендуемый стек:

Core reasoning: Gemini 3.1 Pro (флагман по цене/качеству)
Code agent: Claude Sonnet 4.6 (1M flat)
Массовый backend: DeepSeek V4 Flash + Batch
Routing: сложное → Sonnet, простая классификация → Flash-Lite

Оценка в месяц (средний SaaS, 5 M токенов/день):

Схема	Месяц (без кэша)	Месяц (40 % кэш)
Всё Claude Sonnet 4.6	~$3,900	~$2,574
Всё Gemini 3.1 Pro	~$2,640	~$1,743
Всё DeepSeek V4 Pro	~$438	~$289
Routing (20 % Sonnet + 80 % Flash)	~$1,200	~$750

4.3 Enterprise / чувствительность к compliance

Рекомендуемый стек:

EU/US entity: AWS Bedrock (Claude) или Vertex AI (Gemini) — DPA и регион на выбор
Security review кода: Claude Opus 4.8 + private Git integration
Не рекомендуется: сторонние OpenAI-прокси (риск трансграничных данных > экономия)

Обязательный чеклист:

Лимиты бюджета и алерты на уровне API key
Prompt Caching в prod (−30–50 %)
Стратегия routing — не всё на Opus
Code-агенты в изолированной среде (Cloud Mac / контейнер), не на bare metal

4.4 AI-разработчик / builder agent-фреймворков

Рекомендуемый стек:

Долгая автономия: Claude Fable 5
Оркестрация tools: GPT-5.5
Локальные dev-тесты: Mac Apple Silicon + квантованные Qwen/DeepSeek
Prod fallback: Gemini 3.1 Pro (длинный контекст + низкая цена)

Зачем Apple Silicon? В 2026 узкое место при сборке агентов — не только API, но и runtime. Claude Code требует Xcode-тесты на macOS, iOS-сборки на реальном железе, tmux на всю ночь. Модель топ, узел отвалился — предыдущие token-доллары сгорели. Подробнее: В эпоху AI дефицит не в моделях, а в compute-узлах.

4.5 Глобальный SaaS / мультиязычная поддержка

Рекомендуемый стек:

Workhorse: DeepSeek V4 Pro (перевод, summary, support)
EU/US пользователи: Gemini 3.1 Flash-Lite или GPT-5.4-nano
Качественный polish: Claude Haiku 4.5

4.6 Студенты / исследователи

Рекомендуемый стек:

Gemini 3 Flash Preview (free tier)
DeepSeek V4 Flash (эксперименты по минимальной цене)
Локально: Mac Mini M4 с 7B–32B квантованными для прототипов

5. Реальные затраты: три типовых сценария

Сценарий A: AI support bot (100K диалогов/день)

Допущение: 2K вход + 500 выход за раунд, 80 % cache hit на system prompt.

Модель	День	Месяц
GPT-5.4-nano	~$5.5	~$165
Gemini 2.5 Flash-Lite	~$3.2	~$96
DeepSeek V4 Flash	~$1.8	~$54
Claude Haiku 4.5	~$12	~$360

Вывод: support не требует флагмана. DeepSeek V4 Flash или Gemini Flash-Lite хватит — до $100/мес.

Сценарий B: code agent (50 repo-задач/день)

Допущение: 50K вход + 20K выход за задачу, 10 tool calls.

Модель	День	Месяц
Claude Opus 4.8	~$50	~$1,500
GPT-5.5	~$58	~$1,740
DeepSeek V4 Pro	~$2.5	~$75
Claude Fable 5	~$100	~$3,000

Вывод: качество → Opus 4.8. бюджет → DeepSeek V4 Pro (с просадкой success rate). долгая автономия → Fable 5.

Сценарий C: RAG по длинным документам (1000 запросов/день, по 150K вход)

Модель	День	Месяц
Gemini 3.1 Pro (≤200K)	~$360	~$10,800
Claude Sonnet 4.6 (1M flat)	~$495	~$14,850
Gemini 3.1 Pro (tier >200K)	~$540	~$16,200

Вывод: RAG держите под 200K с Gemini 3.1 Pro или берите Claude Sonnet 4.6 за 1M flat. Перед prod оптимизируйте chunking — не заливайте всю книгу каждый раз.

6. Пять правил выбора модели в 2026

Сначала форма запроса, потом модель. Много выхода → флагман. Повторяющийся вход → cache-friendly. Длинный контекст → flat tier.
Routing, не монолит. В 2026 экономят не самой дешёвой моделью везде, а схемой 80 % Flash + 20 % флагман.
Кэш обязателен, не опция. Без Prompt Caching в prod вы сознательно переплачиваете 30–50 %.
Смотрите total cost, не sticker price. DeepSeek дешевле всех — но нужно учесть compliance, аудит и стабильность аккаунта.
Модель = мозг, runtime = тело. В эпоху агентов API-счёт — половина; вторая половина — держит ли машина 24/7.

7. Apple Silicon: гибрид локального compute и cloud API

Прагматичная AI-архитектура 2026 — не «всё API» и не «всё локально», а слоями:

Слой	Что крутится	Чем
Локально (Apple Silicon)	Автодополнение, малые модели, preprocessing	Mac Mini M4 / M4 Pro, 7B–32B квантованные
Cloud API (pay-per-token)	Сложный reasoning, длинный контекст, multimodal	Claude / Gemini / DeepSeek
Cloud compute node (pay-per-time)	Agent с Xcode, CI-сборки, long runs	Cloud Mac (Vuncloud)

Unified Memory на M4 делает 14B–32B квантованные эффективными — тихо, мало ватт, без обязательной NVIDIA. Локально не тянет: iOS-сборка с Claude Code, Xcode UI-тесты, weekend-миграция в tmux. Там стабильность узла важнее выбора модели.

FAQ

Какая самая дешёвая prod-ready модель в 2026?

DeepSeek V4 Flash ($0.14/$0.28) и Gemini 2.5 Flash-Lite ($0.10/$0.40) делят нижний tier. Для CJK DeepSeek может быть ещё дешевле за счёт tokenizer.

Стоит ли GPT-5.5 после подорожания?

Если вы глубоко в экосистеме OpenAI (Assistants API, Realtime Voice, DALL·E / Sora, Azure OpenAI) — да. Чистый текст/код: Gemini 3.1 Pro и Claude Opus 4.8 выгоднее.

Claude Opus 4.8 или GPT-5.5?

Code agent → Opus 4.8 (SWE-bench +6 п.п., выход −17 %). Плотные tools, multimodal, voice → GPT-5.5. Вход: $5/M у обоих.

Как обойтись со ступенью 200K у Gemini 3.1 Pro?

Chunking RAG, вход под 200K. Или Context Caching Gemini для повторяющихся документов. После 200K вход ×2: с $2 до $4.

DeepSeek V4 для production?

Силён для команд с китайским контуром и CJK workloads. Enterprise: оцените резидентность данных, федеральные ограничения US и локальные требования. Технически и по цене — ок; compliance — переменная.

Solo-dev, бюджет $50/мес?

DeepSeek V4 Pro как база ($30), Gemini 2.5 Flash-Lite резерв ($10), $10 на экстренный Sonnet для жёстких задач.

Подписка (ChatGPT Plus / Claude Pro) или API?

< 2 ч/день: подписка. > 4 ч или интеграция в продукт: API. Claude Code Max $100/мес ≈ 50 интенсивных Opus-сессий.

Итог

Выбор модели — только первый шаг. В 2026 отличает тех, кто доводит агентов в стабильном runtime — зелёная сборка, тесты пройдены, PR смержен.

Модель = мозг, runtime = тело. API-счёт — половина; вторая половина — держит ли машина 24/7.

Claude Code для iOS/macOS или агент, который должен пережить ночь? Сначала зафиксируйте Cloud Mac, который не отвалится — потом обсуждайте Fable vs Opus.

Обновлено: 17 июня 2026. Цены и бенчмарки — с публичных страниц вендоров и SWE-bench Verified (июнь 2026).

1. Обзор цен LLM 2026

1.1 Флагманский tier: потолок возможностей и цены

1.2 Средний tier: sweet spot для ежедневной работы

1.3 Экономичный tier: ров для массовых вызовов

2. Конфиг: что определяет счёт помимо прайса

2.1 Контекстное окно: номинал ≠ рабочий объём

2.2 Prompt Caching: до −90 %, но три разных правила игры

2.3 Batch API и уровни reasoning

2.4 Ловушки tokenizer: тот же текст, +35 % токенов

3. Производительность: что говорят бенчмарки

3.1 Код: SWE-bench Verified (июнь 2026)

3.2 Reasoning и знания: MMLU-Pro, GPQA, длинный контекст

3.3 Задержка и пропускная способность

4. Аудитория: кому что брать

4.1 Solo-dev / vibe coding

4.2 Стартап / небольшой SaaS

4.3 Enterprise / чувствительность к compliance

4.4 AI-разработчик / builder agent-фреймворков

4.5 Глобальный SaaS / мультиязычная поддержка

4.6 Студенты / исследователи

5. Реальные затраты: три типовых сценария

Сценарий A: AI support bot (100K диалогов/день)

Сценарий B: code agent (50 repo-задач/день)

Сценарий C: RAG по длинным документам (1000 запросов/день, по 150K вход)

6. Пять правил выбора модели в 2026

7. Apple Silicon: гибрид локального compute и cloud API

FAQ

Какая самая дешёвая prod-ready модель в 2026?

Стоит ли GPT-5.5 после подорожания?

Claude Opus 4.8 или GPT-5.5?

Как обойтись со ступенью 200K у Gemini 3.1 Pro?

DeepSeek V4 для production?

Solo-dev, бюджет $50/мес?

Подписка (ChatGPT Plus / Claude Pro) или API?

Итог

Agent-dev: модель выбран — runtime тоже

Читать дальше

Планируйте LLM-стек на год