В июне 2026 разброс цен на выход LLM — до 643×; разбираем цену, конфиг, производительность и аудиторию, чтобы не ошибиться с счётом и контекстом.
1. Обзор цен LLM 2026
1.1 Флагманский tier: потолок возможностей и цены
| Модель | Вендор | Вход | Кэш-вход | Выход | Контекст |
|---|---|---|---|---|---|
| GPT-5.5 Pro | OpenAI | $30 | — | $180 | ~1M (эффективно ~258K) |
| Claude Fable 5 | Anthropic | $10 | $1 | $50 | 1M |
| GPT-5.5 | OpenAI | $5 | $0.50 | $30 | ~1M (эффективно ~258K) |
| Claude Opus 4.8 | Anthropic | $5 | $0.50 | $25 | 1M |
| Claude Sonnet 4.6 | Anthropic | $3 | $0.30 | $15 | 1M (единая цена) |
| Gemini 3.1 Pro ≤200K | $2 | $0.20 | $12 | 2M | |
| Gemini 3.1 Pro >200K | $4 | $0.40 | $18 | 2M | |
| DeepSeek V4 Pro | DeepSeek | $0.435 | $0.0036 | $0.87 | 128K–1M |
Три контринтуитивных факта:
- Gemini 3.1 Pro — самый дешёвый флагман. На миллион токенов: вход на 60 % дешевле GPT-5.5, выход на 60 % дешевле. На длинном контексте разрыв ещё больше.
- Claude Opus 4.8 и GPT-5.5 стоят одинаково на входе ($5), но Claude на 17 % дешевле на выходе. Миллион сгенерированных токенов: Opus экономит $5.
- DeepSeek V4 Pro дешевле на выходе, чем самый доступный Flash-Lite от Gemini. Это не «open source на скидку» — официальные коммерческие API-цены.
1.2 Средний tier: sweet spot для ежедневной работы
| Модель | Вход | Выход | Контекст | Типичный сценарий |
|---|---|---|---|---|
| GPT-5.4 | $2.50 | $15 | 1M | Баланс в экосистеме OpenAI |
| GPT-5.3 Codex | $1.75 | $14 | 128K | Автодополнение кода, интеграция в IDE |
| Gemini 3.5 Flash | $1.50 | $9 | 1M | Мультимodal + быстрый reasoning |
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K | Низкая задержка, высокая concurrency |
| Kimi K2.6 | $0.60 | $2.50 | 262K | Длинные китайские тексты |
| Qwen3.5-Plus | $0.40 | $2.40 | 1M | Экосистема Alibaba, китайские сценарии |
1.3 Экономичный tier: ров для массовых вызовов
| Модель | Вход | Выход | Примечание |
|---|---|---|---|
| GPT-5.4-nano | $0.20 | $1.25 | Самый дешёвый US closed-source tier |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | Нативный multimodal |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | Минимальная цена |
| DeepSeek V4 Flash | $0.14 | $0.28 | Кэш-hit вход $0.0028 |
| 小米 MiMo-V2.5-Flash | $0.10 | $0.30 | Китайский ultra-low-cost |
| Grok 4.1 Fast | $0.20 | $0.50 | 2M контекст + поиск в реальном времени |
Насколько велик разрыв? В токенах выхода, база 1× (DeepSeek V4 Flash): GPT-5.5 = 107×, GPT-5.5 Pro = 643×, Claude Fable 5 = 179×.
2. Конфиг: что определяет счёт помимо прайса
2.1 Контекстное окно: номинал ≠ рабочий объём
Context в рекламе и context в production — часто разные вещи.
| Модель | Номинальный контекст | Практический потолок | Подводный камень |
|---|---|---|---|
| GPT-5.5 | 1M | Lossy-сжатие с ~258K | Агент «забывает» посреди long run |
| Claude Sonnet 4.6 | 1M | 1M единая цена, без ступеней | Лучшее соотношение цена/качество на длинном контексте |
| Gemini 3.1 Pro | 2M | Вход ×2 после 200K | Посчитайте ступень до заливки RAG целиком |
| DeepSeek V4 Pro | 128K–1M | Зависит от версии деплоя | Compliance и резидентность данных — отдельная оценка |
| Kimi K2.6 | 262K | 262K | Силён на длинных китайских текстах |
Рекомендация: RAG-пайплайн регулярно за 200K токенов? Claude Sonnet 4.6 (1M flat) или Gemini 3.1 Pro держать под 200K. Иначе счёт и latency улетят.
2.2 Prompt Caching: до −90 %, но три разных правила игры
В 2026 без кэша в prod вы платите за system prompt и док-базу заново на каждый запрос.
| Вендор | Скидка кэша | Механизм | Нюанс |
|---|---|---|---|
| Anthropic | до 90 % | Ручные breakpoints cache_control |
Тарифы записи 5 мин / 1 ч |
| OpenAI | 50 % | Автоматически, без настройки | От 1024 токенов, одинаковый prefix = hit |
| до 90 % | Implicit + explicit | Почасовая плата за хранение — редкие hits могут выйти дороже | |
| DeepSeek | до 99 % | Автоматически | V4 Flash cache-hit вход $0.0028/M |
Типовая экономия: 1 M входных токенов/день, 60 % — повторяющийся system prompt и RAG-контекст:
- Claude Opus 4.8: $5 → ~$2.3/день (−54 %)
- GPT-5.5: $5 → ~$3.2/день (−36 %)
- Gemini 3.1 Pro: $2 → ~$1.1/день (−45 %)
- DeepSeek V4 Pro: $0.435 → ~$0.05/день (−89 %)
2.3 Batch API и уровни reasoning
- Batch API (OpenAI / Anthropic / Google): ещё −50 % для не-realtime задач — offline-обработка, массовый перевод, прогоны бенчмарков.
- Reasoning effort:
xhighу GPT-5.5,extended thinkingу Claude — скрытые reasoning-токены, всё считается как выход. «Ответ на 500 токенов» может съесть 5000+ reasoning-токенов. - Priority queue (OpenAI): ×2,5 за меньшую задержку. Окупается только для online-сервисов с жёстким SLA.
2.4 Ловушки tokenizer: тот же текст, +35 % токенов
Anthropic сменил tokenizer с Opus 4.7 — тот же текст может стоить до 35 % больше токенов. Тариф тот же, счёт другой. Для русского и английского: DeepSeek и Qwen часто tokenize эффективнее GPT — разница 10–20 % в стоимости, не мелочь.
3. Производительность: что говорят бенчмарки
3.1 Код: SWE-bench Verified (июнь 2026)
SWE-bench Verified проверяет, может ли модель починить реальные GitHub issues — 500 задач с ручной верификацией. Намного показательнее, чем «напиши Hello World».
| Место | Модель | SWE-bench Verified | Выход ($/M) |
|---|---|---|---|
| 1 | Claude Fable 5 | 95.0% | $50 |
| 2 | Claude Opus 4.8 | 88.6% | $25 |
| 3 | GPT-5.5 | 82.6% | $30 |
| 4 | Claude Opus 4.7 | 82.0% | $25 |
| 5 | Gemini 3.5 Flash | 79.8% | $9 |
| 6 | Gemini 3.1 Pro | 80.6% | $12 |
| 7 | DeepSeek V4 | ~81% | $0.87 |
Как читать таблицу:
- Код — по-прежнему территория Claude. Fable 5 и Opus 4.8 на лигу выше остальных. С Cursor, Claude Code или Devin-подобными инструментами это «починить с первого раза».
- GPT-5.5 силён, но не король кода. Tool calling, multimodal, интеграция в экосистему — там его сила.
- DeepSeek V4 при 81 % и $0.87/M на выходе: поразительное соотношение цена/качество. Для solo-dev и vibe coding — самый дешёвый «рабочий» tier.
Заметка: SWE-bench сильно зависит от agent scaffolding. Внутренние тесты вендоров часто на 15–30 п.п. выше публичных бенчмарков. Сравнивайте при одинаковом scaffolding, не абсолютные цифры.
3.2 Reasoning и знания: MMLU-Pro, GPQA, длинный контекст
| Измерение | Лидер | Применение |
|---|---|---|
| Сложный multi-step reasoning | Claude Fable 5, GPT-5.5 Pro | Матдоказательства, legal tech, помощь в исследованиях |
| Понимание длинных документов | Gemini 3.1 Pro (2M), Claude Sonnet 4.6 (1M flat) | Целый PDF на вход, Q&A на выход |
| Multimodal (изображение/звук/видео) | Серия Gemini 3, GPT-5.5 | Native vision + audio |
| Поиск в реальном времени | Grok 4.x | Новости, sentiment, свежие данные |
| Китайский: понимание и генерация | DeepSeek V4, Qwen3.5, Kimi K2.6 | Более эффективная tokenization для CJK |
3.3 Задержка и пропускная способность
| Модель | Time-to-first-token | Пропускная способность | Идеально для |
|---|---|---|---|
| Claude Haiku 4.5 | Очень низкая | Высокая | Live-чат, классификация в реальном времени |
| Gemini 2.5 Flash-Lite | Очень низкая | Очень высокая | Миллионы вызовов/день |
| GPT-5.4-nano | Низкая | Высокая | Лёгкие задачи в стеке OpenAI |
| Claude Opus 4.8 | Средняя | Средняя | Сложный однораундовый reasoning |
| Claude Fable 5 | Высокая | Низкая | Долгие агенты, секунды не критичны |
4. Аудитория: кому что брать
4.1 Solo-dev / vibe coding
Рекомендуемый стек:
- Ежедневный код: Claude Opus 4.8 (API) или Claude Code Max $100/мес
- Эконом-вариант: DeepSeek V4 Pro
- Ultra-light: Gemini 2.5 Flash-Lite
Расчёт: Claude Code Max $100/мес ≈ 50 интенсивных Opus-сессий. Больше 2 ч кодинга/день: подписка выгоднее pay-per-token. Меньше — DeepSeek V4 Pro API дешевле.
Важно: в Cursor и аналогах обязательно ставьте spending hard cap. Кейсы из сообщества: MAX-режим, $11 922 за 4 недели.
4.2 Стартап / небольшой SaaS
Рекомендуемый стек:
- Core reasoning: Gemini 3.1 Pro (флагман по цене/качеству)
- Code agent: Claude Sonnet 4.6 (1M flat)
- Массовый backend: DeepSeek V4 Flash + Batch
- Routing: сложное → Sonnet, простая классификация → Flash-Lite
Оценка в месяц (средний SaaS, 5 M токенов/день):
| Схема | Месяц (без кэша) | Месяц (40 % кэш) |
|---|---|---|
| Всё Claude Sonnet 4.6 | ~$3,900 | ~$2,574 |
| Всё Gemini 3.1 Pro | ~$2,640 | ~$1,743 |
| Всё DeepSeek V4 Pro | ~$438 | ~$289 |
| Routing (20 % Sonnet + 80 % Flash) | ~$1,200 | ~$750 |
4.3 Enterprise / чувствительность к compliance
Рекомендуемый стек:
- EU/US entity: AWS Bedrock (Claude) или Vertex AI (Gemini) — DPA и регион на выбор
- Security review кода: Claude Opus 4.8 + private Git integration
- Не рекомендуется: сторонние OpenAI-прокси (риск трансграничных данных > экономия)
Обязательный чеклист:
- Лимиты бюджета и алерты на уровне API key
- Prompt Caching в prod (−30–50 %)
- Стратегия routing — не всё на Opus
- Code-агенты в изолированной среде (Cloud Mac / контейнер), не на bare metal
4.4 AI-разработчик / builder agent-фреймворков
Рекомендуемый стек:
- Долгая автономия: Claude Fable 5
- Оркестрация tools: GPT-5.5
- Локальные dev-тесты: Mac Apple Silicon + квантованные Qwen/DeepSeek
- Prod fallback: Gemini 3.1 Pro (длинный контекст + низкая цена)
Зачем Apple Silicon? В 2026 узкое место при сборке агентов — не только API, но и runtime. Claude Code требует Xcode-тесты на macOS, iOS-сборки на реальном железе, tmux на всю ночь. Модель топ, узел отвалился — предыдущие token-доллары сгорели. Подробнее: В эпоху AI дефицит не в моделях, а в compute-узлах.
4.5 Глобальный SaaS / мультиязычная поддержка
Рекомендуемый стек:
- Workhorse: DeepSeek V4 Pro (перевод, summary, support)
- EU/US пользователи: Gemini 3.1 Flash-Lite или GPT-5.4-nano
- Качественный polish: Claude Haiku 4.5
4.6 Студенты / исследователи
Рекомендуемый стек:
- Gemini 3 Flash Preview (free tier)
- DeepSeek V4 Flash (эксперименты по минимальной цене)
- Локально: Mac Mini M4 с 7B–32B квантованными для прототипов
5. Реальные затраты: три типовых сценария
Сценарий A: AI support bot (100K диалогов/день)
Допущение: 2K вход + 500 выход за раунд, 80 % cache hit на system prompt.
| Модель | День | Месяц |
|---|---|---|
| GPT-5.4-nano | ~$5.5 | ~$165 |
| Gemini 2.5 Flash-Lite | ~$3.2 | ~$96 |
| DeepSeek V4 Flash | ~$1.8 | ~$54 |
| Claude Haiku 4.5 | ~$12 | ~$360 |
Вывод: support не требует флагмана. DeepSeek V4 Flash или Gemini Flash-Lite хватит — до $100/мес.
Сценарий B: code agent (50 repo-задач/день)
Допущение: 50K вход + 20K выход за задачу, 10 tool calls.
| Модель | День | Месяц |
|---|---|---|
| Claude Opus 4.8 | ~$50 | ~$1,500 |
| GPT-5.5 | ~$58 | ~$1,740 |
| DeepSeek V4 Pro | ~$2.5 | ~$75 |
| Claude Fable 5 | ~$100 | ~$3,000 |
Вывод: качество → Opus 4.8. бюджет → DeepSeek V4 Pro (с просадкой success rate). долгая автономия → Fable 5.
Сценарий C: RAG по длинным документам (1000 запросов/день, по 150K вход)
| Модель | День | Месяц |
|---|---|---|
| Gemini 3.1 Pro (≤200K) | ~$360 | ~$10,800 |
| Claude Sonnet 4.6 (1M flat) | ~$495 | ~$14,850 |
| Gemini 3.1 Pro (tier >200K) | ~$540 | ~$16,200 |
Вывод: RAG держите под 200K с Gemini 3.1 Pro или берите Claude Sonnet 4.6 за 1M flat. Перед prod оптимизируйте chunking — не заливайте всю книгу каждый раз.
6. Пять правил выбора модели в 2026
- Сначала форма запроса, потом модель. Много выхода → флагман. Повторяющийся вход → cache-friendly. Длинный контекст → flat tier.
- Routing, не монолит. В 2026 экономят не самой дешёвой моделью везде, а схемой 80 % Flash + 20 % флагман.
- Кэш обязателен, не опция. Без Prompt Caching в prod вы сознательно переплачиваете 30–50 %.
- Смотрите total cost, не sticker price. DeepSeek дешевле всех — но нужно учесть compliance, аудит и стабильность аккаунта.
- Модель = мозг, runtime = тело. В эпоху агентов API-счёт — половина; вторая половина — держит ли машина 24/7.
7. Apple Silicon: гибрид локального compute и cloud API
Прагматичная AI-архитектура 2026 — не «всё API» и не «всё локально», а слоями:
| Слой | Что крутится | Чем |
|---|---|---|
| Локально (Apple Silicon) | Автодополнение, малые модели, preprocessing | Mac Mini M4 / M4 Pro, 7B–32B квантованные |
| Cloud API (pay-per-token) | Сложный reasoning, длинный контекст, multimodal | Claude / Gemini / DeepSeek |
| Cloud compute node (pay-per-time) | Agent с Xcode, CI-сборки, long runs | Cloud Mac (Vuncloud) |
Unified Memory на M4 делает 14B–32B квантованные эффективными — тихо, мало ватт, без обязательной NVIDIA. Локально не тянет: iOS-сборка с Claude Code, Xcode UI-тесты, weekend-миграция в tmux. Там стабильность узла важнее выбора модели.
FAQ
Какая самая дешёвая prod-ready модель в 2026?
DeepSeek V4 Flash ($0.14/$0.28) и Gemini 2.5 Flash-Lite ($0.10/$0.40) делят нижний tier. Для CJK DeepSeek может быть ещё дешевле за счёт tokenizer.
Стоит ли GPT-5.5 после подорожания?
Если вы глубоко в экосистеме OpenAI (Assistants API, Realtime Voice, DALL·E / Sora, Azure OpenAI) — да. Чистый текст/код: Gemini 3.1 Pro и Claude Opus 4.8 выгоднее.
Claude Opus 4.8 или GPT-5.5?
Code agent → Opus 4.8 (SWE-bench +6 п.п., выход −17 %). Плотные tools, multimodal, voice → GPT-5.5. Вход: $5/M у обоих.
Как обойтись со ступенью 200K у Gemini 3.1 Pro?
Chunking RAG, вход под 200K. Или Context Caching Gemini для повторяющихся документов. После 200K вход ×2: с $2 до $4.
DeepSeek V4 для production?
Силён для команд с китайским контуром и CJK workloads. Enterprise: оцените резидентность данных, федеральные ограничения US и локальные требования. Технически и по цене — ок; compliance — переменная.
Solo-dev, бюджет $50/мес?
DeepSeek V4 Pro как база ($30), Gemini 2.5 Flash-Lite резерв ($10), $10 на экстренный Sonnet для жёстких задач.
Подписка (ChatGPT Plus / Claude Pro) или API?
< 2 ч/день: подписка. > 4 ч или интеграция в продукт: API. Claude Code Max $100/мес ≈ 50 интенсивных Opus-сессий.
Итог
Выбор модели — только первый шаг. В 2026 отличает тех, кто доводит агентов в стабильном runtime — зелёная сборка, тесты пройдены, PR смержен.
Модель = мозг, runtime = тело. API-счёт — половина; вторая половина — держит ли машина 24/7.
Claude Code для iOS/macOS или агент, который должен пережить ночь? Сначала зафиксируйте Cloud Mac, который не отвалится — потом обсуждайте Fable vs Opus.
Agent-dev: модель выбран — runtime тоже
Vuncloud выделенный Mac mini M4 Cloud Mac: long runs Claude Code, сборки Xcode, tmux на ночь, US-East/West/APAC — слой «тела» для агентов, которые не обрываются.
Читать дальше
- Гонка моделей закончилась—почему Mac-узлы так трудно достать
- От Opus 4.8 к Fable 5: что Anthropic реально изменила в agentic-апгрейде
- Mac Mini M4 для AI-разработки? Локальный inference vs Cloud Mac 2026
Обновлено: 17 июня 2026. Цены и бенчмарки — с публичных страниц вендоров и SWE-bench Verified (июнь 2026).