Vuncloud Блог
← Назад к полевым заметкам

Цены, конфиг, производительность и аудитории LLM 2026—полный разбор

цены LLM 2026 · API GPT-5.5 · Claude Opus · Gemini 3.1 Pro · DeepSeek V4 · SWE-bench ·~14 мин чтения

Абстрактная визуализация нейросети—сравнение цен и производительности API LLM 2026: GPT, Claude, Gemini, DeepSeek

В июне 2026 разброс цен на выход LLM — до 643×; разбираем цену, конфиг, производительность и аудиторию, чтобы не ошибиться с счётом и контекстом.

643×
Разрыв цен выхода DeepSeek V4 Flash vs GPT-5.5 Pro
95%
Claude Fable 5 · лидер SWE-bench Verified
$0.10
Gemini 2.5 Flash-Lite вход / M токенов

1. Обзор цен LLM 2026

1.1 Флагманский tier: потолок возможностей и цены

Модель Вендор Вход Кэш-вход Выход Контекст
GPT-5.5 Pro OpenAI $30 $180 ~1M (эффективно ~258K)
Claude Fable 5 Anthropic $10 $1 $50 1M
GPT-5.5 OpenAI $5 $0.50 $30 ~1M (эффективно ~258K)
Claude Opus 4.8 Anthropic $5 $0.50 $25 1M
Claude Sonnet 4.6 Anthropic $3 $0.30 $15 1M (единая цена)
Gemini 3.1 Pro ≤200K Google $2 $0.20 $12 2M
Gemini 3.1 Pro >200K Google $4 $0.40 $18 2M
DeepSeek V4 Pro DeepSeek $0.435 $0.0036 $0.87 128K–1M

Три контринтуитивных факта:

  • Gemini 3.1 Pro — самый дешёвый флагман. На миллион токенов: вход на 60 % дешевле GPT-5.5, выход на 60 % дешевле. На длинном контексте разрыв ещё больше.
  • Claude Opus 4.8 и GPT-5.5 стоят одинаково на входе ($5), но Claude на 17 % дешевле на выходе. Миллион сгенерированных токенов: Opus экономит $5.
  • DeepSeek V4 Pro дешевле на выходе, чем самый доступный Flash-Lite от Gemini. Это не «open source на скидку» — официальные коммерческие API-цены.

1.2 Средний tier: sweet spot для ежедневной работы

Модель Вход Выход Контекст Типичный сценарий
GPT-5.4 $2.50 $15 1M Баланс в экосистеме OpenAI
GPT-5.3 Codex $1.75 $14 128K Автодополнение кода, интеграция в IDE
Gemini 3.5 Flash $1.50 $9 1M Мультимodal + быстрый reasoning
Claude Haiku 4.5 $1.00 $5.00 200K Низкая задержка, высокая concurrency
Kimi K2.6 $0.60 $2.50 262K Длинные китайские тексты
Qwen3.5-Plus $0.40 $2.40 1M Экосистема Alibaba, китайские сценарии

1.3 Экономичный tier: ров для массовых вызовов

Модель Вход Выход Примечание
GPT-5.4-nano $0.20 $1.25 Самый дешёвый US closed-source tier
Gemini 3.1 Flash-Lite $0.25 $1.50 Нативный multimodal
Gemini 2.5 Flash-Lite $0.10 $0.40 Минимальная цена
DeepSeek V4 Flash $0.14 $0.28 Кэш-hit вход $0.0028
小米 MiMo-V2.5-Flash $0.10 $0.30 Китайский ultra-low-cost
Grok 4.1 Fast $0.20 $0.50 2M контекст + поиск в реальном времени

Насколько велик разрыв? В токенах выхода, база 1× (DeepSeek V4 Flash): GPT-5.5 = 107×, GPT-5.5 Pro = 643×, Claude Fable 5 = 179×.

2. Конфиг: что определяет счёт помимо прайса

2.1 Контекстное окно: номинал ≠ рабочий объём

Context в рекламе и context в production — часто разные вещи.

Модель Номинальный контекст Практический потолок Подводный камень
GPT-5.5 1M Lossy-сжатие с ~258K Агент «забывает» посреди long run
Claude Sonnet 4.6 1M 1M единая цена, без ступеней Лучшее соотношение цена/качество на длинном контексте
Gemini 3.1 Pro 2M Вход ×2 после 200K Посчитайте ступень до заливки RAG целиком
DeepSeek V4 Pro 128K–1M Зависит от версии деплоя Compliance и резидентность данных — отдельная оценка
Kimi K2.6 262K 262K Силён на длинных китайских текстах

Рекомендация: RAG-пайплайн регулярно за 200K токенов? Claude Sonnet 4.6 (1M flat) или Gemini 3.1 Pro держать под 200K. Иначе счёт и latency улетят.

2.2 Prompt Caching: до −90 %, но три разных правила игры

В 2026 без кэша в prod вы платите за system prompt и док-базу заново на каждый запрос.

Вендор Скидка кэша Механизм Нюанс
Anthropic до 90 % Ручные breakpoints cache_control Тарифы записи 5 мин / 1 ч
OpenAI 50 % Автоматически, без настройки От 1024 токенов, одинаковый prefix = hit
Google до 90 % Implicit + explicit Почасовая плата за хранение — редкие hits могут выйти дороже
DeepSeek до 99 % Автоматически V4 Flash cache-hit вход $0.0028/M

Типовая экономия: 1 M входных токенов/день, 60 % — повторяющийся system prompt и RAG-контекст:

  • Claude Opus 4.8: $5 → ~$2.3/день (−54 %)
  • GPT-5.5: $5 → ~$3.2/день (−36 %)
  • Gemini 3.1 Pro: $2 → ~$1.1/день (−45 %)
  • DeepSeek V4 Pro: $0.435 → ~$0.05/день (−89 %)

2.3 Batch API и уровни reasoning

  • Batch API (OpenAI / Anthropic / Google): ещё −50 % для не-realtime задач — offline-обработка, массовый перевод, прогоны бенчмарков.
  • Reasoning effort: xhigh у GPT-5.5, extended thinking у Claude — скрытые reasoning-токены, всё считается как выход. «Ответ на 500 токенов» может съесть 5000+ reasoning-токенов.
  • Priority queue (OpenAI): ×2,5 за меньшую задержку. Окупается только для online-сервисов с жёстким SLA.

2.4 Ловушки tokenizer: тот же текст, +35 % токенов

Anthropic сменил tokenizer с Opus 4.7 — тот же текст может стоить до 35 % больше токенов. Тариф тот же, счёт другой. Для русского и английского: DeepSeek и Qwen часто tokenize эффективнее GPT — разница 10–20 % в стоимости, не мелочь.

3. Производительность: что говорят бенчмарки

3.1 Код: SWE-bench Verified (июнь 2026)

SWE-bench Verified проверяет, может ли модель починить реальные GitHub issues — 500 задач с ручной верификацией. Намного показательнее, чем «напиши Hello World».

Место Модель SWE-bench Verified Выход ($/M)
1 Claude Fable 5 95.0% $50
2 Claude Opus 4.8 88.6% $25
3 GPT-5.5 82.6% $30
4 Claude Opus 4.7 82.0% $25
5 Gemini 3.5 Flash 79.8% $9
6 Gemini 3.1 Pro 80.6% $12
7 DeepSeek V4 ~81% $0.87

Как читать таблицу:

  • Код — по-прежнему территория Claude. Fable 5 и Opus 4.8 на лигу выше остальных. С Cursor, Claude Code или Devin-подобными инструментами это «починить с первого раза».
  • GPT-5.5 силён, но не король кода. Tool calling, multimodal, интеграция в экосистему — там его сила.
  • DeepSeek V4 при 81 % и $0.87/M на выходе: поразительное соотношение цена/качество. Для solo-dev и vibe coding — самый дешёвый «рабочий» tier.
Заметка: SWE-bench сильно зависит от agent scaffolding. Внутренние тесты вендоров часто на 15–30 п.п. выше публичных бенчмарков. Сравнивайте при одинаковом scaffolding, не абсолютные цифры.
Разработчик проверяет код и результаты SWE-bench — выбор LLM API по коду и цене

3.2 Reasoning и знания: MMLU-Pro, GPQA, длинный контекст

Измерение Лидер Применение
Сложный multi-step reasoning Claude Fable 5, GPT-5.5 Pro Матдоказательства, legal tech, помощь в исследованиях
Понимание длинных документов Gemini 3.1 Pro (2M), Claude Sonnet 4.6 (1M flat) Целый PDF на вход, Q&A на выход
Multimodal (изображение/звук/видео) Серия Gemini 3, GPT-5.5 Native vision + audio
Поиск в реальном времени Grok 4.x Новости, sentiment, свежие данные
Китайский: понимание и генерация DeepSeek V4, Qwen3.5, Kimi K2.6 Более эффективная tokenization для CJK

3.3 Задержка и пропускная способность

Модель Time-to-first-token Пропускная способность Идеально для
Claude Haiku 4.5 Очень низкая Высокая Live-чат, классификация в реальном времени
Gemini 2.5 Flash-Lite Очень низкая Очень высокая Миллионы вызовов/день
GPT-5.4-nano Низкая Высокая Лёгкие задачи в стеке OpenAI
Claude Opus 4.8 Средняя Средняя Сложный однораундовый reasoning
Claude Fable 5 Высокая Низкая Долгие агенты, секунды не критичны

4. Аудитория: кому что брать

4.1 Solo-dev / vibe coding

Рекомендуемый стек:

  • Ежедневный код: Claude Opus 4.8 (API) или Claude Code Max $100/мес
  • Эконом-вариант: DeepSeek V4 Pro
  • Ultra-light: Gemini 2.5 Flash-Lite

Расчёт: Claude Code Max $100/мес ≈ 50 интенсивных Opus-сессий. Больше 2 ч кодинга/день: подписка выгоднее pay-per-token. Меньше — DeepSeek V4 Pro API дешевле.

Важно: в Cursor и аналогах обязательно ставьте spending hard cap. Кейсы из сообщества: MAX-режим, $11 922 за 4 недели.

4.2 Стартап / небольшой SaaS

Рекомендуемый стек:

  • Core reasoning: Gemini 3.1 Pro (флагман по цене/качеству)
  • Code agent: Claude Sonnet 4.6 (1M flat)
  • Массовый backend: DeepSeek V4 Flash + Batch
  • Routing: сложное → Sonnet, простая классификация → Flash-Lite

Оценка в месяц (средний SaaS, 5 M токенов/день):

Схема Месяц (без кэша) Месяц (40 % кэш)
Всё Claude Sonnet 4.6 ~$3,900 ~$2,574
Всё Gemini 3.1 Pro ~$2,640 ~$1,743
Всё DeepSeek V4 Pro ~$438 ~$289
Routing (20 % Sonnet + 80 % Flash) ~$1,200 ~$750

4.3 Enterprise / чувствительность к compliance

Рекомендуемый стек:

  • EU/US entity: AWS Bedrock (Claude) или Vertex AI (Gemini) — DPA и регион на выбор
  • Security review кода: Claude Opus 4.8 + private Git integration
  • Не рекомендуется: сторонние OpenAI-прокси (риск трансграничных данных > экономия)

Обязательный чеклист:

  • Лимиты бюджета и алерты на уровне API key
  • Prompt Caching в prod (−30–50 %)
  • Стратегия routing — не всё на Opus
  • Code-агенты в изолированной среде (Cloud Mac / контейнер), не на bare metal

4.4 AI-разработчик / builder agent-фреймворков

Рекомендуемый стек:

  • Долгая автономия: Claude Fable 5
  • Оркестрация tools: GPT-5.5
  • Локальные dev-тесты: Mac Apple Silicon + квантованные Qwen/DeepSeek
  • Prod fallback: Gemini 3.1 Pro (длинный контекст + низкая цена)

Зачем Apple Silicon? В 2026 узкое место при сборке агентов — не только API, но и runtime. Claude Code требует Xcode-тесты на macOS, iOS-сборки на реальном железе, tmux на всю ночь. Модель топ, узел отвалился — предыдущие token-доллары сгорели. Подробнее: В эпоху AI дефицит не в моделях, а в compute-узлах.

4.5 Глобальный SaaS / мультиязычная поддержка

Рекомендуемый стек:

  • Workhorse: DeepSeek V4 Pro (перевод, summary, support)
  • EU/US пользователи: Gemini 3.1 Flash-Lite или GPT-5.4-nano
  • Качественный polish: Claude Haiku 4.5

4.6 Студенты / исследователи

Рекомендуемый стек:

  • Gemini 3 Flash Preview (free tier)
  • DeepSeek V4 Flash (эксперименты по минимальной цене)
  • Локально: Mac Mini M4 с 7B–32B квантованными для прототипов

5. Реальные затраты: три типовых сценария

Сценарий A: AI support bot (100K диалогов/день)

Допущение: 2K вход + 500 выход за раунд, 80 % cache hit на system prompt.

Модель День Месяц
GPT-5.4-nano ~$5.5 ~$165
Gemini 2.5 Flash-Lite ~$3.2 ~$96
DeepSeek V4 Flash ~$1.8 ~$54
Claude Haiku 4.5 ~$12 ~$360

Вывод: support не требует флагмана. DeepSeek V4 Flash или Gemini Flash-Lite хватит — до $100/мес.

Сценарий B: code agent (50 repo-задач/день)

Допущение: 50K вход + 20K выход за задачу, 10 tool calls.

Модель День Месяц
Claude Opus 4.8 ~$50 ~$1,500
GPT-5.5 ~$58 ~$1,740
DeepSeek V4 Pro ~$2.5 ~$75
Claude Fable 5 ~$100 ~$3,000

Вывод: качество → Opus 4.8. бюджет → DeepSeek V4 Pro (с просадкой success rate). долгая автономия → Fable 5.

Сценарий C: RAG по длинным документам (1000 запросов/день, по 150K вход)

Модель День Месяц
Gemini 3.1 Pro (≤200K) ~$360 ~$10,800
Claude Sonnet 4.6 (1M flat) ~$495 ~$14,850
Gemini 3.1 Pro (tier >200K) ~$540 ~$16,200

Вывод: RAG держите под 200K с Gemini 3.1 Pro или берите Claude Sonnet 4.6 за 1M flat. Перед prod оптимизируйте chunking — не заливайте всю книгу каждый раз.

6. Пять правил выбора модели в 2026

  1. Сначала форма запроса, потом модель. Много выхода → флагман. Повторяющийся вход → cache-friendly. Длинный контекст → flat tier.
  2. Routing, не монолит. В 2026 экономят не самой дешёвой моделью везде, а схемой 80 % Flash + 20 % флагман.
  3. Кэш обязателен, не опция. Без Prompt Caching в prod вы сознательно переплачиваете 30–50 %.
  4. Смотрите total cost, не sticker price. DeepSeek дешевле всех — но нужно учесть compliance, аудит и стабильность аккаунта.
  5. Модель = мозг, runtime = тело. В эпоху агентов API-счёт — половина; вторая половина — держит ли машина 24/7.

7. Apple Silicon: гибрид локального compute и cloud API

Прагматичная AI-архитектура 2026 — не «всё API» и не «всё локально», а слоями:

Слой Что крутится Чем
Локально (Apple Silicon) Автодополнение, малые модели, preprocessing Mac Mini M4 / M4 Pro, 7B–32B квантованные
Cloud API (pay-per-token) Сложный reasoning, длинный контекст, multimodal Claude / Gemini / DeepSeek
Cloud compute node (pay-per-time) Agent с Xcode, CI-сборки, long runs Cloud Mac (Vuncloud)

Unified Memory на M4 делает 14B–32B квантованные эффективными — тихо, мало ватт, без обязательной NVIDIA. Локально не тянет: iOS-сборка с Claude Code, Xcode UI-тесты, weekend-миграция в tmux. Там стабильность узла важнее выбора модели.

FAQ

Какая самая дешёвая prod-ready модель в 2026?

DeepSeek V4 Flash ($0.14/$0.28) и Gemini 2.5 Flash-Lite ($0.10/$0.40) делят нижний tier. Для CJK DeepSeek может быть ещё дешевле за счёт tokenizer.

Стоит ли GPT-5.5 после подорожания?

Если вы глубоко в экосистеме OpenAI (Assistants API, Realtime Voice, DALL·E / Sora, Azure OpenAI) — да. Чистый текст/код: Gemini 3.1 Pro и Claude Opus 4.8 выгоднее.

Claude Opus 4.8 или GPT-5.5?

Code agent → Opus 4.8 (SWE-bench +6 п.п., выход −17 %). Плотные tools, multimodal, voice → GPT-5.5. Вход: $5/M у обоих.

Как обойтись со ступенью 200K у Gemini 3.1 Pro?

Chunking RAG, вход под 200K. Или Context Caching Gemini для повторяющихся документов. После 200K вход ×2: с $2 до $4.

DeepSeek V4 для production?

Силён для команд с китайским контуром и CJK workloads. Enterprise: оцените резидентность данных, федеральные ограничения US и локальные требования. Технически и по цене — ок; compliance — переменная.

Solo-dev, бюджет $50/мес?

DeepSeek V4 Pro как база ($30), Gemini 2.5 Flash-Lite резерв ($10), $10 на экстренный Sonnet для жёстких задач.

Подписка (ChatGPT Plus / Claude Pro) или API?

< 2 ч/день: подписка. > 4 ч или интеграция в продукт: API. Claude Code Max $100/мес ≈ 50 интенсивных Opus-сессий.

Итог

Выбор модели — только первый шаг. В 2026 отличает тех, кто доводит агентов в стабильном runtime — зелёная сборка, тесты пройдены, PR смержен.

Модель = мозг, runtime = тело. API-счёт — половина; вторая половина — держит ли машина 24/7.

Claude Code для iOS/macOS или агент, который должен пережить ночь? Сначала зафиксируйте Cloud Mac, который не отвалится — потом обсуждайте Fable vs Opus.

Agent-dev: модель выбран — runtime тоже

Vuncloud выделенный Mac mini M4 Cloud Mac: long runs Claude Code, сборки Xcode, tmux на ночь, US-East/West/APAC — слой «тела» для агентов, которые не обрываются.

Тарифы Cloud Mac · Зачем агентам нужны compute-узлы

Обновлено: 17 июня 2026. Цены и бенчмарки — с публичных страниц вендоров и SWE-bench Verified (июнь 2026).

Полевые заметки · ИИ

Планируйте LLM-стек на год

GPT-5.5 · Claude Opus · Gemini · DeepSeek · SWE-bench · Cloud Mac

Тарифы Cloud Mac
Акция Смотреть тарифы