Vuncloud Blog
← Retour au carnet du labo

Prix, config, perfs et publics LLM 2026—le guide complet

tarifs LLM 2026 · API GPT-5.5 · Claude Opus · Gemini 3.1 Pro · DeepSeek V4 · SWE-bench ·~14 min de lecture

Visualisation de réseau neuronal—comparatif tarifs et perfs API LLM 2026 : GPT, Claude, Gemini, DeepSeek

En juin 2026, les prix de sortie LLM vont du simple au 643×—ce guide couvre coût, config, perfs et publics pour éviter facture et contexte ratés.

643×
Écart de prix sortie DeepSeek V4 Flash vs GPT-5.5 Pro
95%
Claude Fable 5 · tête SWE-bench Verified
$0.10
Gemini 2.5 Flash-Lite entrée / M tokens

1. Panorama des prix LLM 2026

1.1 Tier flagship : plafond de capacité, plafond de prix

Modèle Éditeur Entrée Entrée cache Sortie Contexte
GPT-5.5 Pro OpenAI $30 $180 ~1M (effectif ~258K)
Claude Fable 5 Anthropic $10 $1 $50 1M
GPT-5.5 OpenAI $5 $0.50 $30 ~1M (effectif ~258K)
Claude Opus 4.8 Anthropic $5 $0.50 $25 1M
Claude Sonnet 4.6 Anthropic $3 $0.30 $15 1M (prix unique)
Gemini 3.1 Pro ≤200K Google $2 $0.20 $12 2M
Gemini 3.1 Pro >200K Google $4 $0.40 $18 2M
DeepSeek V4 Pro DeepSeek $0.435 $0.0036 $0.87 128K–1M

Trois faits contre-intuitifs :

  • Gemini 3.1 Pro est le flagship le moins cher. Par million de tokens : entrée 60 % moins chère que GPT-5.5, sortie 60 % moins chère. Encore plus vrai en long contexte.
  • Claude Opus 4.8 et GPT-5.5 coûtent pareil en entrée ($5), mais Claude est 17 % moins cher en sortie. Un million de tokens générés : Opus économise $5.
  • DeepSeek V4 Pro est moins cher en sortie que le Flash-Lite le plus abordable de Gemini. Ce n'est pas du « open source de fortune » — ce sont des tarifs API commerciaux officiels.

1.2 Tier milieu : la zone confortable du quotidien

Modèle Entrée Sortie Contexte Usage typique
GPT-5.4 $2.50 $15 1M Équilibre dans l'écosystème OpenAI
GPT-5.3 Codex $1.75 $14 128K Complétion de code, intégration IDE
Gemini 3.5 Flash $1.50 $9 1M Multimodal + reasoning rapide
Claude Haiku 4.5 $1.00 $5.00 200K Faible latence, forte concurrence
Kimi K2.6 $0.60 $2.50 262K Longs textes chinois
Qwen3.5-Plus $0.40 $2.40 1M Écosystème Alibaba, scénarios chinois

1.3 Tier économique : le fossé pour les appels massifs

Modèle Entrée Sortie Remarque
GPT-5.4-nano $0.20 $1.25 Tier US closed-source le plus bas
Gemini 3.1 Flash-Lite $0.25 $1.50 Multimodal natif
Gemini 2.5 Flash-Lite $0.10 $0.40 Prix plancher
DeepSeek V4 Flash $0.14 $0.28 Entrée cache hit $0.0028
小米 MiMo-V2.5-Flash $0.10 $0.30 Ultra-low-cost chinois
Grok 4.1 Fast $0.20 $0.50 2M contexte + recherche temps réel

Quelle est l'ampleur réelle de l'écart ? En tokens de sortie, base 1× (DeepSeek V4 Flash) : GPT-5.5 = 107×, GPT-5.5 Pro = 643×, Claude Fable 5 = 179×.

2. Config : ce qui fixe la facture au-delà du tarif

2.1 Fenêtre de contexte : nominal ≠ utilisable

Le contexte annoncé par l'éditeur et celui que vous pouvez exploiter en prod sont souvent deux choses différentes.

Modèle Contexte nominal Plafond pratique Piège
GPT-5.5 1M Compression lossy dès ~258K Agent qui « oublie » en milieu de long run
Claude Sonnet 4.6 1M 1M prix unique, pas de paliers Meilleur rapport qualité/prix long contexte
Gemini 3.1 Pro 2M Entrée ×2 au-delà de 200K Calculez le palier avant d'inonder le RAG
DeepSeek V4 Pro 128K–1M Selon version de déploiement Conformité RGPD à évaluer séparément
Kimi K2.6 262K 262K Fort sur longs textes chinois

Conseil : pipeline RAG souvent au-delà de 200K tokens ? Claude Sonnet 4.6 (1M prix unique) ou Gemini 3.1 Pro maintenu sous 200K. Sinon facture et latence explosent.

2.2 Prompt Caching : −90 %, mais trois règles du jeu

En 2026, pas de cache en prod = repayer le system prompt et la doc à chaque requête.

Éditeur Réduction cache Mécanisme Attention
Anthropic jusqu'à 90 % Breakpoints cache_control manuels Tarifs d'écriture 5 min / 1 h
OpenAI 50 % Automatique, sans config Dès 1024 tokens, même préfixe = hit
Google jusqu'à 90 % Implicite + explicite Stockage horaire en plus — hits rares = parfois plus cher
DeepSeek jusqu'à 99 % Automatique V4 Flash cache hit entrée $0.0028/M

Économie typique : 1 M tokens entrée/jour, dont 60 % de system prompt et contexte RAG répétés :

  • Claude Opus 4.8 : $5 → ~$2.3/j (−54 %)
  • GPT-5.5 : $5 → ~$3.2/j (−36 %)
  • Gemini 3.1 Pro : $2 → ~$1.1/j (−45 %)
  • DeepSeek V4 Pro : $0.435 → ~$0.05/j (−89 %)

2.3 Batch API & niveaux de reasoning

  • Batch API (OpenAI / Anthropic / Google) : −50 % supplémentaire pour tâches non temps réel — traitement offline, traduction de masse, benchmarks.
  • Reasoning effort : xhigh sur GPT-5.5, extended thinking sur Claude — tokens de reasoning cachés, tout facturé en sortie. Une « réponse de 500 tokens » peut consommer 5000+ tokens de reasoning.
  • Priority queue (OpenAI) : ×2,5 pour moins de latence. Rentable seulement pour services en ligne sensibles au SLA.

2.4 Pièges tokenizer : même texte, +35 % de tokens

Anthropic a changé de tokenizer dès Opus 4.7 — le même texte peut coûter jusqu'à 35 % de tokens en plus. Tarif identique, facture différente. Pour le français et l'anglais : DeepSeek et Qwen tokenisent souvent mieux que GPT — 10–20 % d'écart de coût, pas un détail.

3. Performance : ce que disent les benchmarks

3.1 Code : SWE-bench Verified (juin 2026)

SWE-bench Verified mesure si un modèle peut corriger de vrais issues GitHub — 500 tâches validées manuellement. Bien plus parlant qu'un « Hello World ».

Rang Modèle SWE-bench Verified Sortie ($/M)
1 Claude Fable 5 95.0% $50
2 Claude Opus 4.8 88.6% $25
3 GPT-5.5 82.6% $30
4 Claude Opus 4.7 82.0% $25
5 Gemini 3.5 Flash 79.8% $9
6 Gemini 3.1 Pro 80.6% $12
7 DeepSeek V4 ~81% $0.87

Comment lire le tableau :

  • Le code reste le terrain de Claude. Fable 5 et Opus 4.8 mènent une ligue au-dessus du reste. Avec Cursor, Claude Code ou des outils type Devin, ça se traduit par « corriger du premier coup ».
  • GPT-5.5 est fort, mais pas le roi du code. Tool calling, multimodal, intégration écosystème — là il brille.
  • DeepSeek V4 à 81 % pour $0.87/M en sortie : rapport qualité/prix saisissant. Pour solo dev et vibe coding, le tier « utilisable » le moins cher.
Note : les scores SWE-bench dépendent fortement du scaffolding agent. Les tests internes éditeurs dépassent souvent les benchmarks publics de 15–30 points. Comparez sous le même scaffolding, pas les valeurs absolues.
Développeur relisant code et résultats SWE-bench — choix API LLM code et rapport qualité/prix

3.2 Reasoning & connaissance : MMLU-Pro, GPQA, long contexte

Dimension Leader Usage
Reasoning multi-étapes complexe Claude Fable 5, GPT-5.5 Pro Preuves math, legal tech, aide recherche
Compréhension long document Gemini 3.1 Pro (2M), Claude Sonnet 4.6 (1M flat) PDF entier en entrée, Q&A en sortie
Multimodal (image/son/vidéo) Série Gemini 3, GPT-5.5 Vision + audio natifs
Recherche temps réel Grok 4.x News, sentiment, données fraîches
Chinois compréhension/génération DeepSeek V4, Qwen3.5, Kimi K2.6 Tokenisation CJK plus efficace

3.3 Latence & débit

Modèle Time-to-first-token Débit Idéal pour
Claude Haiku 4.5 Très bas Élevé Chat live, classification temps réel
Gemini 2.5 Flash-Lite Très bas Très élevé Millions d'appels/jour
GPT-5.4-nano Bas Élevé Tâches légères stack OpenAI
Claude Opus 4.8 Moyen Moyen Reasoning complexe mono-tour
Claude Fable 5 Élevé Bas Agents longue durée, secondes non critiques

4. Publics : qui prend quoi

4.1 Solo dev / vibe coding

Stack recommandé :

  • Coding quotidien : Claude Opus 4.8 (API) ou Claude Code Max $100/mois
  • Plan B économique : DeepSeek V4 Pro
  • Ultra-léger : Gemini 2.5 Flash-Lite

Calcul : Claude Code Max $100/mois ≈ 50 sessions Opus intensives. Plus de 2 h de code/jour : l'abonnement bat le pay-per-token. En dessous : DeepSeek V4 Pro API est moins cher.

Rappel : dans Cursor et similaires, fixez un spending hard cap. Cas communauté : mode MAX, $11 922 en 4 semaines.

4.2 Startup / petit SaaS

Stack recommandé :

  • Reasoning cœur : Gemini 3.1 Pro (flagship qualité/prix)
  • Agent code : Claude Sonnet 4.6 (1M flat)
  • Backend massif : DeepSeek V4 Flash + Batch
  • Routing : complexe → Sonnet, classification simple → Flash-Lite

Estimation mensuelle (SaaS moyen, 5 M tokens/jour) :

Setup Mois (sans cache) Mois (40 % cache)
Tout Claude Sonnet 4.6 ~$3,900 ~$2,574
Tout Gemini 3.1 Pro ~$2,640 ~$1,743
Tout DeepSeek V4 Pro ~$438 ~$289
Routing (20 % Sonnet + 80 % Flash) ~$1,200 ~$750

4.3 Entreprise / sensible conformité (UE)

Stack recommandé :

  • Entité UE/US : AWS Bedrock (Claude) ou Vertex AI (Gemini) — DPA et région choisissables
  • Revue sécurité code : Claude Opus 4.8 + intégration Git privée
  • Déconseillé : proxies OpenAI tiers (risque RGPD > économie)

Checklist obligatoire :

  • Plafonds budget et alertes par clé API
  • Prompt Caching en prod (−30–50 %)
  • Stratégie de routing — pas tout sur Opus
  • Agents code en environnement isolé (Cloud Mac / conteneur), pas sur bare metal

4.4 Dev IA / builders de frameworks agent

Stack recommandé :

  • Autonomie longue durée : Claude Fable 5
  • Orchestration tools : GPT-5.5
  • Tests dev locaux : Mac Apple Silicon + Qwen/DeepSeek quantifiés
  • Fallback prod : Gemini 3.1 Pro (long contexte + bas prix)

Pourquoi Apple Silicon ? En 2026, le goulot du dev agent n'est pas que l'API — c'est la runtime. Claude Code exige des tests Xcode sur macOS, des builds iOS sur vrai matériel, du tmux toute la nuit. Modèle au top, nœud coupé — les dollars de tokens précédents sont perdus. Voir À l'ère de l'IA, c'est le nœud de calcul qui manque, pas le modèle.

4.5 SaaS global / support multilingue

Stack recommandé :

  • Workhorse : DeepSeek V4 Pro (traduction, résumé, support)
  • Utilisateurs UE/US : Gemini 3.1 Flash-Lite ou GPT-5.4-nano
  • Polish qualité : Claude Haiku 4.5

4.6 Étudiants / recherche

Stack recommandé :

  • Gemini 3 Flash Preview (quota gratuit)
  • DeepSeek V4 Flash (expériences au prix plancher)
  • Local : Mac Mini M4 avec 7B–32B quantifiés pour prototypage

5. Coûts réels : trois scénarios types

Scénario A : bot support IA (100K conversations/jour)

Hypothèse : 2K entrée + 500 sortie par tour, 80 % cache hit sur system prompt.

Modèle Jour Mois
GPT-5.4-nano ~$5.5 ~$165
Gemini 2.5 Flash-Lite ~$3.2 ~$96
DeepSeek V4 Flash ~$1.8 ~$54
Claude Haiku 4.5 ~$12 ~$360

Conclusion : le support n'a pas besoin de flagship. DeepSeek V4 Flash ou Gemini Flash-Lite suffit — sous $100/mois.

Scénario B : agent code (50 tâches repo/jour)

Hypothèse : 50K entrée + 20K sortie par tâche, 10 tool calls.

Modèle Jour Mois
Claude Opus 4.8 ~$50 ~$1,500
GPT-5.5 ~$58 ~$1,740
DeepSeek V4 Pro ~$2.5 ~$75
Claude Fable 5 ~$100 ~$3,000

Conclusion : qualité → Opus 4.8. budget → DeepSeek V4 Pro (avec baisse de taux de succès). autonomie longue → Fable 5.

Scénario C : RAG long document (1000 requêtes/jour, 150K entrée chacune)

Modèle Jour Mois
Gemini 3.1 Pro (≤200K) ~$360 ~$10,800
Claude Sonnet 4.6 (1M flat) ~$495 ~$14,850
Gemini 3.1 Pro (palier >200K) ~$540 ~$16,200

Conclusion : RAG sous 200K avec Gemini 3.1 Pro, ou Claude Sonnet 4.6 pour 1M flat. Avant prod : optimisez le chunking — n'injectez pas le livre entier à chaque fois.

6. Cinq règles d'or pour choisir en 2026

  1. Forme de requête d'abord, modèle ensuite. Forte sortie → flagship. Entrée répétée → cache-friendly. Long contexte → tier flat.
  2. Routing, pas monolithe. En 2026 on économise avec 80 % Flash + 20 % flagship, pas en prenant le modèle le moins cher partout.
  3. Le cache est obligatoire, pas optionnel. Sans Prompt Caching en prod, vous payez volontairement 30–50 % de plus.
  4. Coût total, pas prix affiché. DeepSeek est le moins cher — les équipes UE doivent intégrer RGPD, audit et stabilité de compte.
  5. Modèle = cerveau, runtime = corps. À l'ère agent, la facture API n'est que la moitié — l'autre moitié, c'est si la machine tient 24/7.

7. Apple Silicon : hybride compute local + API cloud

L'architecture IA pragmatique 2026 n'est ni « tout API » ni « tout local » — c'est en couches :

Couche Ce qui tourne Avec quoi
Local (Apple Silicon) Complétion code, petits modèles, preprocessing Mac Mini M4 / M4 Pro, 7B–32B quantifiés
API cloud (pay-per-token) Reasoning complexe, long contexte, multimodal Claude / Gemini / DeepSeek
Nœud cloud (pay-per-time) Agent Xcode, builds CI, long runs Cloud Mac (Vuncloud)

La mémoire unifiée M4 rend les 14B–32B quantifiés efficaces — silencieux, peu de watts, pas de NVIDIA obligatoire. Ce que le local ne fait pas : build iOS avec Claude Code, tests UI Xcode, migration week-end dans tmux. Là, la stabilité du nœud compte plus que le choix du modèle.

FAQ

Quel est le modèle prod le moins cher en 2026 ?

DeepSeek V4 Flash ($0.14/$0.28) et Gemini 2.5 Flash-Lite ($0.10/$0.40) partagent le tier le plus bas. Pour du CJK, DeepSeek peut coûter encore moins grâce à un tokenizer plus efficace.

GPT-5.5 vaut-il encore le coup après la hausse ?

Si vous êtes ancré dans l'écosystème OpenAI (Assistants API, Realtime Voice, DALL·E / Sora, Azure OpenAI) : oui. Texte/code pur : Gemini 3.1 Pro et Claude Opus 4.8 offrent un meilleur rapport qualité/prix.

Claude Opus 4.8 ou GPT-5.5 ?

Agent code → Opus 4.8 (SWE-bench +6 pp, sortie −17 %). Tools denses, multimodal, voice → GPT-5.5. Entrée : $5/M pour les deux.

Comment gérer le palier 200K de Gemini 3.1 Pro ?

Chunker le RAG, garder l'entrée sous 200K. Ou Context Caching Gemini pour docs récurrents. Au-delà de 200K : entrée ×2, de $2 à $4.

DeepSeek V4 en production ?

Solide pour équipes avec lien Chine et workloads CJK. Entreprise UE : évaluer RGPD, interdiction fédérale US et résidence des données. Techniquement et en prix, c'est solide — la conformité est la variable.

Solo dev, budget $50/mois ?

DeepSeek V4 Pro en base ($30), Gemini 2.5 Flash-Lite en réserve ($10), $10 pour un Sonnet d'urgence sur les tâches dures.

Abonnement (ChatGPT Plus / Claude Pro) ou API ?

< 2 h/jour : abonnement. > 4 h ou intégration produit : API. Claude Code Max $100/mois ≈ 50 sessions Opus intensives.

Conclusion

Choisir le modèle n'est que la première étape. En 2026, ce qui distingue les équipes, c'est qui termine les agents dans une runtime stable — build vert, tests OK, PR mergée.

Modèle = cerveau, runtime = corps. La facture API n'est que la moitié — l'autre moitié, c'est si la machine tient 24/7.

Claude Code pour iOS/macOS ou un agent qui doit survivre à la nuit ? Verrouillez d'abord un Cloud Mac qui tient — puis discutez Fable vs Opus.

Dev agent : modèle OK — runtime aussi

Vuncloud Mac mini M4 Cloud Mac dédié : long runs Claude Code, builds Xcode, tmux toute la nuit, US-East/West/APAC — la couche « corps » pour des agents qui ne coupent pas.

Voir les offres Cloud Mac · Pourquoi les agents ont besoin de nœuds de calcul

Mise à jour : 17 juin 2026. Prix et benchmarks d'après les pages publiques des éditeurs et SWE-bench Verified (juin 2026).

Carnet du labo · IA

Planifier sa stack LLM sur l'année

GPT-5.5 · Claude Opus · Gemini · DeepSeek · SWE-bench · Cloud Mac

Voir les offres Cloud Mac
Offre limitée Voir les offres