En juin 2026, les prix de sortie LLM vont du simple au 643×—ce guide couvre coût, config, perfs et publics pour éviter facture et contexte ratés.
1. Panorama des prix LLM 2026
1.1 Tier flagship : plafond de capacité, plafond de prix
| Modèle | Éditeur | Entrée | Entrée cache | Sortie | Contexte |
|---|---|---|---|---|---|
| GPT-5.5 Pro | OpenAI | $30 | — | $180 | ~1M (effectif ~258K) |
| Claude Fable 5 | Anthropic | $10 | $1 | $50 | 1M |
| GPT-5.5 | OpenAI | $5 | $0.50 | $30 | ~1M (effectif ~258K) |
| Claude Opus 4.8 | Anthropic | $5 | $0.50 | $25 | 1M |
| Claude Sonnet 4.6 | Anthropic | $3 | $0.30 | $15 | 1M (prix unique) |
| Gemini 3.1 Pro ≤200K | $2 | $0.20 | $12 | 2M | |
| Gemini 3.1 Pro >200K | $4 | $0.40 | $18 | 2M | |
| DeepSeek V4 Pro | DeepSeek | $0.435 | $0.0036 | $0.87 | 128K–1M |
Trois faits contre-intuitifs :
- Gemini 3.1 Pro est le flagship le moins cher. Par million de tokens : entrée 60 % moins chère que GPT-5.5, sortie 60 % moins chère. Encore plus vrai en long contexte.
- Claude Opus 4.8 et GPT-5.5 coûtent pareil en entrée ($5), mais Claude est 17 % moins cher en sortie. Un million de tokens générés : Opus économise $5.
- DeepSeek V4 Pro est moins cher en sortie que le Flash-Lite le plus abordable de Gemini. Ce n'est pas du « open source de fortune » — ce sont des tarifs API commerciaux officiels.
1.2 Tier milieu : la zone confortable du quotidien
| Modèle | Entrée | Sortie | Contexte | Usage typique |
|---|---|---|---|---|
| GPT-5.4 | $2.50 | $15 | 1M | Équilibre dans l'écosystème OpenAI |
| GPT-5.3 Codex | $1.75 | $14 | 128K | Complétion de code, intégration IDE |
| Gemini 3.5 Flash | $1.50 | $9 | 1M | Multimodal + reasoning rapide |
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K | Faible latence, forte concurrence |
| Kimi K2.6 | $0.60 | $2.50 | 262K | Longs textes chinois |
| Qwen3.5-Plus | $0.40 | $2.40 | 1M | Écosystème Alibaba, scénarios chinois |
1.3 Tier économique : le fossé pour les appels massifs
| Modèle | Entrée | Sortie | Remarque |
|---|---|---|---|
| GPT-5.4-nano | $0.20 | $1.25 | Tier US closed-source le plus bas |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | Multimodal natif |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | Prix plancher |
| DeepSeek V4 Flash | $0.14 | $0.28 | Entrée cache hit $0.0028 |
| 小米 MiMo-V2.5-Flash | $0.10 | $0.30 | Ultra-low-cost chinois |
| Grok 4.1 Fast | $0.20 | $0.50 | 2M contexte + recherche temps réel |
Quelle est l'ampleur réelle de l'écart ? En tokens de sortie, base 1× (DeepSeek V4 Flash) : GPT-5.5 = 107×, GPT-5.5 Pro = 643×, Claude Fable 5 = 179×.
2. Config : ce qui fixe la facture au-delà du tarif
2.1 Fenêtre de contexte : nominal ≠ utilisable
Le contexte annoncé par l'éditeur et celui que vous pouvez exploiter en prod sont souvent deux choses différentes.
| Modèle | Contexte nominal | Plafond pratique | Piège |
|---|---|---|---|
| GPT-5.5 | 1M | Compression lossy dès ~258K | Agent qui « oublie » en milieu de long run |
| Claude Sonnet 4.6 | 1M | 1M prix unique, pas de paliers | Meilleur rapport qualité/prix long contexte |
| Gemini 3.1 Pro | 2M | Entrée ×2 au-delà de 200K | Calculez le palier avant d'inonder le RAG |
| DeepSeek V4 Pro | 128K–1M | Selon version de déploiement | Conformité RGPD à évaluer séparément |
| Kimi K2.6 | 262K | 262K | Fort sur longs textes chinois |
Conseil : pipeline RAG souvent au-delà de 200K tokens ? Claude Sonnet 4.6 (1M prix unique) ou Gemini 3.1 Pro maintenu sous 200K. Sinon facture et latence explosent.
2.2 Prompt Caching : −90 %, mais trois règles du jeu
En 2026, pas de cache en prod = repayer le system prompt et la doc à chaque requête.
| Éditeur | Réduction cache | Mécanisme | Attention |
|---|---|---|---|
| Anthropic | jusqu'à 90 % | Breakpoints cache_control manuels |
Tarifs d'écriture 5 min / 1 h |
| OpenAI | 50 % | Automatique, sans config | Dès 1024 tokens, même préfixe = hit |
| jusqu'à 90 % | Implicite + explicite | Stockage horaire en plus — hits rares = parfois plus cher | |
| DeepSeek | jusqu'à 99 % | Automatique | V4 Flash cache hit entrée $0.0028/M |
Économie typique : 1 M tokens entrée/jour, dont 60 % de system prompt et contexte RAG répétés :
- Claude Opus 4.8 : $5 → ~$2.3/j (−54 %)
- GPT-5.5 : $5 → ~$3.2/j (−36 %)
- Gemini 3.1 Pro : $2 → ~$1.1/j (−45 %)
- DeepSeek V4 Pro : $0.435 → ~$0.05/j (−89 %)
2.3 Batch API & niveaux de reasoning
- Batch API (OpenAI / Anthropic / Google) : −50 % supplémentaire pour tâches non temps réel — traitement offline, traduction de masse, benchmarks.
- Reasoning effort :
xhighsur GPT-5.5,extended thinkingsur Claude — tokens de reasoning cachés, tout facturé en sortie. Une « réponse de 500 tokens » peut consommer 5000+ tokens de reasoning. - Priority queue (OpenAI) : ×2,5 pour moins de latence. Rentable seulement pour services en ligne sensibles au SLA.
2.4 Pièges tokenizer : même texte, +35 % de tokens
Anthropic a changé de tokenizer dès Opus 4.7 — le même texte peut coûter jusqu'à 35 % de tokens en plus. Tarif identique, facture différente. Pour le français et l'anglais : DeepSeek et Qwen tokenisent souvent mieux que GPT — 10–20 % d'écart de coût, pas un détail.
3. Performance : ce que disent les benchmarks
3.1 Code : SWE-bench Verified (juin 2026)
SWE-bench Verified mesure si un modèle peut corriger de vrais issues GitHub — 500 tâches validées manuellement. Bien plus parlant qu'un « Hello World ».
| Rang | Modèle | SWE-bench Verified | Sortie ($/M) |
|---|---|---|---|
| 1 | Claude Fable 5 | 95.0% | $50 |
| 2 | Claude Opus 4.8 | 88.6% | $25 |
| 3 | GPT-5.5 | 82.6% | $30 |
| 4 | Claude Opus 4.7 | 82.0% | $25 |
| 5 | Gemini 3.5 Flash | 79.8% | $9 |
| 6 | Gemini 3.1 Pro | 80.6% | $12 |
| 7 | DeepSeek V4 | ~81% | $0.87 |
Comment lire le tableau :
- Le code reste le terrain de Claude. Fable 5 et Opus 4.8 mènent une ligue au-dessus du reste. Avec Cursor, Claude Code ou des outils type Devin, ça se traduit par « corriger du premier coup ».
- GPT-5.5 est fort, mais pas le roi du code. Tool calling, multimodal, intégration écosystème — là il brille.
- DeepSeek V4 à 81 % pour $0.87/M en sortie : rapport qualité/prix saisissant. Pour solo dev et vibe coding, le tier « utilisable » le moins cher.
Note : les scores SWE-bench dépendent fortement du scaffolding agent. Les tests internes éditeurs dépassent souvent les benchmarks publics de 15–30 points. Comparez sous le même scaffolding, pas les valeurs absolues.
3.2 Reasoning & connaissance : MMLU-Pro, GPQA, long contexte
| Dimension | Leader | Usage |
|---|---|---|
| Reasoning multi-étapes complexe | Claude Fable 5, GPT-5.5 Pro | Preuves math, legal tech, aide recherche |
| Compréhension long document | Gemini 3.1 Pro (2M), Claude Sonnet 4.6 (1M flat) | PDF entier en entrée, Q&A en sortie |
| Multimodal (image/son/vidéo) | Série Gemini 3, GPT-5.5 | Vision + audio natifs |
| Recherche temps réel | Grok 4.x | News, sentiment, données fraîches |
| Chinois compréhension/génération | DeepSeek V4, Qwen3.5, Kimi K2.6 | Tokenisation CJK plus efficace |
3.3 Latence & débit
| Modèle | Time-to-first-token | Débit | Idéal pour |
|---|---|---|---|
| Claude Haiku 4.5 | Très bas | Élevé | Chat live, classification temps réel |
| Gemini 2.5 Flash-Lite | Très bas | Très élevé | Millions d'appels/jour |
| GPT-5.4-nano | Bas | Élevé | Tâches légères stack OpenAI |
| Claude Opus 4.8 | Moyen | Moyen | Reasoning complexe mono-tour |
| Claude Fable 5 | Élevé | Bas | Agents longue durée, secondes non critiques |
4. Publics : qui prend quoi
4.1 Solo dev / vibe coding
Stack recommandé :
- Coding quotidien : Claude Opus 4.8 (API) ou Claude Code Max $100/mois
- Plan B économique : DeepSeek V4 Pro
- Ultra-léger : Gemini 2.5 Flash-Lite
Calcul : Claude Code Max $100/mois ≈ 50 sessions Opus intensives. Plus de 2 h de code/jour : l'abonnement bat le pay-per-token. En dessous : DeepSeek V4 Pro API est moins cher.
Rappel : dans Cursor et similaires, fixez un spending hard cap. Cas communauté : mode MAX, $11 922 en 4 semaines.
4.2 Startup / petit SaaS
Stack recommandé :
- Reasoning cœur : Gemini 3.1 Pro (flagship qualité/prix)
- Agent code : Claude Sonnet 4.6 (1M flat)
- Backend massif : DeepSeek V4 Flash + Batch
- Routing : complexe → Sonnet, classification simple → Flash-Lite
Estimation mensuelle (SaaS moyen, 5 M tokens/jour) :
| Setup | Mois (sans cache) | Mois (40 % cache) |
|---|---|---|
| Tout Claude Sonnet 4.6 | ~$3,900 | ~$2,574 |
| Tout Gemini 3.1 Pro | ~$2,640 | ~$1,743 |
| Tout DeepSeek V4 Pro | ~$438 | ~$289 |
| Routing (20 % Sonnet + 80 % Flash) | ~$1,200 | ~$750 |
4.3 Entreprise / sensible conformité (UE)
Stack recommandé :
- Entité UE/US : AWS Bedrock (Claude) ou Vertex AI (Gemini) — DPA et région choisissables
- Revue sécurité code : Claude Opus 4.8 + intégration Git privée
- Déconseillé : proxies OpenAI tiers (risque RGPD > économie)
Checklist obligatoire :
- Plafonds budget et alertes par clé API
- Prompt Caching en prod (−30–50 %)
- Stratégie de routing — pas tout sur Opus
- Agents code en environnement isolé (Cloud Mac / conteneur), pas sur bare metal
4.4 Dev IA / builders de frameworks agent
Stack recommandé :
- Autonomie longue durée : Claude Fable 5
- Orchestration tools : GPT-5.5
- Tests dev locaux : Mac Apple Silicon + Qwen/DeepSeek quantifiés
- Fallback prod : Gemini 3.1 Pro (long contexte + bas prix)
Pourquoi Apple Silicon ? En 2026, le goulot du dev agent n'est pas que l'API — c'est la runtime. Claude Code exige des tests Xcode sur macOS, des builds iOS sur vrai matériel, du tmux toute la nuit. Modèle au top, nœud coupé — les dollars de tokens précédents sont perdus. Voir À l'ère de l'IA, c'est le nœud de calcul qui manque, pas le modèle.
4.5 SaaS global / support multilingue
Stack recommandé :
- Workhorse : DeepSeek V4 Pro (traduction, résumé, support)
- Utilisateurs UE/US : Gemini 3.1 Flash-Lite ou GPT-5.4-nano
- Polish qualité : Claude Haiku 4.5
4.6 Étudiants / recherche
Stack recommandé :
- Gemini 3 Flash Preview (quota gratuit)
- DeepSeek V4 Flash (expériences au prix plancher)
- Local : Mac Mini M4 avec 7B–32B quantifiés pour prototypage
5. Coûts réels : trois scénarios types
Scénario A : bot support IA (100K conversations/jour)
Hypothèse : 2K entrée + 500 sortie par tour, 80 % cache hit sur system prompt.
| Modèle | Jour | Mois |
|---|---|---|
| GPT-5.4-nano | ~$5.5 | ~$165 |
| Gemini 2.5 Flash-Lite | ~$3.2 | ~$96 |
| DeepSeek V4 Flash | ~$1.8 | ~$54 |
| Claude Haiku 4.5 | ~$12 | ~$360 |
Conclusion : le support n'a pas besoin de flagship. DeepSeek V4 Flash ou Gemini Flash-Lite suffit — sous $100/mois.
Scénario B : agent code (50 tâches repo/jour)
Hypothèse : 50K entrée + 20K sortie par tâche, 10 tool calls.
| Modèle | Jour | Mois |
|---|---|---|
| Claude Opus 4.8 | ~$50 | ~$1,500 |
| GPT-5.5 | ~$58 | ~$1,740 |
| DeepSeek V4 Pro | ~$2.5 | ~$75 |
| Claude Fable 5 | ~$100 | ~$3,000 |
Conclusion : qualité → Opus 4.8. budget → DeepSeek V4 Pro (avec baisse de taux de succès). autonomie longue → Fable 5.
Scénario C : RAG long document (1000 requêtes/jour, 150K entrée chacune)
| Modèle | Jour | Mois |
|---|---|---|
| Gemini 3.1 Pro (≤200K) | ~$360 | ~$10,800 |
| Claude Sonnet 4.6 (1M flat) | ~$495 | ~$14,850 |
| Gemini 3.1 Pro (palier >200K) | ~$540 | ~$16,200 |
Conclusion : RAG sous 200K avec Gemini 3.1 Pro, ou Claude Sonnet 4.6 pour 1M flat. Avant prod : optimisez le chunking — n'injectez pas le livre entier à chaque fois.
6. Cinq règles d'or pour choisir en 2026
- Forme de requête d'abord, modèle ensuite. Forte sortie → flagship. Entrée répétée → cache-friendly. Long contexte → tier flat.
- Routing, pas monolithe. En 2026 on économise avec 80 % Flash + 20 % flagship, pas en prenant le modèle le moins cher partout.
- Le cache est obligatoire, pas optionnel. Sans Prompt Caching en prod, vous payez volontairement 30–50 % de plus.
- Coût total, pas prix affiché. DeepSeek est le moins cher — les équipes UE doivent intégrer RGPD, audit et stabilité de compte.
- Modèle = cerveau, runtime = corps. À l'ère agent, la facture API n'est que la moitié — l'autre moitié, c'est si la machine tient 24/7.
7. Apple Silicon : hybride compute local + API cloud
L'architecture IA pragmatique 2026 n'est ni « tout API » ni « tout local » — c'est en couches :
| Couche | Ce qui tourne | Avec quoi |
|---|---|---|
| Local (Apple Silicon) | Complétion code, petits modèles, preprocessing | Mac Mini M4 / M4 Pro, 7B–32B quantifiés |
| API cloud (pay-per-token) | Reasoning complexe, long contexte, multimodal | Claude / Gemini / DeepSeek |
| Nœud cloud (pay-per-time) | Agent Xcode, builds CI, long runs | Cloud Mac (Vuncloud) |
La mémoire unifiée M4 rend les 14B–32B quantifiés efficaces — silencieux, peu de watts, pas de NVIDIA obligatoire. Ce que le local ne fait pas : build iOS avec Claude Code, tests UI Xcode, migration week-end dans tmux. Là, la stabilité du nœud compte plus que le choix du modèle.
FAQ
Quel est le modèle prod le moins cher en 2026 ?
DeepSeek V4 Flash ($0.14/$0.28) et Gemini 2.5 Flash-Lite ($0.10/$0.40) partagent le tier le plus bas. Pour du CJK, DeepSeek peut coûter encore moins grâce à un tokenizer plus efficace.
GPT-5.5 vaut-il encore le coup après la hausse ?
Si vous êtes ancré dans l'écosystème OpenAI (Assistants API, Realtime Voice, DALL·E / Sora, Azure OpenAI) : oui. Texte/code pur : Gemini 3.1 Pro et Claude Opus 4.8 offrent un meilleur rapport qualité/prix.
Claude Opus 4.8 ou GPT-5.5 ?
Agent code → Opus 4.8 (SWE-bench +6 pp, sortie −17 %). Tools denses, multimodal, voice → GPT-5.5. Entrée : $5/M pour les deux.
Comment gérer le palier 200K de Gemini 3.1 Pro ?
Chunker le RAG, garder l'entrée sous 200K. Ou Context Caching Gemini pour docs récurrents. Au-delà de 200K : entrée ×2, de $2 à $4.
DeepSeek V4 en production ?
Solide pour équipes avec lien Chine et workloads CJK. Entreprise UE : évaluer RGPD, interdiction fédérale US et résidence des données. Techniquement et en prix, c'est solide — la conformité est la variable.
Solo dev, budget $50/mois ?
DeepSeek V4 Pro en base ($30), Gemini 2.5 Flash-Lite en réserve ($10), $10 pour un Sonnet d'urgence sur les tâches dures.
Abonnement (ChatGPT Plus / Claude Pro) ou API ?
< 2 h/jour : abonnement. > 4 h ou intégration produit : API. Claude Code Max $100/mois ≈ 50 sessions Opus intensives.
Conclusion
Choisir le modèle n'est que la première étape. En 2026, ce qui distingue les équipes, c'est qui termine les agents dans une runtime stable — build vert, tests OK, PR mergée.
Modèle = cerveau, runtime = corps. La facture API n'est que la moitié — l'autre moitié, c'est si la machine tient 24/7.
Claude Code pour iOS/macOS ou un agent qui doit survivre à la nuit ? Verrouillez d'abord un Cloud Mac qui tient — puis discutez Fable vs Opus.
Dev agent : modèle OK — runtime aussi
Vuncloud Mac mini M4 Cloud Mac dédié : long runs Claude Code, builds Xcode, tmux toute la nuit, US-East/West/APAC — la couche « corps » pour des agents qui ne coupent pas.
Voir les offres Cloud Mac · Pourquoi les agents ont besoin de nœuds de calcul
À lire dans le carnet du labo
- La course aux modèles est terminée—pourquoi les nœuds Mac sont si difficiles à obtenir
- D'Opus 4.8 à Fable 5 : ce qu'Anthropic a vraiment changé côté agentique
- Mac Mini M4 pour le dev IA ? Inférence locale vs Cloud Mac 2026
Mise à jour : 17 juin 2026. Prix et benchmarks d'après les pages publiques des éditeurs et SWE-bench Verified (juin 2026).