Juni 2026: LLM-Ausgabepreise differieren um das 643-Fache—dieser Guide ordnet Kosten, Config, Performance und Zielgruppen, damit Rechnung und Kontext stimmen.
1. LLM-Preisübersicht 2026
1.1 Flaggschiff-Tier: Leistungsobergrenze, Preisobergrenze
| Modell | Anbieter | Eingabe | Cache-Eingabe | Ausgabe | Kontext |
|---|---|---|---|---|---|
| GPT-5.5 Pro | OpenAI | $30 | — | $180 | ~1M (effektiv ~258K) |
| Claude Fable 5 | Anthropic | $10 | $1 | $50 | 1M |
| GPT-5.5 | OpenAI | $5 | $0.50 | $30 | ~1M (effektiv ~258K) |
| Claude Opus 4.8 | Anthropic | $5 | $0.50 | $25 | 1M |
| Claude Sonnet 4.6 | Anthropic | $3 | $0.30 | $15 | 1M (Einheitspreis) |
| Gemini 3.1 Pro ≤200K | $2 | $0.20 | $12 | 2M | |
| Gemini 3.1 Pro >200K | $4 | $0.40 | $18 | 2M | |
| DeepSeek V4 Pro | DeepSeek | $0.435 | $0.0036 | $0.87 | 128K–1M |
Drei kontraintuitive Fakten:
- Gemini 3.1 Pro ist das günstigste Flaggschiff. Pro Million Token: Eingabe 60 % billiger als GPT-5.5, Ausgabe 60 % billiger. Bei langem Kontext noch stärker.
- Claude Opus 4.8 und GPT-5.5 kosten gleich viel bei Eingabe ($5), aber Claude ist 17 % günstiger bei Ausgabe. Eine Million generierte Token: Opus spart $5.
- DeepSeek V4 Pro ist bei Ausgabe günstiger als Geminis billigstes Flash-Lite. Kein „Open-Source-Kompromiss“ — das sind offizielle Commercial-API-Preise.
1.2 Mittelklasse: Sweet Spot für den Alltag
| Modell | Eingabe | Ausgabe | Kontext | Typischer Einsatz |
|---|---|---|---|---|
| GPT-5.4 | $2.50 | $15 | 1M | Ausgewogen innerhalb des OpenAI-Ökosystems |
| GPT-5.3 Codex | $1.75 | $14 | 128K | Code-Completion, IDE-Integration |
| Gemini 3.5 Flash | $1.50 | $9 | 1M | Multimodal + schnelles Reasoning |
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K | Niedrige Latenz, hohe Concurrency |
| Kimi K2.6 | $0.60 | $2.50 | 262K | Lange chinesische Texte |
| Qwen3.5-Plus | $0.40 | $2.40 | 1M | Alibaba-Ökosystem, chinesische Szenarien |
1.3 Economy-Tier: Moat für Massen-API-Calls
| Modell | Eingabe | Ausgabe | Hinweis |
|---|---|---|---|
| GPT-5.4-nano | $0.20 | $1.25 | Günstigstes US-Closed-Source-Tier |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | Nativ multimodal |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | Extrem niedriger Preis |
| DeepSeek V4 Flash | $0.14 | $0.28 | Cache-Hit Eingabe $0.0028 |
| 小米 MiMo-V2.5-Flash | $0.10 | $0.30 | Chinesischer Ultra-Low-Cost |
| Grok 4.1 Fast | $0.20 | $0.50 | 2M Kontext + Echtzeit-Suche |
Wie groß ist der Spread wirklich? Bei Ausgabe-Token als Basis 1× (DeepSeek V4 Flash): GPT-5.5 = 107×, GPT-5.5 Pro = 643×, Claude Fable 5 = 179×.
2. Config: Was jenseits der Preisliste Ihre Rechnung bestimmt
2.1 Kontextfenster: Nominal ≠ nutzbar
Der Context, den Anbieter bewerben, und der Context, den Sie in Production wirklich fahren können, sind oft zwei verschiedene Dinge.
| Modell | Nomineller Kontext | Praktisches Limit | Fallstrick |
|---|---|---|---|
| GPT-5.5 | 1M | Ab ~258K lossy compression | Agent verliert mitten im Langlauf den Faden |
| Claude Sonnet 4.6 | 1M | 1M Einheitspreis, keine Stufen | Bestes Preis-Leistungs-Verhältnis bei langem Kontext |
| Gemini 3.1 Pro | 2M | Ab 200K doppelter Eingabepreis | Vor RAG-Volltext: Stufe kalkulieren |
| DeepSeek V4 Pro | 128K–1M | Je nach Deployment-Version | EU-Compliance separat prüfen |
| Kimi K2.6 | 262K | 262K | Stark bei chinesischen Langtexten |
Empfehlung: RAG-Pipeline regelmäßig über 200K Token? Entweder Claude Sonnet 4.6 (1M Einheitspreis) oder Gemini 3.1 Pro unter 200K halten. Sonst explodieren Rechnung und Latenz.
2.2 Prompt Caching: 90 % Rabatt — drei verschiedene Spielregeln
2026 ohne Caching in Production heißt: System-Prompt und Dokumentenbank bei jedem Request neu bezahlen.
| Anbieter | Cache-Rabatt | Mechanismus | Achtung |
|---|---|---|---|
| Anthropic | bis 90 % | Manuell cache_control-Breakpoints setzen |
5-Minuten- / 1-Stunden-Schreibpreise |
| OpenAI | 50 % | Automatisch, keine Config nötig | Ab 1024 Token, gleicher Prefix = Hit |
| bis 90 % | Implizit + explizit | Stündliche Speichergebühr extra — seltene Hits können teurer werden | |
| DeepSeek | bis 99 % | Automatisch | V4 Flash Cache-Hit Eingabe nur $0.0028/M |
Typische Ersparnis: 1 Mio. Eingabe-Token/Tag, davon 60 % wiederholter System-Prompt und RAG-Kontext:
- Claude Opus 4.8: $5 → ~$2.3/Tag (−54 %)
- GPT-5.5: $5 → ~$3.2/Tag (−36 %)
- Gemini 3.1 Pro: $2 → ~$1.1/Tag (−45 %)
- DeepSeek V4 Pro: $0.435 → ~$0.05/Tag (−89 %)
2.3 Batch API & Reasoning-Stufen
- Batch API (OpenAI / Anthropic / Google): Weitere 50 % Rabatt für nicht-echtzeit Tasks — Offline-Datenverarbeitung, Massenübersetzung, Benchmark-Läufe.
- Reasoning effort: GPT-5.5
xhigh, Claudeextended thinking— versteckte Reasoning-Token, alles als Ausgabe abgerechnet. Eine „500-Token-Antwort“ kann 5000+ Reasoning-Token verbrauchen. - Priority Queue (OpenAI): 2,5× Aufschlag für niedrigere Latenz. Lohnt sich nur bei SLA-kritischen Online-Services.
2.4 Tokenizer-Fallen: Gleicher Text, 35 % mehr Token
Anthropic hat ab Opus 4.7 den Tokenizer gewechselt — identischer Text kann bis zu 35 % mehr Token kosten. Preisliste gleich, Rechnung anders. Für deutsche und englische Texte: DeepSeek und Qwen tokenisieren oft effizienter als GPT — das sind 10–20 % Kostenunterschied, kein Detail.
3. Performance: Was Benchmarks über Tiers verraten
3.1 Code: SWE-bench Verified (Juni 2026)
SWE-bench Verified misst, ob ein Modell echte GitHub-Issues fixen kann — 500 manuell geprüfte Aufgaben. Deutlich aussagekräftiger als „Hello World schreiben“.
| Rang | Modell | SWE-bench Verified | Ausgabe ($/M) |
|---|---|---|---|
| 1 | Claude Fable 5 | 95.0% | $50 |
| 2 | Claude Opus 4.8 | 88.6% | $25 |
| 3 | GPT-5.5 | 82.6% | $30 |
| 4 | Claude Opus 4.7 | 82.0% | $25 |
| 5 | Gemini 3.5 Flash | 79.8% | $9 |
| 6 | Gemini 3.1 Pro | 80.6% | $12 |
| 7 | DeepSeek V4 | ~81% | $0.87 |
So lesen Sie die Tabelle:
- Code bleibt Claude-Terrain. Fable 5 und Opus 4.8 liegen eine Liga vor dem Rest. Mit Cursor, Claude Code oder Devin-ähnlichen Tools zahlt sich das in „beim ersten Versuch richtig“ aus.
- GPT-5.5 ist stark, aber nicht Code-Spitze. Tool Calling, Multimodal, Ökosystem-Integration — dort spielt es seine Stärke aus.
- DeepSeek V4 bei 81 % und $0.87/M Ausgabe: verblüffendes Preis-Leistungs-Verhältnis. Für Solo-Devs und Vibe Coding der günstigste „brauchbare“ Tier.
Hinweis: SWE-bench-Scores hängen stark vom Agent-Scaffolding ab. Hersteller-interne Tests liegen oft 15–30 Prozentpunkte über standardisierten Public Benchmarks. Vergleichen Sie unter gleichem Scaffolding, nicht absolute Werte.
3.2 Reasoning & Wissen: MMLU-Pro, GPQA, langer Kontext
| Dimension | Führend | Einsatz |
|---|---|---|
| Komplexes Multi-Step-Reasoning | Claude Fable 5, GPT-5.5 Pro | Mathe-Beweise, Legal Tech, Forschungsassistenz |
| Langdokument-Verständnis | Gemini 3.1 Pro (2M), Claude Sonnet 4.6 (1M Flat) | Ganzes PDF rein, Q&A raus |
| Multimodal (Bild/Ton/Video) | Gemini 3-Serie, GPT-5.5 | Native Vision + Audio |
| Echtzeit-Suche | Grok 4.x | News, Sentiment, aktuelle Daten |
| Chinesisch Verstehen/Generieren | DeepSeek V4, Qwen3.5, Kimi K2.6 | Effizientere Token-Nutzung für CJK |
3.3 Latenz & Durchsatz
| Modell | Time-to-First-Token | Durchsatz | Ideal für |
|---|---|---|---|
| Claude Haiku 4.5 | Sehr niedrig | Hoch | Live-Chat, Echtzeit-Klassifikation |
| Gemini 2.5 Flash-Lite | Sehr niedrig | Sehr hoch | Millionen Calls/Tag |
| GPT-5.4-nano | Niedrig | Hoch | Leichte Tasks im OpenAI-Stack |
| Claude Opus 4.8 | Mittel | Mittel | Komplexe Einzelrunden |
| Claude Fable 5 | Hoch | Niedrig | Langzeit-Agenten, Sekunden egal |
4. Zielgruppen: Wer was nehmen sollte
4.1 Solo-Dev / Vibe Coding
Empfohlener Stack:
- Tägliches Coding: Claude Opus 4.8 (API) oder Claude Code Max $100/Monat
- Spar-Alternative: DeepSeek V4 Pro
- Ultra-leicht: Gemini 2.5 Flash-Lite
Rechnung: Claude Code Max $100/Monat ≈ 50 intensive Opus-Sessions. Über 2 Stunden Coding/Tag: Abo schlägt Pay-per-Token. Darunter: DeepSeek V4 Pro API ist günstiger.
Wichtig: In Cursor & Co. unbedingt Spending Hard Cap setzen. Community-Fälle: MAX-Modus, $11.922 in 4 Wochen.
4.2 Startup / kleines SaaS
Empfohlener Stack:
- Kern-Reasoning: Gemini 3.1 Pro (Preis-Leistungs-Flaggschiff)
- Code-Agent: Claude Sonnet 4.6 (1M Flat)
- Massen-Backend: DeepSeek V4 Flash + Batch
- Routing: Komplex → Sonnet, einfache Klassifikation → Flash-Lite
Monatskosten-Schätzung (mittleres SaaS, 5 Mio. Token/Tag):
| Setup | Monat (ohne Cache) | Monat (40 % Cache) |
|---|---|---|
| Alles Claude Sonnet 4.6 | ~$3,900 | ~$2,574 |
| Alles Gemini 3.1 Pro | ~$2,640 | ~$1,743 |
| Alles DeepSeek V4 Pro | ~$438 | ~$289 |
| Routing (20 % Sonnet + 80 % Flash) | ~$1,200 | ~$750 |
4.3 Enterprise / Compliance-sensibel (EU)
Empfohlener Stack:
- EU-/US-Entity: AWS Bedrock (Claude) oder Vertex AI (Gemini) — DPA und Region wählbar
- Code-Security-Review: Claude Opus 4.8 + private Git-Integration
- Nicht empfohlen: Drittanbieter-OpenAI-Proxies (DSGVO-Risiko > Ersparnis)
Pflicht-Checkliste:
- Budget-Caps und Alerts pro API Key
- Prompt Caching in Production (−30–50 %)
- Modell-Routing — nicht alles auf Opus
- Code-Agenten in isolierter Umgebung (Cloud Mac / Container), nicht auf Bare Metal
4.4 AI-Dev / Agent-Framework-Bauer
Empfohlener Stack:
- Langzeit-Autonomie: Claude Fable 5
- Tool-Orchestrierung: GPT-5.5
- Lokale Dev-Tests: Apple-Silicon-Mac + quantisiertes Qwen/DeepSeek
- Production-Fallback: Gemini 3.1 Pro (langer Kontext + niedriger Preis)
Warum Apple Silicon? 2026 ist der Engpass beim Agent-Bau nicht nur die API — sondern die Runtime. Claude Code braucht Xcode-Tests auf macOS, iOS-Builds auf echter Hardware, tmux über Nacht. Modell top, Node weg — die vorherigen Token-Dollar sind weg. Mehr dazu: Im AI-Zeitalter ist der Compute-Node knapp, nicht das Modell.
4.5 Global SaaS / mehrsprachiger Support
Empfohlener Stack:
- Workhorse: DeepSeek V4 Pro (Übersetzung, Summary, Support)
- EU/US-Nutzer: Gemini 3.1 Flash-Lite oder GPT-5.4-nano
- Qualitäts-Polish: Claude Haiku 4.5
4.6 Studierende / Forschung
Empfohlener Stack:
- Gemini 3 Flash Preview (Free Tier)
- DeepSeek V4 Flash (Experimente zum Mindestpreis)
- Lokal: Mac Mini M4 mit 7B–32B quantisiert für Prototypen
5. Echte Kosten: drei typische Szenarien
Szenario A: AI-Support-Bot (100K Gespräche/Tag)
Annahme: 2K Eingabe + 500 Ausgabe pro Runde, 80 % Cache-Hit auf System-Prompt.
| Modell | Tag | Monat |
|---|---|---|
| GPT-5.4-nano | ~$5.5 | ~$165 |
| Gemini 2.5 Flash-Lite | ~$3.2 | ~$96 |
| DeepSeek V4 Flash | ~$1.8 | ~$54 |
| Claude Haiku 4.5 | ~$12 | ~$360 |
Fazit: Support braucht kein Flaggschiff. DeepSeek V4 Flash oder Gemini Flash-Lite reicht — unter $100/Monat.
Szenario B: Code-Agent (50 Repo-Tasks/Tag)
Annahme: 50K Eingabe + 20K Ausgabe pro Task, 10 Tool-Calls.
| Modell | Tag | Monat |
|---|---|---|
| Claude Opus 4.8 | ~$50 | ~$1,500 |
| GPT-5.5 | ~$58 | ~$1,740 |
| DeepSeek V4 Pro | ~$2.5 | ~$75 |
| Claude Fable 5 | ~$100 | ~$3,000 |
Fazit: Qualität → Opus 4.8. Budget → DeepSeek V4 Pro (mit Erfolgsrate-Abstrich). Langzeit-Autonomie → Fable 5.
Szenario C: Langdokument-RAG (1000 Queries/Tag, je 150K Eingabe)
| Modell | Tag | Monat |
|---|---|---|
| Gemini 3.1 Pro (≤200K) | ~$360 | ~$10,800 |
| Claude Sonnet 4.6 (1M Flat) | ~$495 | ~$14,850 |
| Gemini 3.1 Pro (>200K Tier) | ~$540 | ~$16,200 |
Fazit: RAG unter 200K mit Gemini 3.1 Pro, oder Claude Sonnet 4.6 für 1M Flat. Vor Go-Live: Chunk-Strategie optimieren — nicht jedes Mal das ganze Buch reinpumpen.
6. Fünf harte Regeln für die Modellwahl 2026
- Request-Shape zuerst, Modell danach. Hohe Ausgabe → Flaggschiff. Wiederholte Eingabe → cache-freundlich. Langer Kontext → Flat-Tier.
- Routing statt Monolith. 2026 spart man nicht mit dem billigsten Modell — sondern mit 80 % Flash + 20 % Flaggschiff.
- Caching ist Pflicht, kein Nice-to-have. Ohne Prompt Caching in Production zahlen Sie freiwillig 30–50 % drauf.
- Gesamtkosten, nicht Stickerpreis. DeepSeek ist am günstigsten — EU-Teams müssen DSGVO, Audit und Account-Stabilität einrechnen.
- Modell = Gehirn, Runtime = Körper. In der Agent-Ära ist die API-Rechnung nur die Hälfte — die andere Hälfte ist, ob die Maschine 24/7 durchhält.
7. Apple Silicon: Lokale Compute + Cloud-API-Hybrid
Pragmatische AI-Architektur 2026 ist weder „alles API“ noch „alles lokal“ — sondern gestuft:
| Schicht | Was läuft | Womit |
|---|---|---|
| Lokal (Apple Silicon) | Code-Completion, kleine Modelle, Preprocessing | Mac Mini M4 / M4 Pro, 7B–32B quantisiert |
| Cloud API (pay-per-token) | Komplexes Reasoning, langer Kontext, Multimodal | Claude / Gemini / DeepSeek |
| Cloud Compute Node (pay-per-time) | Agent mit Xcode, CI-Builds, Langläufe | Cloud Mac (Vuncloud) |
Unified Memory auf M4 macht 14B–32B quantisiert effizient — leise, wenig Strom, keine NVIDIA-Pflicht. Was lokal nicht geht: iOS-Build mit Claude Code, Xcode UI-Tests, Wochenend-Migration in tmux. Dort zählt Node-Stabilität mehr als Modellwahl.
FAQ
Was ist 2026 das günstigste produktionstaugliche Modell?
DeepSeek V4 Flash ($0.14/$0.28) und Gemini 2.5 Flash-Lite ($0.10/$0.40) teilen sich das unterste Tier. Für CJK-Texte kann DeepSeek durch effizienteren Tokenizer noch günstiger sein.
Lohnt sich GPT-5.5 nach der Preiserhöhung noch?
Wenn Sie tief im OpenAI-Stack hängen (Assistants API, Realtime Voice, DALL·E / Sora, Azure OpenAI): ja. Reine Text/Code-Szenarien: Gemini 3.1 Pro und Claude Opus 4.8 bieten besseres Preis-Leistungs-Verhältnis.
Claude Opus 4.8 oder GPT-5.5?
Code-Agent → Opus 4.8 (SWE-bench +6 pp, Ausgabe −17 %). Tool-heavy, Multimodal, Voice → GPT-5.5. Eingabe jeweils $5/M.
Wie mit Geminis 200K-Stufenpreis umgehen?
RAG chunken, Eingabe unter 200K halten. Oder Gemini Context Caching für wiederkehrende Dokumente. Ab 200K: Eingabe verdoppelt sich von $2 auf $4.
DeepSeek V4 für Production?
Stark für Teams mit China-Bezug und CJK-Workloads. EU-Enterprise: DSGVO, US-Federal-Ban und Datenresidenz separat prüfen. Technisch und preislich solide — Compliance ist die Variable.
Solo-Dev, $50/Monat Budget?
DeepSeek V4 Pro als Basis ($30), Gemini 2.5 Flash-Lite Reserve ($10), $10 für Notfall-Sonnet bei harten Tasks.
Abo (ChatGPT Plus / Claude Pro) oder API?
< 2 Stunden/Tag: Abo. > 4 Stunden oder Produktintegration: API. Claude Code Max $100/Monat ≈ 50 intensive Opus-Sessions.
Schluss
Modellwahl ist Schritt eins. 2026 trennt sich, wer Agenten in einer stabilen Runtime zu Ende bringt — Build grün, Tests durch, PR gemerged.
Modell = Gehirn, Runtime = Körper. Die API-Rechnung ist die Hälfte — die andere Hälfte ist, ob die Maschine 24/7 durchhält.
Claude Code für iOS/macOS oder ein Agent, der die Nacht überstehen muss? Erst einen Cloud Mac, der durchhält — dann Fable vs. Opus diskutieren.
Agent-Dev: Modell stimmt — Runtime auch
Vuncloud dedizierter Mac mini M4 Cloud Mac: Claude Code Langläufe, Xcode-Builds, tmux über Nacht, US-East/West/APAC — die „Körper“-Schicht für Agenten, die nicht abbrechen.
Cloud Mac Pakete ansehen · Warum Agenten Compute-Nodes brauchen
Weiterlesen im Cloud Lab
- Das Modell-Rennen ist vorbei—warum Mac-Compute-Nodes plötzlich Mangelware sind
- Von Opus 4.8 zu Fable 5: Was Anthropic beim agentischen Upgrade wirklich geändert hat
- Mac Mini M4 für AI-Dev? Lokale Inference vs. Cloud Mac 2026
Stand: 17. Juni 2026. Preise und Benchmarks aus öffentlichen Anbieter-Seiten und SWE-bench Verified (Juni 2026).