2026年で最安の本番向けモデルは？

DeepSeek V4 Flash（$0.14/$0.28）と Gemini 2.5 Flash-Lite（$0.10/$0.40）が最安帯。CJK では DeepSeek の tokenizer が有利なことが多い。

GPT-5.5 の値上げ後も使う価値は？

OpenAI スタック（Assistants、Realtime、DALL·E / Sora、Azure）依存なら必須。テキスト/コードのみなら Gemini 3.1 Pro と Claude Opus 4.8 がコスパ良い。

Opus 4.8 と GPT-5.5 の選び方？

コード Agent は Opus 4.8（SWE-bench +6pt、出力17%安）。ツール/マルチモーダル/音声は GPT-5.5。入力は同じ $5/M。

Gemini 3.1 Pro の 200K 課金は？

RAG を chunk して 200K 以内に。Context Caching も有効。200K 超は入力 $2→$4。

個人開発 $50/月の配分は？

DeepSeek V4 Pro メイン（$30）、Gemini Flash-Lite 予備（$10）、難問用 Claude Sonnet（$10）。

サブスクと API どちらが得？

1日2時間未満はサブスク。4時間超・プロダクト組み込みは API。Claude Code Max $100/月 ≈ 重度 Opus 50回。

2026年 LLM API 料金と選定ガイド：GPT-5.5・Claude・Gemini・DeepSeek

Q: DeepSeek V4 は本番向き？

中国チーム・中文向け SaaS に強い。米欧企業は PIPL・連邦機関制限などコンプライアンス要確認。

2026年6月、LLM出力単価は最大643倍の差。本稿は価格・設定・性能・用途の4軸で選定し、請求とコンテキストの失敗を防ぐ。

643×

DeepSeek V4 Flash と GPT-5.5 Pro の出力単価差

95%

Claude Fable 5 · SWE-bench Verified 1位

$0.10

Gemini 2.5 Flash-Lite 入力 / 100万 token

一、2026年 LLM 価格マップ

1.1 フラッグシップ：能力も単価も天井

モデル	ベンダー	入力	キャッシュ入力	出力	コンテキスト
GPT-5.5 Pro	OpenAI	$30	—	$180	~1M（実効 ~258K）
Claude Fable 5	Anthropic	$10	$1	$50	1M
GPT-5.5	OpenAI	$5	$0.50	$30	~1M（実効 ~258K）
Claude Opus 4.8	Anthropic	$5	$0.50	$25	1M
Claude Sonnet 4.6	Anthropic	$3	$0.30	$15	1M（均一単価）
Gemini 3.1 Pro ≤200K	Google	$2	$0.20	$12	2M
Gemini 3.1 Pro >200K	Google	$4	$0.40	$18	2M
DeepSeek V4 Pro	DeepSeek	$0.435	$0.0036	$0.87	128K–1M

直感に反する3点：

Gemini 3.1 Pro が最安フラッグシップ。 100万 token あたり、入力は GPT-5.5 より60%安、出力も60%安。長コンテキストほど差が開く。
Claude Opus 4.8 と GPT-5.5 は入力同額（$5）だが、Claude の出力は17%安。 100万 token 生成なら Opus が $5 節約。
DeepSeek V4 Pro の出力は、Gemini 最安 Flash-Lite より安い。 「OSS 妥協」ではなく、正式商用 API の価格帯。

1.2 ミドル：日常プロダクションのスイートスポット

モデル	入力	出力	コンテキスト	向く用途
GPT-5.4	$2.50	$15	1M	OpenAI エコシステム内のバランス型
GPT-5.3 Codex	$1.75	$14	128K	コード補完、IDE 連携
Gemini 3.5 Flash	$1.50	$9	1M	マルチモーダル + 高速推論
Claude Haiku 4.5	$1.00	$5.00	200K	低レイテンシ、高並列
Kimi K2.6	$0.60	$2.50	262K	CJK 長文理解
Qwen3.5-Plus	$0.40	$2.40	1M	Alibaba Cloud、CJK 向け

1.3 エコノミー：大量呼び出しの防波堤

モデル	入力	出力	備考
GPT-5.4-nano	$0.20	$1.25	米国クローズド最安帯
Gemini 3.1 Flash-Lite	$0.25	$1.50	ネイティブマルチモーダル
Gemini 2.5 Flash-Lite	$0.10	$0.40	極限価格帯
DeepSeek V4 Flash	$0.14	$0.28	キャッシュ命中入力 $0.0028
小米 MiMo-V2.5-Flash	$0.10	$0.30	アジア圏極低価格
Grok 4.1 Fast	$0.20	$0.50	2M コンテキスト + リアルタイム検索

出力 token だけ見た差はどれくらい？ DeepSeek V4 Flash を 1× とすると、GPT-5.5 は 107×、GPT-5.5 Pro は 643×、Claude Fable 5 は 179×。

二、設定：料金表の外側で請求を決めるもの

2.1 コンテキストウィンドウ：表記値 ≠ 実用値

ベンダーが謳う context と、本番で安心して使える context は別物になりがち。

モデル	表記コンテキスト	実務上の上限目安	落とし穴
GPT-5.5	1M	~258K 以降 lossy 圧縮	長時間 Agent タスク中の「忘却」
Claude Sonnet 4.6	1M	1M 均一単価、段階なし	長コンテキストのコスパ最良
Gemini 3.1 Pro	2M	200K 超で入力2倍	RAG 全文投入前に段階を計算
DeepSeek V4 Pro	128K–1M	デプロイ版による	海外利用はコンプライアンス要確認
Kimi K2.6	262K	262K	CJK 長文に強い

選定の目安： RAG パイプラインが 200K token を超えるなら、Claude Sonnet 4.6（1M 均一）か、Gemini 3.1 Pro を 200K 以内に抑える。さもなくば請求もレイテンシも暴走する。

2.2 Prompt Caching：最大90%オフだが、ベンダーごとに作法が違う

2026年、本番でキャッシュなしは、システムプロンプトとドキュメント庫を毎リクエストフル課金しているのと同じ。

ベンダー	キャッシュ割引	仕組み	注意
Anthropic	最大 90%	`cache_control` 断点を手動設定	5分 / 1時間の書き込み単価2段
OpenAI	50%	自動キャッシュ、設定不要	1024 token 以上、同一プレフィックスで命中
Google	最大 90%	暗黙 + 明示	時間あたりストレージ課金あり——低頻度命中だと逆に高くなる
DeepSeek	最大 99%	自動	V4 Flash キャッシュ命中入力は $0.0028/M のみ

典型的な節約幅： 日次 100万入力 token、うち60%が繰り返しのシステムプロンプトと RAG コンテキストと仮定：

Claude Opus 4.8：$5 → 約 $2.3/日（54% 節約）
GPT-5.5：$5 → 約 $3.2/日（36% 節約）
Gemini 3.1 Pro：$2 → 約 $1.1/日（45% 節約）
DeepSeek V4 Pro：$0.435 → 約 $0.05/日（89% 節約）

2.3 Batch API と推論モード

Batch API（OpenAI / Anthropic / Google）： 非リアルタイムならさらに50%オフ。オフライン処理、一括翻訳、ベンチ一括実行向け。
推論モード（reasoning effort）： GPT-5.5 の xhigh、Claude の extended thinking は隠れ推論 token を大幅増加——すべて出力課金。「500 token に見える回答」が 5000+ token の推論を消費することも。
Priority キュー（OpenAI）： 2.5× プレミアムで低レイテンシ。SLA 厳しいオンライン以外は割に合わないことが多い。

2.4 Tokenizer の落とし穴：同じ日本語でも token 数が35%変わる

Anthropic は Opus 4.7 から tokenizer を刷新し、同一テキストで token 数が最大35%増。単価表はそのまま、請求だけ変わる。CJK では DeepSeek と Qwen の tokenizer が GPT 系より token 効率が良いことが多い——10–20% のコスト差は小さくない。

三、性能：ベンチマークが示す梯队

3.1 コード能力：SWE-bench Verified（2026年6月）

SWE-bench Verified は、実在 GitHub issue を直せるかを測る——500問・人手検証済み。「Hello World を書く」より信頼できる指標。

順位	モデル	SWE-bench Verified	出力 ($/M)
1	Claude Fable 5	95.0%	$50
2	Claude Opus 4.8	88.6%	$25
3	GPT-5.5	82.6%	$30
4	Claude Opus 4.7	82.0%	$25
5	Gemini 3.5 Flash	79.8%	$9
6	Gemini 3.1 Pro	80.6%	$12
7	DeepSeek V4	~81%	$0.87

ランキングの読み方：

コーディングは依然 Claude 系。 Fable 5 と Opus 4.8 が他を一段引き離す。Cursor、Claude Code、Devin 系ツールでは「一発で直るか」に直結。
GPT-5.5 は総合力は高いが、コード最強ではない。 ツール呼び出し、マルチモーダル、エコシステム統合が本領。
DeepSeek V4 の 81% を $0.87/M で出すコスパは異常値。 個人開発の Vibe Coding なら、最低コストの「実用」帯。

注意：SWE-bench スコアは Agent 足場に強く依存。ベンダー自社計測は公開ベンチより15–30pt高いことも。絶対値より「同じ足場での比較」を見る。

開発者が画面のコードと SWE-bench 結果を確認——LLM API のコード能力とコスパ選定

3.2 推論と知識：MMLU-Pro、GPQA、長コンテキスト

能力軸	リーダー	メモ
複雑多段推論	Claude Fable 5、GPT-5.5 Pro	数学証明、法務分析、研究補助
長文書理解	Gemini 3.1 Pro（2M）、Claude Sonnet 4.6（1M 均一）	PDF 全文投入 Q&A
マルチモーダル（画像/音声/動画）	Gemini 3 系、GPT-5.5	ネイティブ視覚 + 音声理解
リアルタイム検索	Grok 4.x	最新情報が要るニュース/ソーシャル監視
CJK 理解・生成	DeepSeek V4、Qwen3.5、Kimi K2.6	CJK token 効率が高い

3.3 レイテンシとスループット

モデル	初回 token レイテンシ	スループット	向く
Claude Haiku 4.5	極低	高	オンライン CS、リアルタイム分類
Gemini 2.5 Flash-Lite	極低	極高	日次百万コール級
GPT-5.4-nano	低	高	OpenAI 内の軽量タスク
Claude Opus 4.8	中	中	複雑な単発推論
Claude Fable 5	高	低	長時間 Agent、秒返不要

四、用途別：誰が何を使うか

4.1 個人開発 / Vibe Coding

推奨構成：

日常コーディング：Claude Opus 4.8（API）または Claude Code Max $100/月
節約枠：DeepSeek V4 Pro
超軽量：Gemini 2.5 Flash-Lite

ざっくり試算： Claude Code Max $100/月 ≒ 重度 Opus セッション50回。1日2時間超でコーディングするならサブスクの方が token 従量より安い。それ未満なら DeepSeek V4 Pro API が有利。

要確認： Cursor 等では spending hard cap を必ず設定。MAX モード4週で $11,922 消費の事例もコミュニティにある。

4.2 スタートアップ / 小規模 SaaS

推奨構成：

中核推論：Gemini 3.1 Pro（コスパ旗艦）
コード Agent：Claude Sonnet 4.6（1M 均一）
大量バックグラウンド：DeepSeek V4 Flash + Batch
モデルルーティング：複雑→ Sonnet、単純分類→ Flash-Lite

月額試算（中規模 SaaS、日500万 token）：

構成	月額（キャッシュなし）	月額（40% キャッシュ）
全 Claude Sonnet 4.6	~$3,900	~$2,574
全 Gemini 3.1 Pro	~$2,640	~$1,743
全 DeepSeek V4 Pro	~$438	~$289
ルーティング（20% Sonnet + 80% Flash）	~$1,200	~$750

4.3 エンタープライズ / コンプライアンス重視

推奨構成：

海外法人：AWS Bedrock（Claude）または Vertex AI（Gemini）
コードセキュリティレビュー：Claude Opus 4.8 + プライベート Git 連携
非推奨：第三者 OpenAI プロキシ（データ越境リスク > 節約効果）

必須チェックリスト：

API Key 単位の予算上限とアラート
Prompt Caching 有効化（本番で30–50% 節約）
モデルルーティング方針——全リクエスト Opus は禁止
コード Agent は隔離環境（Cloud Mac / コンテナ）——裸機直実行は避ける

4.4 AI 開発者 / Agent フレームワーク

推奨構成：

長時間自律 Agent：Claude Fable 5
ツール呼び出し編成：GPT-5.5
ローカル開発テスト：Apple Silicon Mac + 量子化 Qwen/DeepSeek
本番フォールバック：Gemini 3.1 Pro（長コンテキスト + 低単価）

なぜ Apple Silicon？ 2026年の Agent 開発、ボトルネックは API だけではない——実行環境も同列。Claude Code は macOS で Xcode テスト、実機 iOS ビルド、tmux 一晩タスクが要る。モデルが強くても実行ノードが不安定なら、SSH 切断で数ドル分の token が水の泡。詳しくは AI 時代、希少なのはモデルではなく実行ノード。

4.5 グローバル SaaS / 多言語 CS

推奨構成：

主力：DeepSeek V4 Pro（翻訳、要約、CS）
欧米ユーザー向け：Gemini 3.1 Flash-Lite または GPT-5.4-nano
高品質仕上げ：Claude Haiku 4.5

4.6 学生 / 研究者

推奨構成：

Gemini 3 Flash Preview（無料枠あり）
DeepSeek V4 Flash（実験向け極低価格）
ローカル：Mac Mini M4 で 7B–32B 量子化モデルのプロトタイプ

五、実コスト試算：3つの典型シナリオ

シナリオ A：AI カスタマーサポート（日10万ターン）

1ターンあたり 2K 入力 + 500 出力、80% が繰り返しシステムプロンプト（キャッシュ命中）と仮定。

モデル	日額	月額
GPT-5.4-nano	~$5.5	~$165
Gemini 2.5 Flash-Lite	~$3.2	~$96
DeepSeek V4 Flash	~$1.8	~$54
Claude Haiku 4.5	~$12	~$360

結論： CS には旗艦不要。DeepSeek V4 Flash か Gemini Flash-Lite で十分——月 $100 以内に収める。

シナリオ B：コード Agent（日50リポジトリ級タスク）

1回あたり 50K 入力 + 20K 出力、ツール呼び出し10ラウンド込み。

モデル	日額	月額
Claude Opus 4.8	~$50	~$1,500
GPT-5.5	~$58	~$1,740
DeepSeek V4 Pro	~$2.5	~$75
Claude Fable 5	~$100	~$3,000

結論： 品質優先→ Opus 4.8、節約→ DeepSeek V4 Pro（成功率トレードオフ）、長時間自律→ Fable 5。

シナリオ C：長文書 RAG Q&A（日1000回、各150K 入力）

モデル	日額	月額
Gemini 3.1 Pro（≤200K）	~$360	~$10,800
Claude Sonnet 4.6（1M 均一）	~$495	~$14,850
Gemini 3.1 Pro（>200K 帯）	~$540	~$16,200

結論： 長文 RAG は Gemini 3.1 Pro を 200K 以内に抑えるか、Claude Sonnet 4.6 の 1M 均一を使う。本番前に chunk 戦略を最適化——毎回全書投入は請求自殺。

六、2026年モデル選定の5原則

リクエスト形状を先に描く。 出力比率高→旗艦、入力繰り返し→キャッシュ向き、長コンテキスト→均一単価帯。
単一モデルよりルーティング。 2026年最安は「最安モデル1本」ではなく、80% Flash + 20% 旗艦の配分。
キャッシュは必須。 本番で Prompt Caching なしは、意図的に30–50% 多払い。
表単価ではなく総コスト。 DeepSeek は最安だが、海外利用は監査・口座安定性・越境リスクも積算。
モデルは脳、実行環境は身体。 Agent 時代、API 請求は半分——残りは Agent を走らせるマシンが 24時間落ちないか。

七、Apple Silicon との関係：ローカル + クラウド API ハイブリッド

2026年の現実的 AI 開発は「全 API」でも「全ローカル」でもなく、層分け：

層	何を回す	何で回す
ローカル（Apple Silicon）	コード補完、小モデル推論、前処理	Mac Mini M4 / M4 Pro、7B–32B 量子化
クラウド API（従量）	複雑推論、長コンテキスト、マルチモーダル	Claude / Gemini / DeepSeek
クラウド実行ノード（時間課金）	Agent の Xcode、CI ビルド、長時間タスク	Cloud Mac（Vuncloud）

Apple Silicon の UMA は、M4 で 14B–32B 量子化を低消費電力・低騒音で回すのに向く——NVIDIA 不要。ただし Claude Code の iOS ビルド、macOS Xcode UI テスト、週末 tmux マイグレーションはローカルでは厳しい。実行ノードの安定性はモデル選定と同格。

よくある質問（FAQ）

2026年、最安の実用プロダクション級モデルは？

DeepSeek V4 Flash（$0.14/$0.28）と Gemini 2.5 Flash-Lite（$0.10/$0.40）が最下位帯。CJK なら DeepSeek の tokenizer が token 効率良く、実コストはさらに下がることも。

GPT-5.5 値上げ後も使う価値はある？

OpenAI エコシステム（Assistants API、Realtime 音声、DALL·E / Sora、Azure OpenAI）に深く依存するなら必須。純テキスト/コードなら Gemini 3.1 Pro と Claude Opus 4.8 の方がコスパ良い。

Claude Opus 4.8 と GPT-5.5 はどう選ぶ？

コード Agent→ Opus 4.8（SWE-bench +6pt、出力17%安）。ツール密集・マルチモーダル・音声→ GPT-5.5。入力は両方 $5/M。

Gemini 3.1 Pro の 200K 段階課金はどう扱う？

RAG を chunk して1リクエスト 200K 以内に。または Gemini Context Caching で繰り返し文書をキャッシュ。200K 超は入力 $2→$4 に倍増。

DeepSeek V4 は本番向き？

アジア圏・CJK ビジネスでは第一候補。欧米エンタープライズは PIPL、米連邦機関制限等のコンプライアンスを別途評価。技術・価格は問題、変数は規制。

個人開発、月予算 $50 の配分は？

DeepSeek V4 Pro メイン（$30）、Gemini 2.5 Flash-Lite 予備（$10）、残り $10 で Claude Sonnet に硬い案件だけ投げる。

ChatGPT Plus / Claude Pro サブスク vs API、どちらが得？

1日2時間未満の個人利用ならサブスク。4時間超、または自プロダクト組み込みなら API。Claude Code Max $100/月 ≒ 重度 Opus 50セッション。

おわりに

モデル選定は第一歩。2026年に差がつくのは、安定した実行環境で Agent を完走できるか——コンパイル通過、テスト green、PR マージまで。

モデルは脳、実行環境は身体。API 請求は半分——残りは Agent を走らせるマシンが 24時間落ちないか。

Claude Code で iOS / macOS 開発、または 24時間落ちない Agent 実行ノードが要るなら、Fable vs Opus を議論する前に、一晩完走できる Cloud Mac を確保する。

最終更新：2026年6月17日。価格・ベンチデータは各ベンダー公開料金表および SWE-bench Verified ランキング（2026年6月）に基づく。

一、2026年 LLM 価格マップ

1.1 フラッグシップ：能力も単価も天井

1.2 ミドル：日常プロダクションのスイートスポット

1.3 エコノミー：大量呼び出しの防波堤

二、設定：料金表の外側で請求を決めるもの

2.1 コンテキストウィンドウ：表記値 ≠ 実用値

2.2 Prompt Caching：最大90%オフだが、ベンダーごとに作法が違う

2.3 Batch API と推論モード

2.4 Tokenizer の落とし穴：同じ日本語でも token 数が35%変わる

三、性能：ベンチマークが示す梯队

3.1 コード能力：SWE-bench Verified（2026年6月）

3.2 推論と知識：MMLU-Pro、GPQA、長コンテキスト

3.3 レイテンシとスループット

四、用途別：誰が何を使うか

4.1 個人開発 / Vibe Coding

4.2 スタートアップ / 小規模 SaaS

4.3 エンタープライズ / コンプライアンス重視

4.4 AI 開発者 / Agent フレームワーク

4.5 グローバル SaaS / 多言語 CS

4.6 学生 / 研究者

五、実コスト試算：3つの典型シナリオ

シナリオ A：AI カスタマーサポート（日10万ターン）

シナリオ B：コード Agent（日50リポジトリ級タスク）

シナリオ C：長文書 RAG Q&A（日1000回、各150K 入力）

六、2026年モデル選定の5原則

七、Apple Silicon との関係：ローカル + クラウド API ハイブリッド

よくある質問（FAQ）

2026年、最安の実用プロダクション級モデルは？

GPT-5.5 値上げ後も使う価値はある？

Claude Opus 4.8 と GPT-5.5 はどう選ぶ？

Gemini 3.1 Pro の 200K 段階課金はどう扱う？

DeepSeek V4 は本番向き？

個人開発、月予算 $50 の配分は？

ChatGPT Plus / Claude Pro サブスク vs API、どちらが得？

おわりに

Agent 開発：モデルが合っても、実行ノードは安定させる

関連記事

LLM選定は年単位で計画