2026年6月、LLM出力単価は最大643倍の差。本稿は価格・設定・性能・用途の4軸で選定し、請求とコンテキストの失敗を防ぐ。
一、2026年 LLM 価格マップ
1.1 フラッグシップ:能力も単価も天井
| モデル | ベンダー | 入力 | キャッシュ入力 | 出力 | コンテキスト |
|---|---|---|---|---|---|
| GPT-5.5 Pro | OpenAI | $30 | — | $180 | ~1M(実効 ~258K) |
| Claude Fable 5 | Anthropic | $10 | $1 | $50 | 1M |
| GPT-5.5 | OpenAI | $5 | $0.50 | $30 | ~1M(実効 ~258K) |
| Claude Opus 4.8 | Anthropic | $5 | $0.50 | $25 | 1M |
| Claude Sonnet 4.6 | Anthropic | $3 | $0.30 | $15 | 1M(均一単価) |
| Gemini 3.1 Pro ≤200K | $2 | $0.20 | $12 | 2M | |
| Gemini 3.1 Pro >200K | $4 | $0.40 | $18 | 2M | |
| DeepSeek V4 Pro | DeepSeek | $0.435 | $0.0036 | $0.87 | 128K–1M |
直感に反する3点:
- Gemini 3.1 Pro が最安フラッグシップ。 100万 token あたり、入力は GPT-5.5 より60%安、出力も60%安。長コンテキストほど差が開く。
- Claude Opus 4.8 と GPT-5.5 は入力同額($5)だが、Claude の出力は17%安。 100万 token 生成なら Opus が $5 節約。
- DeepSeek V4 Pro の出力は、Gemini 最安 Flash-Lite より安い。 「OSS 妥協」ではなく、正式商用 API の価格帯。
1.2 ミドル:日常プロダクションのスイートスポット
| モデル | 入力 | 出力 | コンテキスト | 向く用途 |
|---|---|---|---|---|
| GPT-5.4 | $2.50 | $15 | 1M | OpenAI エコシステム内のバランス型 |
| GPT-5.3 Codex | $1.75 | $14 | 128K | コード補完、IDE 連携 |
| Gemini 3.5 Flash | $1.50 | $9 | 1M | マルチモーダル + 高速推論 |
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K | 低レイテンシ、高並列 |
| Kimi K2.6 | $0.60 | $2.50 | 262K | CJK 長文理解 |
| Qwen3.5-Plus | $0.40 | $2.40 | 1M | Alibaba Cloud、CJK 向け |
1.3 エコノミー:大量呼び出しの防波堤
| モデル | 入力 | 出力 | 備考 |
|---|---|---|---|
| GPT-5.4-nano | $0.20 | $1.25 | 米国クローズド最安帯 |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | ネイティブマルチモーダル |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 極限価格帯 |
| DeepSeek V4 Flash | $0.14 | $0.28 | キャッシュ命中入力 $0.0028 |
| 小米 MiMo-V2.5-Flash | $0.10 | $0.30 | アジア圏極低価格 |
| Grok 4.1 Fast | $0.20 | $0.50 | 2M コンテキスト + リアルタイム検索 |
出力 token だけ見た差はどれくらい? DeepSeek V4 Flash を 1× とすると、GPT-5.5 は 107×、GPT-5.5 Pro は 643×、Claude Fable 5 は 179×。
二、設定:料金表の外側で請求を決めるもの
2.1 コンテキストウィンドウ:表記値 ≠ 実用値
ベンダーが謳う context と、本番で安心して使える context は別物になりがち。
| モデル | 表記コンテキスト | 実務上の上限目安 | 落とし穴 |
|---|---|---|---|
| GPT-5.5 | 1M | ~258K 以降 lossy 圧縮 | 長時間 Agent タスク中の「忘却」 |
| Claude Sonnet 4.6 | 1M | 1M 均一単価、段階なし | 長コンテキストのコスパ最良 |
| Gemini 3.1 Pro | 2M | 200K 超で入力2倍 | RAG 全文投入前に段階を計算 |
| DeepSeek V4 Pro | 128K–1M | デプロイ版による | 海外利用はコンプライアンス要確認 |
| Kimi K2.6 | 262K | 262K | CJK 長文に強い |
選定の目安: RAG パイプラインが 200K token を超えるなら、Claude Sonnet 4.6(1M 均一)か、Gemini 3.1 Pro を 200K 以内に抑える。さもなくば請求もレイテンシも暴走する。
2.2 Prompt Caching:最大90%オフだが、ベンダーごとに作法が違う
2026年、本番でキャッシュなしは、システムプロンプトとドキュメント庫を毎リクエストフル課金しているのと同じ。
| ベンダー | キャッシュ割引 | 仕組み | 注意 |
|---|---|---|---|
| Anthropic | 最大 90% | cache_control 断点を手動設定 |
5分 / 1時間の書き込み単価2段 |
| OpenAI | 50% | 自動キャッシュ、設定不要 | 1024 token 以上、同一プレフィックスで命中 |
| 最大 90% | 暗黙 + 明示 | 時間あたりストレージ課金あり——低頻度命中だと逆に高くなる | |
| DeepSeek | 最大 99% | 自動 | V4 Flash キャッシュ命中入力は $0.0028/M のみ |
典型的な節約幅: 日次 100万入力 token、うち60%が繰り返しのシステムプロンプトと RAG コンテキストと仮定:
- Claude Opus 4.8:$5 → 約 $2.3/日(54% 節約)
- GPT-5.5:$5 → 約 $3.2/日(36% 節約)
- Gemini 3.1 Pro:$2 → 約 $1.1/日(45% 節約)
- DeepSeek V4 Pro:$0.435 → 約 $0.05/日(89% 節約)
2.3 Batch API と推論モード
- Batch API(OpenAI / Anthropic / Google): 非リアルタイムならさらに50%オフ。オフライン処理、一括翻訳、ベンチ一括実行向け。
- 推論モード(reasoning effort): GPT-5.5 の
xhigh、Claude のextended thinkingは隠れ推論 token を大幅増加——すべて出力課金。「500 token に見える回答」が 5000+ token の推論を消費することも。 - Priority キュー(OpenAI): 2.5× プレミアムで低レイテンシ。SLA 厳しいオンライン以外は割に合わないことが多い。
2.4 Tokenizer の落とし穴:同じ日本語でも token 数が35%変わる
Anthropic は Opus 4.7 から tokenizer を刷新し、同一テキストで token 数が最大35%増。単価表はそのまま、請求だけ変わる。CJK では DeepSeek と Qwen の tokenizer が GPT 系より token 効率が良いことが多い——10–20% のコスト差は小さくない。
三、性能:ベンチマークが示す梯队
3.1 コード能力:SWE-bench Verified(2026年6月)
SWE-bench Verified は、実在 GitHub issue を直せるかを測る——500問・人手検証済み。「Hello World を書く」より信頼できる指標。
| 順位 | モデル | SWE-bench Verified | 出力 ($/M) |
|---|---|---|---|
| 1 | Claude Fable 5 | 95.0% | $50 |
| 2 | Claude Opus 4.8 | 88.6% | $25 |
| 3 | GPT-5.5 | 82.6% | $30 |
| 4 | Claude Opus 4.7 | 82.0% | $25 |
| 5 | Gemini 3.5 Flash | 79.8% | $9 |
| 6 | Gemini 3.1 Pro | 80.6% | $12 |
| 7 | DeepSeek V4 | ~81% | $0.87 |
ランキングの読み方:
- コーディングは依然 Claude 系。 Fable 5 と Opus 4.8 が他を一段引き離す。Cursor、Claude Code、Devin 系ツールでは「一発で直るか」に直結。
- GPT-5.5 は総合力は高いが、コード最強ではない。 ツール呼び出し、マルチモーダル、エコシステム統合が本領。
- DeepSeek V4 の 81% を $0.87/M で出すコスパは異常値。 個人開発の Vibe Coding なら、最低コストの「実用」帯。
注意:SWE-bench スコアは Agent 足場に強く依存。ベンダー自社計測は公開ベンチより15–30pt高いことも。絶対値より「同じ足場での比較」を見る。
3.2 推論と知識:MMLU-Pro、GPQA、長コンテキスト
| 能力軸 | リーダー | メモ |
|---|---|---|
| 複雑多段推論 | Claude Fable 5、GPT-5.5 Pro | 数学証明、法務分析、研究補助 |
| 長文書理解 | Gemini 3.1 Pro(2M)、Claude Sonnet 4.6(1M 均一) | PDF 全文投入 Q&A |
| マルチモーダル(画像/音声/動画) | Gemini 3 系、GPT-5.5 | ネイティブ視覚 + 音声理解 |
| リアルタイム検索 | Grok 4.x | 最新情報が要るニュース/ソーシャル監視 |
| CJK 理解・生成 | DeepSeek V4、Qwen3.5、Kimi K2.6 | CJK token 効率が高い |
3.3 レイテンシとスループット
| モデル | 初回 token レイテンシ | スループット | 向く |
|---|---|---|---|
| Claude Haiku 4.5 | 極低 | 高 | オンライン CS、リアルタイム分類 |
| Gemini 2.5 Flash-Lite | 極低 | 極高 | 日次百万コール級 |
| GPT-5.4-nano | 低 | 高 | OpenAI 内の軽量タスク |
| Claude Opus 4.8 | 中 | 中 | 複雑な単発推論 |
| Claude Fable 5 | 高 | 低 | 長時間 Agent、秒返不要 |
四、用途別:誰が何を使うか
4.1 個人開発 / Vibe Coding
推奨構成:
- 日常コーディング:Claude Opus 4.8(API)または Claude Code Max $100/月
- 節約枠:DeepSeek V4 Pro
- 超軽量:Gemini 2.5 Flash-Lite
ざっくり試算: Claude Code Max $100/月 ≒ 重度 Opus セッション50回。1日2時間超でコーディングするならサブスクの方が token 従量より安い。それ未満なら DeepSeek V4 Pro API が有利。
要確認: Cursor 等では spending hard cap を必ず設定。MAX モード4週で $11,922 消費の事例もコミュニティにある。
4.2 スタートアップ / 小規模 SaaS
推奨構成:
- 中核推論:Gemini 3.1 Pro(コスパ旗艦)
- コード Agent:Claude Sonnet 4.6(1M 均一)
- 大量バックグラウンド:DeepSeek V4 Flash + Batch
- モデルルーティング:複雑→ Sonnet、単純分類→ Flash-Lite
月額試算(中規模 SaaS、日500万 token):
| 構成 | 月額(キャッシュなし) | 月額(40% キャッシュ) |
|---|---|---|
| 全 Claude Sonnet 4.6 | ~$3,900 | ~$2,574 |
| 全 Gemini 3.1 Pro | ~$2,640 | ~$1,743 |
| 全 DeepSeek V4 Pro | ~$438 | ~$289 |
| ルーティング(20% Sonnet + 80% Flash) | ~$1,200 | ~$750 |
4.3 エンタープライズ / コンプライアンス重視
推奨構成:
- 海外法人:AWS Bedrock(Claude)または Vertex AI(Gemini)
- コードセキュリティレビュー:Claude Opus 4.8 + プライベート Git 連携
- 非推奨:第三者 OpenAI プロキシ(データ越境リスク > 節約効果)
必須チェックリスト:
- API Key 単位の予算上限とアラート
- Prompt Caching 有効化(本番で30–50% 節約)
- モデルルーティング方針——全リクエスト Opus は禁止
- コード Agent は隔離環境(Cloud Mac / コンテナ)——裸機直実行は避ける
4.4 AI 開発者 / Agent フレームワーク
推奨構成:
- 長時間自律 Agent:Claude Fable 5
- ツール呼び出し編成:GPT-5.5
- ローカル開発テスト:Apple Silicon Mac + 量子化 Qwen/DeepSeek
- 本番フォールバック:Gemini 3.1 Pro(長コンテキスト + 低単価)
なぜ Apple Silicon? 2026年の Agent 開発、ボトルネックは API だけではない——実行環境も同列。Claude Code は macOS で Xcode テスト、実機 iOS ビルド、tmux 一晩タスクが要る。モデルが強くても実行ノードが不安定なら、SSH 切断で数ドル分の token が水の泡。詳しくは AI 時代、希少なのはモデルではなく実行ノード。
4.5 グローバル SaaS / 多言語 CS
推奨構成:
- 主力:DeepSeek V4 Pro(翻訳、要約、CS)
- 欧米ユーザー向け:Gemini 3.1 Flash-Lite または GPT-5.4-nano
- 高品質仕上げ:Claude Haiku 4.5
4.6 学生 / 研究者
推奨構成:
- Gemini 3 Flash Preview(無料枠あり)
- DeepSeek V4 Flash(実験向け極低価格)
- ローカル:Mac Mini M4 で 7B–32B 量子化モデルのプロトタイプ
五、実コスト試算:3つの典型シナリオ
シナリオ A:AI カスタマーサポート(日10万ターン)
1ターンあたり 2K 入力 + 500 出力、80% が繰り返しシステムプロンプト(キャッシュ命中)と仮定。
| モデル | 日額 | 月額 |
|---|---|---|
| GPT-5.4-nano | ~$5.5 | ~$165 |
| Gemini 2.5 Flash-Lite | ~$3.2 | ~$96 |
| DeepSeek V4 Flash | ~$1.8 | ~$54 |
| Claude Haiku 4.5 | ~$12 | ~$360 |
結論: CS には旗艦不要。DeepSeek V4 Flash か Gemini Flash-Lite で十分——月 $100 以内に収める。
シナリオ B:コード Agent(日50リポジトリ級タスク)
1回あたり 50K 入力 + 20K 出力、ツール呼び出し10ラウンド込み。
| モデル | 日額 | 月額 |
|---|---|---|
| Claude Opus 4.8 | ~$50 | ~$1,500 |
| GPT-5.5 | ~$58 | ~$1,740 |
| DeepSeek V4 Pro | ~$2.5 | ~$75 |
| Claude Fable 5 | ~$100 | ~$3,000 |
結論: 品質優先→ Opus 4.8、節約→ DeepSeek V4 Pro(成功率トレードオフ)、長時間自律→ Fable 5。
シナリオ C:長文書 RAG Q&A(日1000回、各150K 入力)
| モデル | 日額 | 月額 |
|---|---|---|
| Gemini 3.1 Pro(≤200K) | ~$360 | ~$10,800 |
| Claude Sonnet 4.6(1M 均一) | ~$495 | ~$14,850 |
| Gemini 3.1 Pro(>200K 帯) | ~$540 | ~$16,200 |
結論: 長文 RAG は Gemini 3.1 Pro を 200K 以内に抑えるか、Claude Sonnet 4.6 の 1M 均一を使う。本番前に chunk 戦略を最適化——毎回全書投入は請求自殺。
六、2026年モデル選定の5原則
- リクエスト形状を先に描く。 出力比率高→旗艦、入力繰り返し→キャッシュ向き、長コンテキスト→均一単価帯。
- 単一モデルよりルーティング。 2026年最安は「最安モデル1本」ではなく、80% Flash + 20% 旗艦の配分。
- キャッシュは必須。 本番で Prompt Caching なしは、意図的に30–50% 多払い。
- 表単価ではなく総コスト。 DeepSeek は最安だが、海外利用は監査・口座安定性・越境リスクも積算。
- モデルは脳、実行環境は身体。 Agent 時代、API 請求は半分——残りは Agent を走らせるマシンが 24時間落ちないか。
七、Apple Silicon との関係:ローカル + クラウド API ハイブリッド
2026年の現実的 AI 開発は「全 API」でも「全ローカル」でもなく、層分け:
| 層 | 何を回す | 何で回す |
|---|---|---|
| ローカル(Apple Silicon) | コード補完、小モデル推論、前処理 | Mac Mini M4 / M4 Pro、7B–32B 量子化 |
| クラウド API(従量) | 複雑推論、長コンテキスト、マルチモーダル | Claude / Gemini / DeepSeek |
| クラウド実行ノード(時間課金) | Agent の Xcode、CI ビルド、長時間タスク | Cloud Mac(Vuncloud) |
Apple Silicon の UMA は、M4 で 14B–32B 量子化を低消費電力・低騒音で回すのに向く——NVIDIA 不要。ただし Claude Code の iOS ビルド、macOS Xcode UI テスト、週末 tmux マイグレーションはローカルでは厳しい。実行ノードの安定性はモデル選定と同格。
よくある質問(FAQ)
2026年、最安の実用プロダクション級モデルは?
DeepSeek V4 Flash($0.14/$0.28)と Gemini 2.5 Flash-Lite($0.10/$0.40)が最下位帯。CJK なら DeepSeek の tokenizer が token 効率良く、実コストはさらに下がることも。
GPT-5.5 値上げ後も使う価値はある?
OpenAI エコシステム(Assistants API、Realtime 音声、DALL·E / Sora、Azure OpenAI)に深く依存するなら必須。純テキスト/コードなら Gemini 3.1 Pro と Claude Opus 4.8 の方がコスパ良い。
Claude Opus 4.8 と GPT-5.5 はどう選ぶ?
コード Agent→ Opus 4.8(SWE-bench +6pt、出力17%安)。ツール密集・マルチモーダル・音声→ GPT-5.5。入力は両方 $5/M。
Gemini 3.1 Pro の 200K 段階課金はどう扱う?
RAG を chunk して1リクエスト 200K 以内に。または Gemini Context Caching で繰り返し文書をキャッシュ。200K 超は入力 $2→$4 に倍増。
DeepSeek V4 は本番向き?
アジア圏・CJK ビジネスでは第一候補。欧米エンタープライズは PIPL、米連邦機関制限等のコンプライアンスを別途評価。技術・価格は問題、変数は規制。
個人開発、月予算 $50 の配分は?
DeepSeek V4 Pro メイン($30)、Gemini 2.5 Flash-Lite 予備($10)、残り $10 で Claude Sonnet に硬い案件だけ投げる。
ChatGPT Plus / Claude Pro サブスク vs API、どちらが得?
1日2時間未満の個人利用ならサブスク。4時間超、または自プロダクト組み込みなら API。Claude Code Max $100/月 ≒ 重度 Opus 50セッション。
おわりに
モデル選定は第一歩。2026年に差がつくのは、安定した実行環境で Agent を完走できるか——コンパイル通過、テスト green、PR マージまで。
モデルは脳、実行環境は身体。API 請求は半分——残りは Agent を走らせるマシンが 24時間落ちないか。
Claude Code で iOS / macOS 開発、または 24時間落ちない Agent 実行ノードが要るなら、Fable vs Opus を議論する前に、一晩完走できる Cloud Mac を確保する。
Agent 開発:モデルが合っても、実行ノードは安定させる
Vuncloud 専用 Mac mini M4 Cloud Mac:Claude Code 長時間実行、Xcode ビルド検証、tmux 夜間タスク、US East/West/APAC——Agent の「身体」を落ちない macOS 算力面に。
関連記事
- モデル競争はもう終わり——Macコンピュートノードが取れない理由
- Opus 4.8 から Fable 5 へ——Anthropic のアップグレードは何が変わったのか
- Mac Mini M4 は Cloud Mac での AI 開発に向いている?2026 ガイド
最終更新:2026年6月17日。価格・ベンチデータは各ベンダー公開料金表および SWE-bench Verified ランキング(2026年6月)に基づく。