2026년 6월 LLM 출력 가격은 최대 643배 차이. 이 글은 가격·설정·성능·대상 네 축으로 모델을 고르고, 요금·컨텍스트 실수를 막는다.
一、2026 LLM 가격 지도
1.1 플래그십: 능력도 단가도 천장
| 모델 | 벤더 | 입력 | 캐시 입력 | 출력 | 컨텍스트 |
|---|---|---|---|---|---|
| GPT-5.5 Pro | OpenAI | $30 | — | $180 | ~1M(실효 ~258K) |
| Claude Fable 5 | Anthropic | $10 | $1 | $50 | 1M |
| GPT-5.5 | OpenAI | $5 | $0.50 | $30 | ~1M(실효 ~258K) |
| Claude Opus 4.8 | Anthropic | $5 | $0.50 | $25 | 1M |
| Claude Sonnet 4.6 | Anthropic | $3 | $0.30 | $15 | 1M(균일 단가) |
| Gemini 3.1 Pro ≤200K | $2 | $0.20 | $12 | 2M | |
| Gemini 3.1 Pro >200K | $4 | $0.40 | $18 | 2M | |
| DeepSeek V4 Pro | DeepSeek | $0.435 | $0.0036 | $0.87 | 128K–1M |
직관과 다른 세 가지:
- Gemini 3.1 Pro가 가장 저렴한 플래그십. 100만 token 기준 입력은 GPT-5.5보다 60% 싸고, 출력도 60% 싸다. 긴 컨텍스트일수록 격차가 커진다.
- Claude Opus 4.8과 GPT-5.5는 입력 동가($5)지만 Claude 출력은 17% 저렴. 100만 token 생성 시 Opus가 $5 절약.
- DeepSeek V4 Pro 출력은 Gemini 최저 Flash-Lite보다 싸다. 「OSS 타협」이 아니라 정식 상용 API 가격대.
1.2 미드: 일상 프로덕션 스위트 스팟
| 모델 | 입력 | 출력 | 컨텍스트 | 적합 용도 |
|---|---|---|---|---|
| GPT-5.4 | $2.50 | $15 | 1M | OpenAI 생태계 균형형 |
| GPT-5.3 Codex | $1.75 | $14 | 128K | 코드 완성, IDE 연동 |
| Gemini 3.5 Flash | $1.50 | $9 | 1M | 멀티모달 + 빠른 추론 |
| Claude Haiku 4.5 | $1.00 | $5.00 | 200K | 저지연, 고동시 |
| Kimi K2.6 | $0.60 | $2.50 | 262K | CJK 장문 이해 |
| Qwen3.5-Plus | $0.40 | $2.40 | 1M | Alibaba Cloud, CJK |
1.3 이코노미: 대량 호출의 방파제
| 모델 | 입력 | 출력 | 비고 |
|---|---|---|---|
| GPT-5.4-nano | $0.20 | $1.25 | 미국 클로즈드 최저가 |
| Gemini 3.1 Flash-Lite | $0.25 | $1.50 | 네이티브 멀티모달 |
| Gemini 2.5 Flash-Lite | $0.10 | $0.40 | 극한 저가 |
| DeepSeek V4 Flash | $0.14 | $0.28 | 캐시 적중 입력 $0.0028 |
| 小米 MiMo-V2.5-Flash | $0.10 | $0.30 | 아시아권 극저가 |
| Grok 4.1 Fast | $0.20 | $0.50 | 2M 컨텍스트 + 실시간 검색 |
출력 token만 보면 격차는? DeepSeek V4 Flash를 1×로 두면 GPT-5.5는 107×, GPT-5.5 Pro는 643×, Claude Fable 5는 179×.
二、설정: 요금표 밖에서 청구를 가르는 것
2.1 컨텍스트 윈도: 표기값 ≠ 실사용값
벤더가 광고하는 context와 프로덕션에서 안심하고 쓸 수 있는 context는 종종 다르다.
| 모델 | 표기 컨텍스트 | 실무 권장 상한 | 함정 |
|---|---|---|---|
| GPT-5.5 | 1M | ~258K 이후 lossy 압축 | 장시간 Agent 중 「망각」 |
| Claude Sonnet 4.6 | 1M | 1M 균일 단가, 구간 없음 | 긴 컨텍스트 가성비 최고 |
| Gemini 3.1 Pro | 2M | 200K 초과 시 입력 2배 | RAG 전문 투입 전 구간 계산 |
| DeepSeek V4 Pro | 128K–1M | 배포 버전에 따름 | 해외 이용 시 컴플라이언스 검토 |
| Kimi K2.6 | 262K | 262K | CJK 장문에 강함 |
선택 기준: RAG 파이프라인이 200K token을 넘기면 Claude Sonnet 4.6(1M 균일)이거나 Gemini 3.1 Pro를 200K 이내로 묶는다. 아니면 청구와 지연이 폭주한다.
2.2 Prompt Caching: 최대 90% 할인, 벤더마다 방식이 다름
2026년 프로덕션에서 캐시 없음은 시스템 프롬프트와 RAG 컨텍스트를 매 요청 풀 과금하는 것과 같다.
| 벤더 | 캐시 할인 | 메커니즘 | 주의 |
|---|---|---|---|
| Anthropic | 최대 90% | cache_control 브레이크포인트 수동 설정 |
5분 / 1시간 쓰기 단가 2단 |
| OpenAI | 50% | 자동 캐시, 설정 불필요 | 1024 token 이상, 동일 prefix면 적중 |
| 최대 90% | 암시 + 명시 | 시간당 스토리지 과금——저빈도 적중이면 오히려 비쌈 | |
| DeepSeek | 최대 99% | 자동 | V4 Flash 캐시 적중 입력 $0.0028/M |
전형적 절감: 일 100만 입력 token, 60%가 반복 시스템 프롬프트와 RAG 컨텍스트라 가정:
- Claude Opus 4.8: $5 → 약 $2.3/일(54% 절감)
- GPT-5.5: $5 → 약 $3.2/일(36% 절감)
- Gemini 3.1 Pro: $2 → 약 $1.1/일(45% 절감)
- DeepSeek V4 Pro: $0.435 → 약 $0.05/일(89% 절감)
2.3 Batch API와 추론 모드
- Batch API(OpenAI / Anthropic / Google): 비실시간이면 추가 50% 할인. 오프라인 처리, 일괄 번역, 벤치 일괄 실행.
- 추론 모드(reasoning effort): GPT-5.5
xhigh, Claudeextended thinking은 숨은 추론 token을 크게 늘림——전부 출력 과금. 「500 token 답」이 5000+ token 추론을 쓸 수 있다. - Priority 큐(OpenAI): 2.5× 프리미엄으로 저지연. SLA 민감한 온라인 외엔 잘 안 맞는다.
2.4 Tokenizer 함정: 같은 한국어도 token 수 35% 차이
Anthropic은 Opus 4.7부터 tokenizer를 바꿔 동일 텍스트 token 수가 최대 35% 증가. 단가표는 그대로, 청구만 변한다. CJK에서는 DeepSeek·Qwen tokenizer가 GPT 계열보다 token 효율이 좋은 경우가 많다——10–20% 비용 차이는 작지 않다.
三、성능: 벤치마크가 보여주는 티어
3.1 코드 능력: SWE-bench Verified(2026년 6월)
SWE-bench Verified는 실제 GitHub issue를 고칠 수 있는지 측정——500문항, 수동 검증. 「Hello World 쓰기」보다 신뢰할 만하다.
| 순위 | 모델 | SWE-bench Verified | 출력 ($/M) |
|---|---|---|---|
| 1 | Claude Fable 5 | 95.0% | $50 |
| 2 | Claude Opus 4.8 | 88.6% | $25 |
| 3 | GPT-5.5 | 82.6% | $30 |
| 4 | Claude Opus 4.7 | 82.0% | $25 |
| 5 | Gemini 3.5 Flash | 79.8% | $9 |
| 6 | Gemini 3.1 Pro | 80.6% | $12 |
| 7 | DeepSeek V4 | ~81% | $0.87 |
랭킹 읽는 법:
- 코딩은 여전히 Claude 계열. Fable 5와 Opus 4.8이 한 티어 위. Cursor, Claude Code, Devin류 도구에선 「한 번에 고치나」에 직결.
- GPT-5.5는 종합은 강하지만 코드 1위는 아님. 툴 호출, 멀티모달, 생태계 통합이 본색.
- DeepSeek V4 81%를 $0.87/M에 내는 가성비는 이례적. 개인 Vibe Coding 최저비용 「쓸 만한」 구간.
참고: SWE-bench 점수는 Agent scaffolding에 크게 좌우됨. 벤더 자체 측정은 공개 벤치보다 15–30pt 높을 수 있음. 절대값보다 「같은 scaffolding 비교」를 본다.
3.2 추론과 지식: MMLU-Pro, GPQA, 긴 컨텍스트
| 능력 축 | 리더 | 설명 |
|---|---|---|
| 복잡 다단 추론 | Claude Fable 5, GPT-5.5 Pro | 수학 증명, 법률 분석, 연구 보조 |
| 장문서 이해 | Gemini 3.1 Pro(2M), Claude Sonnet 4.6(1M 균일) | PDF 전문 투입 Q&A |
| 멀티모달(이미지/음성/영상) | Gemini 3 계열, GPT-5.5 | 네이티브 비전 + 음성 이해 |
| 실시간 검색 | Grok 4.x | 최신 정보가 필요한 뉴스/여론 |
| CJK 이해·생성 | DeepSeek V4, Qwen3.5, Kimi K2.6 | CJK token 효율 높음 |
3.3 지연과 처리량
| 모델 | 첫 token 지연 | 처리량 | 적합 |
|---|---|---|---|
| Claude Haiku 4.5 | 극저 | 높음 | 온라인 CS, 실시간 분류 |
| Gemini 2.5 Flash-Lite | 극저 | 극고 | 일 백만 호출급 |
| GPT-5.4-nano | 저 | 높음 | OpenAI 내 경량 태스크 |
| Claude Opus 4.8 | 중 | 중 | 복잡 단발 추론 |
| Claude Fable 5 | 높음 | 저 | 장시간 Agent, 초단 응답 불필 |
四、대상별: 누가 무엇을 쓸까
4.1 개인 개발 / Vibe Coding
추천 조합:
- 일상 코딩: Claude Opus 4.8(API)또는 Claude Code Max $100/월
- 절약: DeepSeek V4 Pro
- 초경량: Gemini 2.5 Flash-Lite
대략 계산: Claude Code Max $100/월 ≒ Opus 고강도 세션 50회. 하루 2시간 넘게 코딩하면 구독이 token 종량보다 유리. 그 이하면 DeepSeek V4 Pro API가 낫다.
필수: Cursor 등에서 spending hard cap 설정. MAX 모드 4주 $11,922 사례도 커뮤니티에 있다.
4.2 스타트업 / 소규모 SaaS
추천 조합:
- 핵심 추론: Gemini 3.1 Pro(가성비 플래그십)
- 코드 Agent: Claude Sonnet 4.6(1M 균일)
- 대량 백그라운드: DeepSeek V4 Flash + Batch
- 모델 라우팅: 복잡→ Sonnet, 단순 분류→ Flash-Lite
월 비용 추정(중형 SaaS, 일 500만 token):
| 구성 | 월 비용(캐시 없음) | 월 비용(40% 캐시) |
|---|---|---|
| 전부 Claude Sonnet 4.6 | ~$3,900 | ~$2,574 |
| 전부 Gemini 3.1 Pro | ~$2,640 | ~$1,743 |
| 전부 DeepSeek V4 Pro | ~$438 | ~$289 |
| 라우팅(20% Sonnet + 80% Flash) | ~$1,200 | ~$750 |
4.3 엔터프라이즈 / 컴플라이언스 민감
추천 조합:
- 해외 법인: AWS Bedrock(Claude)또는 Vertex AI(Gemini)
- 코드 보안 리뷰: Claude Opus 4.8 + 프라이빗 Git 연동
- 비추: 제3자 OpenAI 프록시(데이터 반출 리스크 > 절약)
필수 체크리스트:
- API Key 단위 예산 상한과 알림
- Prompt Caching 활성화(프로덕 30–50% 절감)
- 모델 라우팅 정책——모든 요청 Opus 금지
- 코드 Agent는 격리 환경(Cloud Mac / 컨테이너)——베어메탈 직접 실행 지양
4.4 AI 개발자 / Agent 프레임워크
추천 조합:
- 장시간 자율 Agent: Claude Fable 5
- 툴 호출 오케스트레이션: GPT-5.5
- 로컬 개발 테스트: Apple Silicon Mac + 양자화 Qwen/DeepSeek
- 프로덕 폴백: Gemini 3.1 Pro(긴 컨텍스트 + 저가)
왜 Apple Silicon? 2026 Agent 개발 병목은 API만이 아님——실행 환경도 동급. Claude Code는 macOS Xcode 테스트, 실기 iOS 빌드, tmux 밤샘 태스크가 필요. 모델이 강해도 실행 노드가 불안정하면 SSH 끊김으로 수 달러 token이 날아감. 자세히 AI 시대, 희한한 건 모델이 아니라 실행 노드.
4.5 글로벌 SaaS / 다국어 CS
추천 조합:
- 주력: DeepSeek V4 Pro(번역, 요약, CS)
- 서구 사용자: Gemini 3.1 Flash-Lite 또는 GPT-5.4-nano
- 고품질 다듬기: Claude Haiku 4.5
4.6 학생 / 연구자
추천 조합:
- Gemini 3 Flash Preview(무료 할당)
- DeepSeek V4 Flash(실험용 극저가)
- 로컬: Mac Mini M4로 7B–32B 양자화 모델 프로토타입
五、실제 비용: 세 가지 시나리오
시나리오 A: AI CS 봇(일 10만 턴)
턴당 2K 입력 + 500 출력, 80% 반복 시스템 프롬프트(캐시 적중) 가정.
| 모델 | 일 비용 | 월 비용 |
|---|---|---|
| GPT-5.4-nano | ~$5.5 | ~$165 |
| Gemini 2.5 Flash-Lite | ~$3.2 | ~$96 |
| DeepSeek V4 Flash | ~$1.8 | ~$54 |
| Claude Haiku 4.5 | ~$12 | ~$360 |
결론: CS에 플래그십 불필요. DeepSeek V4 Flash 또는 Gemini Flash-Lite면 충분——월 $100 이내.
시나리오 B: 코드 Agent(일 50회 레포급 태스크)
회당 50K 입력 + 20K 출력, 툴 호출 10라운드 포함.
| 모델 | 일 비용 | 월 비용 |
|---|---|---|
| Claude Opus 4.8 | ~$50 | ~$1,500 |
| GPT-5.5 | ~$58 | ~$1,740 |
| DeepSeek V4 Pro | ~$2.5 | ~$75 |
| Claude Fable 5 | ~$100 | ~$3,000 |
결론: 품질→ Opus 4.8, 절약→ DeepSeek V4 Pro(성공률 트레이드오프), 장시간 자율→ Fable 5.
시나리오 C: 장문서 RAG Q&A(일 1000회, 회당 150K 입력)
| 모델 | 일 비용 | 월 비용 |
|---|---|---|
| Gemini 3.1 Pro(≤200K) | ~$360 | ~$10,800 |
| Claude Sonnet 4.6(1M 균일) | ~$495 | ~$14,850 |
| Gemini 3.1 Pro(>200K 구간) | ~$540 | ~$16,200 |
결론: 긴 RAG는 Gemini 3.1 Pro를 200K 이내로 묶거나 Claude Sonnet 4.6 1M 균일. 런칭 전 chunk 전략 최적화——매번 책 전체 투입은 청구 자살.
六、2026 모델 선택 5원칙
- 요청 형태를 먼저 그린다. 출력 비율 높음→ 플래그십, 입력 반복→ 캐시 친화, 긴 컨텍스트→ 균일 단가.
- 단일 모델보다 라우팅. 2026 최저비용은 「최저 모델 하나」가 아니라 80% Flash + 20% 플래그십.
- 캐시는 필수. 프로덕 Prompt Caching 없음은 의도적 30–50% 초과 과금.
- 표 단가가 아니라 총비용. DeepSeek 최저지만 해외 이용은 감사·계정 안정·반출 리스크도 합산.
- 모델은 뇌, 실행 환경은 몸. Agent 시대 API 청구는 절반——나머지는 Agent를 돌리는 머신이 24시간 안 끊기는가.
七、Apple Silicon: 로컬 + 클라우드 API 하이브리드
2026 현실적 AI 개발은 「전 API」도 「전 로컬」도 아니라 계층 분리:
| 계층 | 무엇을 | 무엇으로 |
|---|---|---|
| 로컬(Apple Silicon) | 코드 완성, 소형 모델 추론, 전처리 | Mac Mini M4 / M4 Pro, 7B–32B 양자화 |
| 클라우드 API(종량) | 복잡 추론, 긴 컨텍스트, 멀티모달 | Claude / Gemini / DeepSeek |
| 클라우드 실행 노드(시간 과금) | Agent Xcode, CI 빌드, 장시간 태스크 | Cloud Mac(Vuncloud) |
Apple Silicon UMA는 M4에서 14B–32B 양자화를 저전력·저소음으로——NVIDIA 불필요. 다만 Claude Code iOS 빌드, macOS Xcode UI 테스트, 주말 tmux 마이그레이션은 로컬로는 빡세다. 실행 노드 안정성은 모델 선택과 동급.
자주 묻는 질문(FAQ)
2026 가장 싼 실용 프로덕션급 모델은?
DeepSeek V4 Flash($0.14/$0.28)와 Gemini 2.5 Flash-Lite($0.10/$0.40)가 최하위. CJK면 DeepSeek tokenizer가 token 효율 좋아 실비용 더 낮을 수 있음.
GPT-5.5 인상 후에도 쓸 만한가?
OpenAI 생태(Assistants API, Realtime 음성, DALL·E / Sora, Azure OpenAI)에 깊이 묶였으면 필수. 순 텍스트/코드면 Gemini 3.1 Pro·Claude Opus 4.8 가성비 우위.
Claude Opus 4.8 vs GPT-5.5?
코드 Agent→ Opus 4.8(SWE-bench +6pt, 출력 17% 저렴). 툴·멀티모달·음성→ GPT-5.5. 입력 둘 다 $5/M.
Gemini 3.1 Pro 200K 구간 과금은?
RAG chunk로 요청 200K 이내. 또는 Gemini Context Caching으로 반복 문서 캐시. 200K 초과 입력 $2→$4.
DeepSeek V4 프로덕션 OK?
아시아권·CJK 비즈니스 1순위. 서구 엔터프라이즈는 PIPL, 미 연방 기관 제한 등 컴플라이언스 별도. 기술·가격은 OK, 변수는 규제.
개인 개발 월 $50 배분?
DeepSeek V4 Pro 메인($30), Gemini 2.5 Flash-Lite 예비($10), 나머지 $10으로 Claude Sonnet에 딱딱한 건만.
ChatGPT Plus / Claude Pro vs API?
하루 2시간 미만 개인이면 구독. 4시간 초과 또는 자사 제품 임베드면 API. Claude Code Max $100/월 ≒ Opus 고강도 50세션.
맺음말
모델 고르기는 첫걸음. 2026 격차는 안정된 실행 환경에서 Agent를 끝까지 돌릴 수 있는가——컴파일 통과, 테스트 green, PR 머지.
모델은 뇌, 실행 환경은 몸. API 청구는 절반——나머지는 Agent 머신이 24시간 안 끊기는가.
Claude Code로 iOS/macOS 개발하거나 24시간 Agent 실행 노드가 필요하면 Fable vs Opus 논의 전에 밤새 완주할 Cloud Mac부터 확보.
Agent 개발: 모델 맞춰도 실행 노드는 안정적으로
Vuncloud 전용 Mac mini M4 Cloud Mac: Claude Code 장시간, Xcode 빌드 검증, tmux 야간 태스크, US East/West/APAC——Agent 「몸」을 안 끊기는 macOS 연산면에.
관련 글
- 모델 경쟁은 끝났다—왜 Mac 컴퓨트 노드는 구하기 어려울까
- Opus 4.8에서 Fable 5로——Anthropic 업그레이드, 무엇이 달라졌나
- Cloud Mac에서 Mac Mini M4는 AI 개발에 적합할까? (2026)
최종 업데이트: 2026년 6월 17일. 가격·벤치 데이터는 각 벤더 공개 요금표 및 SWE-bench Verified 랭킹(2026년 6월) 기준.