촬스의 이슈와 유머

이미지 텍스트 확인

Ganaralnurnrsd mcgall
Haalnnlinn rrndel
GPT-4.5
GPT-4o
OpenAl
03-mini
GPQA (science)
71,476
53,696
79.706
AIME ’24 (math)
36.7대0
9.393
87390
SWE -Bench Verified (coding)
3846
3156
6176
SWE-Lancar Diammarid (cading)
32693
23,356
1D.B46
MMMLU (multilingual)
851%a
81.5qo
811%u
MMMU (multimodal)
74 47a
69.190

이미지 텍스트 확인

Benchmarks
Grok-3
Grok-3 mini
Gemini-2 Pro
DeepSeek-V3
Claude 3.5 Sonnet
GPT-4o
옷A이
MathlAlME’24)
SciencelGPOA)
CodinglLCB Oct-Feb)

grok3한테 GPQA, AIME 벤치 10~30% 격차정도로 따임. (심지어 AIME 벤치는 grok3 mini한테 밀리는 모습)

이미지 텍스트 확인

Agentic Coding Evaluation
6796
6596
6296
표
@
5596
호
51%6
4996
용
GPT4 5
Sonnet 3.7
Sonnet 3.5 (new)
DeepSeek RI
GPT-4o
Model

에이전트 코딩 벤치도 sonnet 3.7한테 따이고, 몇달전에 출시된 sonnet 3.6이라고 놀림받는 sonnet 3.5(new) 랑 비비는 모습

이미지 텍스트 확인

ARC-AGI-1
Semi-Private Eval
기미Drs
STEM GPAD
gDLe
gDre
AVG
MTURVER
7One
6De;
KAGGLE SoTA
50다e
MDro
O3III WICH
01 HIGH
B0n2
03 WINI MED
O1 MED
2D33
01 Low
03
MINIOW
R’
IO5E
GPT4 5
SD 10
CoST PER TASK ($)

이미지 텍스트 확인

ARC_AGI-1
Semi-Private Eval
100
5TPGRAD
903.
Bora
AVG MrUR*ER
705
6036
FAGGLE SOT4
50 3
%
“Da
03
MIMIMIGH
30 –
03 MIII IED
Claudc Sonnot 3.7 (hinking 16K)
20
Clavde Sonnet 3.7 (Thinking 8K)
03
MITIILoI
103
Cliude Sonnet 3.7
claude Sonnel 3.7 (Thinking IK)
S0 0
CoST PER TAsK ($)

arc-agi 벤치 또한 sonnect 3.7과 점수는 거의 동일한데 비해 cost per task(가격 대비) 측면에서 압도적으로 뒤떨어짐

이미지 텍스트 확인

GPT-4.5
Largest GPT model designed for
creative tasks and agentic planning,
currently availablein aresearch
preview.| 128k context length
Price
Input:
875.00/1M tokens
Cached input:
837.50/1M tokens
Output:
8150.00/ 1M tokens

가격은.10~30배 이상 상승

1. 기존의 모델 크기(파라미터 수, 층 쌓기)와 컴퓨팅 파워만을 늘리는 스케일 법칙은 더 이상 유효하지 않을 가능성이 굉장히 높다.

2. openai는 더 이상 “”

베이스모델

“” 에서의 성능 이점을 잡고 있다고 보기 힘들다.

물론 여기서 말하는 베이스모델은 test time compute 추론모델을 제외한 것이며, 추론모델은 아직까지 지표상으로는 o3가 가장 높지만.

이 게시물은 얼마나 유용했습니까?

별을 클릭하여 등급을 매깁니다!