xAI의 grok, FutureX 예측 점수에서 1등 차지.

이미지 텍스트 확인

Basc LLM
LLM(ThinkeSearch Web)
Individual Parlicipator
Open DeepReseurch
Closed DeepResearch
아
통
DP’
Owcny- S
DcpseckV
GITAo-mint
Depscck-RI
V(SmulAgemt)
GPTAl
‘(wcbl
uFLAo-mini (Smolpemt)
Cxmini-2 SFro
‘(Skyork)
GPIA | (SmolAgent)
Gemini-2 5-Fro (SmolAeemi)
Seedl 6(DouBao)
GPI4I (Skywork)
‘(wcb)
Individual (Grok4)
Uweny-보R(web)
Cemini ?;-Flash (DR)
Individual (Uren A-ss-I2oB)
Decpscck-RI (wcb)
GP-o4-mini (Wcb)
72K-Frevicw
Individual (GFTs-Pro)
Gemimi-! S-Fro (web)
GPI-S-Fro(web)
ChatoFT Nrent (wcb)
4 (web)
Seedl @(Doufao
GP4o
Hunyuan
Grk
Gcmini-보S-Fro
MiroThinker
Ueepscck `

미래 예측은 LLM 에이전트에게 높은 수준의 분석적 사고, 정보 수집, 맥락 이해 및 불확실성 하에서의 의사 결정이 필요한 복잡한 작업입니다. 에이전트는 방대한 양의 동적 정보를 수집하고 해석해야 할 뿐만 아니라 다양한 데이터 소스를 통합하고 불확실성을 저울질하며 정치, 경제 및 금융과 같은 분야에서 인간 전문가가 하는 것처럼 새로운 추세에 기반한 예측을 조정해야 합니다. 그 중요성에도 불구하고, 실시간 업데이트를 처리하고 시기 적절하고 정확한 답변을 검색하는 데 어려움이 있기 때문에 미래 예측에 대한 에이전트를 평가하기 위한 대규모 벤치마크는 존재하지 않습니다. 이를 해결하기 위해 미래 예측 작업을 수행하는 LLM 에이전트를 위해 특별히 설계된 동적 및 실시간 평가 벤치마크인 FutureX를 소개합니다.

https://arxiv.org/pdf/2508.11987

이 게시물은 얼마나 유용했습니까?

별을 클릭하여 등급을 매깁니다!

평균 평점 / 5. 투표 수:

지금까지 투표가 없습니다! 이 게시물을 평가하는 첫 번째 사람이 되세요.

Related posts:

리플 남기기 응답 취소