촬스의 이슈와 유머

이미지 텍스트 확인

D 매일경제
구독
9 Q
“이젠 엉뚱한 답도 거의 없다”.
구글 오쪽시 ‘오답률’ 1% 미만
진입
정호준 기자(jeong hojun@mkcokr)
2025. 2. 9. 16:54
NEJPRESSO
보탓빛 매혹에 빠져 보라
풍부한 바디감과 코코아향 커피
부정확한 답변 평가하는 환각 벤치마크서
양사 최신 모델 처음으로 0%대 기록
신_도 높아지려 전문 분야 사용 활성화 전망
돌풍 이끈 덥시크 R1은 14.396로 저조
Hallucination Rates for Top 25 LLMs
Google Gemini-2.O-Flash-001
0.735
Google Gemini2.O-Pto-Exp
0.893
vectard
OpenAll o3-mini-high reasoning
0.893
Google Gemini-2.0-Flash-Lite-Preview
1.296
Zhipu AI GLM 4-9B-Chat
1.393
Google Gemini-2.0-Flash Exp
1.393
Opcnl olmini
1,403
GPT4o
1.560
Amazon Nova MicroVI
1,698
GPTAo mini
1.796
GPTa-lurbo
1.796
Amazon Nova-Pro-VI
1.803
GPTA
1.893
Amozon Novo-Lite-VI
1.803
Google Gcmini 2.0 Flash Thinking Exp
1.836
GPT35-Turbo
1,903
OpenAl o1
2,406
DeepSeek-V25
2.403
Microsolt Orca2.13b
2,593
가+