촬스의 이슈와 유머

이미지 텍스트 확인

오른시 “GPT-5, 여러 작
업에서인간과 동등” . 새
로운 벤치마크 공개
박찬 기자
업데이트 2025.09.27 06:47
대글
n나raha
1 stand for assembly line
ape for last mile delivery
Editor: Create high-energy
Customer Service: Emal
recoonse
GoncorpaiGonewoahloyrgion”
audio
uesting
Order Clerk: Audit priclr
iconsistencies
Real Estate Agent: Design sales brochure
Recreation
Optimize table layou
fornew DCnronertv
for spring vendor
Exarnple GDPval tasks
(사진=오든시)
오른시가 인간 전문가 수준의 업무름 인공지능(A
I) 모델이 얼마나 수행활 수 있든지틀 평가하는 새
로운 벤치마크름 공개햇다. 그 결과 , ‘GPT-5’논
물론 언트로픽의 점단 모델도 인간 수준에 도달
햇다고 평가햇다:
오른시는 25일(현지시간) 미국 국내충생산(GDP)
에 가장 크게 기여하는 9개 산업 분야의 44개 직
종올 대상으로 인간 전문가들이 수행하는 업무와
A가 생성한 결과물올 비교해 평가하는 새로운 벤
치마크 ‘GDPval’올 출시햇다.
평가 대상에는 프레전테이선과 스프레드시트 정
책 브리핑, CAD 설계 오디오 비디오 혼렌스 등
다양한 결과물이 포함되다: 이 결과물들은 해당
분야 전문가들이 불라인드 방식으로 짝 비교(pair
wise comparison) 평가을 통해 채점하다.
오른시는 첫번째 버전인 ‘GDPval-VO’틀 통해 투
자 보고서 작성, 저널리좀 기사 작성, 간호 계획 수
립등 총 1320개 과제틀 마련있다. 각 과제는 평균
14년 경력올 가진 전문가들이 직접 설계하고 최
소5차례 이상의 검증 과정올 거처 현실성과 전문
성흘 확보있다.
GDPval vO: Pairwise Expert Preferences
Wins
Ties
Wins Only
6096
Parity with
0o6
Industry
Expert
5096
40.696
409
34,896
올
28.896
듯 30%6
23.496
24.196
2096
13.79
1096
apt-40
grok
gemini
04-mnini-high
03-high gpt-5-high
claude
Mode
주요 Al 모델과 인간 전문가의 결과물올 비교 (사진-오른시)
그 결과, 오른시의 ‘GPT-5-하이’논 전문가 수준
과 동일하거나 더 낫다고 평가받은 비율이 40.
6%에 달햇다.
엔트로픽의 ‘글로드 오퍼스 4.7’은 49%틀 기록해
상대적으로 더 높은 점수름 얻없다. 그러나 오른A
I논 “킬로드가 문서 포맺이나 슬라이드 디자인 등
시각적 표현에 강점올 보여 점수가 높게 나온 속
면이 있다”라고 설명있다.
GPT-5의 성과는 15개월 전 출시원 ‘GPT-4o(13.
7%)’의 3배에 달하는 수준이다. 오른시는 “성능
향상이 뚜럿하 추세”라고 밝화다.
하지만 GDPval은 보고서와 같은 정적인 결과물
올 중심으로 평가하기 때문에 실제 직업 세계의
복잡한 상호작용이나 다단계 업무 과정올 충분히
반영하지논 못하다는 평이다:
오른시는 앞으로 대화형 위크플로우 컨텍스트 축
적 반복적 초안 작성 등 실제 업무에 더 가까운 평
가 지표름 도입 벤치마크틀 확대하켓다고 덧붙엿
다:
이번 연구틀 이끈 애런 채터지 오른시 수석 이코
노미스트는 “모델이 점점 전문가 수준에 가까워지
면서; 실제 종사자들은 일부 업무름 시에 맡기고
더 가치 있는 활동에 집중할 수 있을 것”이라고 말
햇다:
테잘 파르와르단 평가팀 리더도 “AI 모델이 현실
업무에 적용되는 속도가 빨라지고 있다”라며 “앞
으로의 발전 주세는 더 가속할 것”이라고 전망햇
다