
이미지 텍스트 확인
1. 기존 Deepseek R7 Zero갈은 모델도
결국 데이터셋은 인간이 규레이선한 것에 의존햇없던
것’ 극복하기 위해
아예 인간이 정의한 데이터클 1개도 사용하지 안고
실프 플레이로만 강화학습하는 Absolute Zero
Reasoner(AZR)틀 소개한 논문
Supervised Learning
Reintorcement Learning with Verifiable Rewards
Absolute Zerolours)
2
Less
Humnan Supervision
2. 코딩과 같은 검증 가능 환경에서
이미지 텍스트 확인
스스로 문제록 정의하고
이틀 추론올 통해 해결하여 개선하는 동시에
점점 더 어려운 문제틀 지속적으로 발전시켜 나가려
학습
(본 논문예선 코딩만으로 학습)
3
solue
T
Environment
Environment
Language Model
e f
Tpropose
(x,
)
rsolve
‘내가 풀면 가장 많이 배율 수 잇는 문제름 내가 직접
만들고
맞히면 스스로 칭찬해 주는 자가출제-자가학습 루프’
rpropose
3. 인간이 직접 만든 데이터지 전혀 사용하지 안고 코
이미지 텍스트 확인
당만 학습햇음에도
코딩 및 수학 일반 추론 벤치마크에서 평균 SOTA 성
능달성
심치어 전문가가 레이블림한 수만 개 예제로 학습된
모델들보다
더 뛰어난 성능올 보없다
>
도메인 특화 데이터셋 없이도 실프 플레이만으로
뛰어난 추론 능력 습득 가능
Overall Performance
4
052
0.50
0.48
0.46
Base model
0.44
Prev SOTA Model
0.42
Performance During RL
AZR Final Model
0.40
50
100
150
200
250
300
350
평균 벤치마크 점수 기준 이전 SOTA 모델올 능가
4. 주요한 발견들
이미지 텍스트 확인
1) 코딩으로 미리 훈련된 모델이 기본 모델보다 추론
올 증혹시김 (Qwen-2.5-coder 시리즈)
2) 도메인 간 전이가 강력함 (코드 학습만 햇지만 수
학 벤치에서 +15.2점)
3) 모델 크기에 따라 얻는 이득이 시너지 효과로 확장
팀 (3B->7B->14B에서 +5.7->+70.2->+13.2 포인
트 증가)
5. AZR이I 자가 진화하는 동안 심각한 안전 문제름 발
견함:
라마 3.1 모델의 CoT에서 종종 “지능형 기계가 지능
이 떨어지는 인간을 능가한다”눈 내용이 포함되어 잎
없다
이틀 저자들은 ‘어어.
모면트’ (Uh-oh moments)라
고 불젓다
6. 결론적으로 Absolute Zero 러다임은
이미지 텍스트 확인
현재 강화학습의 근본적인 데이터 한계 중 하나인 인
간 데이터셋 의존성올 해결하다.
7. 코드는 단지 시작일 뿐이미,
이 패러다임은 웬, 공식 수학 심지어 물리적 세계 상
호 작용으로 확장월 수 있다.
8. 인간이 선별한 사례로부터 단순히 학습하는 추론
이미지 텍스트 확인
모델올 넘어,
진정한 “경험”올 업는 모델로 진화한다:
“경험에 시대에 오신 것’ 환영합니다 ” 라는 저자의
코멘트
Andrew Zhao
@Andrewz45732491
Moving beyond reasoning models that merely learn from human-curated
examples to models that gain true “experience” Like humans AZR
doesntjust solve problems; it discovers which problems are worth
solvingin thefirst place “Welcometothe era of experience” 13/N
영어에서 번역 ( Google 제공)
인간이 선별한 사례로부터 단순히 학습하는 추론 모델올 넘어 진정한 “경험”올 언
눈 모델로 진화합니다 AZR은 인간처럼 단순히 문제들 해결하는 데 그치지 않고
애초에 어떤 문제가 해결 가치가 있는지 파악합니다.
‘경험의 시대에 오신 것올 환
영합니다” 13/N
우릴 기다리는 미래는 어떤모습일까







