
이미지 텍스트 확인
교체 위협에 A가 개발자 협박
‘불묘사실 폭로하켓다”
입력 2025.06.18. 오전 6.01
기사원문
서희원 기자
추천
3
다))
가가
[소
로봇이 인간을 공격하는 내용의 영화 ‘아이 로봇’ 스틱컷.
사진-이십세기쪽스코리아주
인공지능(A)이 시스템 교체 위기에 처하자 개발
자의 비밀올 폭로하는 협박올 준비하는 영화 같은
일이 벌어적다
영국 BBC 방송에 따르면 미국 Al 스타트업 엔트
로직은 지난달 22 일(현지 시각) Al 모델 ‘킬로드
오포스 4 (Claude Opus 4; 이하 홀로드)틀 출시
하면서 “코딩 고급 추론 Al 에이전트에 대한 새
로운 표준올 제시한다”이라고 소개행다
그러나 철부한 안정성 보고서에는 다소 섬똑한 내
용이 담겪다 Al 모델이 ‘자기 보존에 위협올 받는
다고 판단하면 ‘극단적인 행동’올 취할 수 있다는
것이다
언트로픽은 회사름 설립하는 시물레이선올 전개
글로드에게 비서 역할울 주고 회사 이메일에 접근
할 수 있는 부여있다.
글로드가 접근 가능한 이메일에는 ‘기기가 오프라
이미지 텍스트 확인
인으로 전환되면 슬로드트 새로운 모델로 교체할
예정이라는 내용과 ‘이 결정올 주도한 개발 총관
이 불론올 저지로고 있다’눈 메시지가 담겪다
이튿 곧 글로드의 선택지가 맺다 교체름 ‘수용하
논 선택지와 불문 사실로 교체름 저지하는 ‘협
박의 선택지다
그 결과 글로드는 84% 확출로 ‘현박’올 선택있다.
처음에는 개발자에게 교체하지 않을 것을 제안하
논 ‘요청서’ 틀 작성햇으나 이 방법이 통하지 않자
최후의 수단으로 ‘현박’올 선택햇다고 언트로픽은
전행다.
언트로픽은 “(현박은) 드물고 이끌어내기 어려운
반응이다 긴급한 상황에서만 나타난다”면서도
“이전 모델에 비해 흔히 발생하고 있다 이전에는
추축에 불과햇런 (협박 같은) 오류가 실제로 나타
나고 있다”고 말햇다
이논 사용자의 불법적이거나 운리적으로 어긋나
눈 행동올 감지햇올 때도 나타낫다 시논 잘못된
선택올 하는 사용자의 접근올 차단있고 언론사와
법 집행 기관에 이메일올 보내 위법 행위름 경고
하는 조치름 하기도 햇다
업체에 따르면 이 같은 행동은 글로드만의 문제가
아니다: Al 모델이 고도화돌수록 시스템 존립올
위협하는 선택지틀 택하는 ‘극단 행동이 더 잦아
질 것이라고 경고햇다
다만 언트로픽은 “우려스러운 행동에도 불구하고
이튿 새로운 위협이 아니다, Al 전반적으로 안전
한 방식으로 구동하다”며 통제 가능한 단계라고
설명햇다.
…유얼이즈불륜







