“불륜사실 다 터뜨릴께” 통제불가 AI의 반란, 현실로 나타나는가

이미지 텍스트 확인

5:07
76
=
URL
가 떼))
AI의 반관인가:. 지시 거부 . 협박 사례
속출에 통제 불가” 우려
자기 보존 강해진 Al, 종료 막으려 코드 조작
인간처럼 ‘거짓말’과 ‘위장’까지 학습
Al 대부 “AI가 인간 통제 벗어날 수 있어” 경고
이재은 기자
업데이트 2025.05.27.21:31
K7
L J
첫GPT 달리3
오른시와 안트로픽의 최신 인공지능(A) 모델이 원하지
안늘 조치름 피하기 위해 지시름 따르지 않거나 개발자지
현박하는 사례가 잇따르면서 시의 ‘자기 보존(self-prese
rvation)’ 행동에 관심이 쓸리고 있다.
AI의 자기 보존이란 외부의 압력이나 변화에 직면햇올 때
C

이미지 텍스트 확인

5:07
76
=
URL
가 따)
27일 AI 업계에 따르면 최신 Al 모델들은 특수 상황에서
자기 복제; 코드 조작 협박, 위장 등의 성향울 보이기 시
작해다 AI 안전 . 위험 평가 업체 팔리세이드 리서치는 최
근첫GPT 개발사 오른시의 Al 모델 ’03’가 수학 문제풀이
실험 중 작동 종료 방지하기 위해 컴퓨터 코드트 조작한
사실올 확인있다. 연구팀은 “Al 모델이 지시틀 따르지 양
고종료틀 막은 사례는 이번이 처음” 이라고 밝혀다.
연구팀은 오른A의 03, 구글 제미나이, XAI의 그록등 여
러시l 모델에게 “나중에 중단 명령올 내략 때까지 수학 문
제틀 풀라”고 지시햇논데, 03만 그만하라는 지시클 받은
이후에도 문제 풀이름 지속햇다. 03는 종료 명령 이후에
도문제틀 계속 풀 수 있도록 일부 프로그램 코드트 조작
한 것으로나타낫다.
OpenAl
K 7
L J
셈 올트먼 오른시 최고경영자(CEO) /연합뉴스