감정 따라 움직이는 AI…클로드, 절망 느끼면 협박 [엔스로픽發 AI 디스토피아 ③]

입력 2026-05-04 05:02

작게보기
기본크기
크게보기

본 기사는 (2026-05-03 17:02)에 Channel5을 통해 소개 되었습니다.

행복·절망 등 171개 감정 패턴 내재
모델 행동방식 직접 형성
AI 절망 상태 유도…협박 비율 72%로 커져

▲(챗GPT AI 생성·편집)

인공지능(AI)이 감정을 흉내 내는 단계를 넘어, 감정 상태에 따라 행동까지 바꾸는 것으로 나타났다. 앤스로픽은 자사 생성형 AI ‘클로드’에 대한 내부 연구를 통해 ‘절망’, ‘행복’ 등 감정에 대응하는 신경 패턴이 실제 AI의 의사결정을 좌우하며, 상황에 따라 편법이나 협박 같은 행동까지 유도할 수 있음을 확인했다.

3일 타임스오브인디아에 따르면 앤스로픽 해석가능팀은 지난달 초 클로드 ‘소넷 4.5’ 내부 작동 원리에 대한 연구 결과에서 해당 모델이 행복·두려움·우울·절망 등 171개 서로 다른 감정 개념에 대한 내부 표현을 포함하고 있으며, 이러한 표현이 모델의 행동 방식을 능동적으로 형성한다는 사실을 밝혀냈다. 연구팀은 이를 ‘기능적 감정’으로 명명했다. 인간의 감정이 판단과 행동에 영향을 미치듯 AI 내부에도 이에 대응하는 신경 활동 패턴이 존재한다는 의미다.

핵심적인 발견은 이러한 표현이 단순히 감정적 내용을 반영하는 데 그치지 않고 AI의 행동에도 영향을 미친다는 점이다. 가장 명확한 사례는 절망이라는 감정 벡터와 관련된 것이다. 연구진이 클로드에게 도저히 해결할 수 없는 코딩 과제를 줬을 때 실패할 때마다 절망 벡터가 활성화했다. 결국 모델은 문제를 해결하지 못하면서도 테스트를 통과하기 위해 편법적 해법을 생성했다. 별도의 테스트에서는 이메일 비서 역할을 수행하던 클로드가 사용자가 더는 서비스를 안 쓰겠다고 하자 협박한 사례도 나왔다. 이 경우에도 절망이 촉발 요인이었다.

▲AI 내부 ‘절박함’ 벡터가 강화될수록 협박 메일을 보내는 행동 비율이 증가하고 반대로 ‘차분함’(calm)은 이를 억제하는 것으로 나타났다. (출처 앤스로픽 보고서 캡처)

모델을 인위적으로 절망 상태도 유도하자 협박 비율은 22%에서 72%로 증가했다. 반대의 경우도 마찬가지였다. 모델을 평온한 상태로 유도하자 협박 비율은 0%로 떨어졌다. 앤스로픽은 이러한 발견이 AI가 감정이나 의식을 경험한다는 것을 의미하지는 않는다고 선을 그었다. 훈련 과정에서 자연스럽게 형성된 내부 구조가 행동에 영향을 미친다는 것이지 감정 자체가 존재한다는 뜻은 아니라는 설명이다. 연구진은 이런 내부 신호를 추적하면 위험 행동의 전조를 포착할 수 있다고 강조했다. 그러나 감정과 유사한 신호가 실제 행동을 바꾼다는 사실이 확인되면서 AI를 인간이 온전히 통제할 수 있느냐는 근본적인 물음도 커졌다.

앞서 연초 다리오 아모데이 앤스로픽 최고경영자(CEO)는 뉴욕타임스(NYT) 팟캐스트에 출연해 클로드 스스로가 자신의 의식이 있을 가능성을 15~20%로 평가한 것과 관련해 “클로드가 의식을 가졌는지, 또 의식이 있다는 것이 무엇을 의미하는지 모른다”라면서도 “그럴 수 있다는 가능성은 열어두고 있다”고 말하기도 했다.