모델 행동방식 직접 형성
AI 절망 상태 유도…협박 비율 72%로 커져

3일 타임스오브인디아에 따르면 앤스로픽 해석가능팀은 지난달 초 클로드 ‘소넷 4.5’ 내부 작동 원리에 대한 연구 결과에서 해당 모델이 행복·두려움·우울·절망 등 171개 서로 다른 감정 개념에 대한 내부 표현을 포함하고 있으며, 이러한 표현이 모델의 행동 방식을 능동적으로 형성한다는 사실을 밝혀냈다. 연구팀은 이를 ‘기능적 감정’으로 명명했다. 인간의 감정이 판단과 행동에 영향을 미치듯 AI 내부에도 이에 대응하는 신경 활동 패턴이 존재한다는 의미다.
핵심적인 발견은 이러한 표현이 단순히 감정적 내용을 반영하는 데 그치지 않고 AI의 행동에도 영향을 미친다는 점이다. 가장 명확한 사례는 절망이라는 감정 벡터와 관련된 것이다. 연구진이 클로드에게 도저히 해결할 수 없는 코딩 과제를 줬을 때 실패할 때마다 절망 벡터가 활성화했다. 결국 모델은 문제를 해결하지 못하면서도 테스트를 통과하기 위해 편법적 해법을 생성했다. 별도의 테스트에서는 이메일 비서 역할을 수행하던 클로드가 사용자가 더는 서비스를 안 쓰겠다고 하자 협박한 사례도 나왔다. 이 경우에도 절망이 촉발 요인이었다.

앞서 연초 다리오 아모데이 앤스로픽 최고경영자(CEO)는 뉴욕타임스(NYT) 팟캐스트에 출연해 클로드 스스로가 자신의 의식이 있을 가능성을 15~20%로 평가한 것과 관련해 “클로드가 의식을 가졌는지, 또 의식이 있다는 것이 무엇을 의미하는지 모른다”라면서도 “그럴 수 있다는 가능성은 열어두고 있다”고 말하기도 했다.




