AI 보안 최전선…방어력 끌어올리는 ‘레드팀’ [해외실험실: 빅테크 보안 대해부 ③]

입력 2025-12-12 05:00

작게보기
기본크기
크게보기

본 기사는 (2025-12-11 18:00)에 Channel5을 통해 소개 되었습니다.

해커 역할 부여해 AI 보안 취약점 확인
불법 조언 확인·차단 용도로도 활용

▲챗GPT가 생성한 이미지 앞 스마트폰에 오픈AI 로고가 띄워져 있다. (AP연합뉴스)

인공지능(AI) 보안 문제가 갈수록 중요해지면서 떠오른 화두가 바로 ‘레드팀’이다. 레드팀은 사내 AI 보안 취약점을 찾아내는 조직을 의미하는 것으로 빅테크가 회사 안팎에서 직접 해커 역할을 지정한다. AI 수요가 급증하면서 빅테크들 사이에서 레드팀의 역할이 커지는 상황이다.

11일 IT 전문매체 테크폴리시프레스에 따르면 오픈AI는 8월 ‘gpt-oss-120b’와 ‘gpt-0ss-20b’라는 두 모델을 대상으로 레드팀 챌린지를 개최했다. 당시 오픈AI는 과거 발견되지 않았던 새로운 보안 취약성을 찾는 사람에게 상금 50만 달러(약 7억3300만 원)를 내걸었다.

레드팀 운영은 ‘적대적 사고(상대방이나 비판자의 관점을 의도적으로 차용하는 것)’를 활용해 가정에 대한 스트레스 테스트를 수행하고 숨겨진 위험을 노출하며 잠재적 위험을 파악하는 체계적인 접근 방식을 의미한다.

오픈AI는 수년 동안 외부 전문가를 참여시키는 레드팀을 운영해 왔다. 초창기 레드팀은 주로 사람의 도움에 의존했지만, 최근에는 전문가로 구성된 인간 팀과 AI를 접목한 자동화 팀이라는 투 트랙으로 레드팀을 구성하고 있다.

더 나아가 AI 기업들은 레드팀을 챗GPT 등 생성형 AI가 하는 불법적인 조언을 확인하고 차단하는 용도로도 활용하고 있다. 일례로 오픈AI는 챗GPT가 자동차 훔치는 법이나 폭탄 만드는 법 등에 대한 질문을 받을 때 답변하지 않도록 레드팀이 관련 사례를 브레인스토밍해 생성형 AI에 적절한 대처를 학습시키고 있다.

앤스로픽도 지난해 6월 AI 레드팀 가이드라인을 발표하며 취약성 잡기에 나섰다. 당시 구글과 마이크로소프트, 엔비디아, 오픈AI 등이 ‘레드팀 프레임워크’ 출시에 합류할 정도로 레드팀 구성은 이제 AI 개발에 필수가 됐다.

다만 레드팀이 AI 보안의 만능열쇠는 아니다. 레드팀은 특정 시점에서 발생하는 위험을 포착하는 데 중점을 두기 때문에 모델이 발전할수록 취약성은 달라질 수 있다. 해커가 악의적으로 ‘탈옥(개발사가 설정한 제한을 우회하는 작업)’을 감행하거나 탈옥 기술을 노출하는 위험도 있다.

오픈AI는 “레드팀 목적은 위험을 발견하고 검증 및 평가하는 것에 대한 관점을 확대하는 것”이라며 “그러나 모델이 지향해야 할 이상적인 행동과 정책, 이와 관련한 의사결정 프로세스에 대한 대중의 관점을 수렴하고 반영하기 위해선 추가 노력이 필요하다”고 조언했다.