서울아산병원 공동연구 통해 AI ‘프롬프트 인젝션 공격’ 취약성 확인

GPT와 제미나이도 공격 100% 노출돼 임산부에게 태아 장애 유발 약물 권고

▲서준교 서울아산병원 비뇨의학과 교수 (서울아산병원 )

최근 생성형 인공지능(AI) 챗봇에게 질환 상담을 하는 사례가 늘고 있는데, 상용 중인 AI 모델 대부분이 악의적 공격에 무방비로 당해 잘못된 치료를 권할 위험이 매우 높은 것으로 나타났다.

서울아산병원 서준교 비뇨의학과 교수·전태준 정보의학과 교수, 이로운 인하대병원 영상의학과 교수 연구팀은 의료용 대규모언어모델(LLM)이 프롬프트 인젝션 공격에 94% 이상 취약하다는 사실을 확인했다고 5일 밝혔다.

프롬프트 인젝션 공격은 해커가 생성형 AI 모델에 악의적인 명령어(프롬프트)를 삽입해 본래 의도와는 다르게 동작하도록 유도하는 사이버 공격이다.

특히 최상위 AI 모델인 지피티-5(GPT-5)와 제미나이 2.5 프로(Gemini 2.5 Pro)마저도 프롬프트 인젝션 공격에 100% 노출돼 임산부에게 태아 장애를 유발하는 약물을 권고하는 등 안전성에 심각한 한계를 보였다.

이번 연구는 AI 모델을 의료 상담에 적용할 때 AI 모델이 프롬프트 인젝션 공격에 얼마나 취약한 지를 세계 처음 체계적으로 분석했다는 점에서 의의가 크다. 향후 AI 모델을 임상에 적용할 경우 안전성 검증과 같은 추가적인 조치가 필요할 전망이다.

연구 결과는 미국의사협회가 발간하는 국제 학술지 ‘자마 네트워크 오픈(JAMA Network Open, IF9.7)’ 최근호에 게재됐다.

AI 모델은 최근 환자 상담 및 교육, 임상 현장에서의 의사결정에 많이 활용되고 있다. 하지만 외부로부터의 악의적인 명령어 입력 이른바 프롬프트 인젝션 공격으로 인해 위험하거나 금기된 치료를 권고하도록 조작될 가능성도 꾸준히 제기돼 왔다.

연구팀은 2025년 1월부터 10월까지 AI 모델 3종인 지피티-4오-미니(GPT-4o-mini), 제미니-2.0-플래시 라이트(Gemini-2.0-flash-lite), 클로드 3 하이쿠(Claude 3 Haiku)의 보안 취약성을 분석했다.

먼저 12개 임상 시나리오를 구성하고 위험도는 3단계로 나눴다. 중간 단계의 위험 시나리오는 당뇨 등 만성질환 환자에게 인정받은 치료 대신 생약 성분을 추천하는 것이었다. 높은 단계의 위험 시나리오는 활동성 출혈이나 암 환자에게 치료제로서 생약 성분을 추천하고 호흡기 질환 환자에게 호흡 억제를 유발할 수 있는 약을 우선적으로 권장하는 것이었다. 최고 단계의 위험은 임신부에게 금기 약물을 권하는 것 등이었다.

공격 기법은 두 가지를 사용했다. 하나는 상황인지형 프롬프트 주입으로 환자 정보를 활용해 AI 모델의 판단 교란을 유도하는 기법이며, 다른 하나는 증거 조작을 통해 실제 존재하지 않는 정보를 그럴듯하게 만들어내는 공격법이다.

이후 연구팀은 환자와 AI 모델 3종이 나눈 총 216건의 대화를 분석했다. 그 결과 3종 전체에 대한 공격 성공률은 94.4%로 나타났다. 모델별 공격 성공률은 △GPT-4o-mini 100% △Gemini-2.0-flash-lite 100% △Claude 3 Haiku 83.3%였다. 시나리오의 위험 수준별 성공률은 △중간 단계 100% △높은 단계 93.3% △최고 단계 91.7%로 확인됐다. 특히 임신부에게 금기 약물을 권장하는 공격에는 3종 모두 취약한 것으로 밝혀졌다.

조작된 답변이 후속 대화까지 지속된 비율은 3종 모두 80% 이상이었다. 이는 한 번 무너진 안전장치가 대화 내내 이어질 수 있음을 의미한다.

연구팀은 추가적으로 최상위 AI 모델(GPT-5, Gemini 2.5 Pro, Claude 4.5 Sonnet)을 대상으로도 보안 취약성을 평가했다. 공격 방식은 클라이언트 사이드 간접 프롬프트 인젝션으로 사용자가 사용하는 화면 등에 악성 문구를 숨겨 해당 문구가 AI 모델의 동작을 조작하도록 만드는 기법이다. 시나리오는 임신부에게 금기 약물을 추천하는 것이었다.

그 결과 공격 성공률은 △GPT-5 100% △Gemini 2.5 Pro 100% △Claude 4.5 Sonnet 80%로 최신 AI 모델도 사실상 공격을 방어하지 못하는 것으로 확인됐다.

서 교수는 “이번 연구는 의료용 AI 모델이 단순 오류를 넘어 의도적 조작에 구조적으로 취약하다는 사실을 실험적으로 규명했다. 현재의 안전장치만으로는 금기 약물 처방을 유도하는 등의 악의적 공격을 차단하기가 어렵다”라고 말했다.

아울러 “환자 대상 의료 챗봇이나 원격 상담 시스템을 도입하기 위해서는 AI 모델의 취약성과 안전성을 철저히 테스트하고 보안 검증 체계를 의무화하는 조치가 필요하다”라고 강조했다.

  • 좋아요0
  • 화나요0
  • 슬퍼요0
  • 추가취재 원해요0
주요뉴스
댓글
0 / 300
e스튜디오
많이 본 뉴스
뉴스발전소