메타 초지능팀, 첫 AI 모델 ‘뮤즈 스파크’ 발표…경쟁사 AI에 필적

입력 2026-04-09 09:05

GPT·제미나이 등 경쟁모델과 성능 비슷
‘심사숙고 모드’로 고급 추론 능력 갖춰
AI 안전성 평가서 경쟁모델 뛰어 넘어
초지능팀 첫 성과…AI 경쟁 본격화

▲알렉산더 왕 메타 최고AI책임자(CAIO). (로이터연합뉴스)

메타가 지난해부터 초지능 구현을 목표로 적극적으로 영입한 인재들로 구성된 초지능팀이 첫 번째 인공지능(AI) 모델을 공개했다.

8일(현지시간) 월스트리트저널(WSJ), CNBC 등에 따르면 알렉산더 왕 메타 최고AI책임자(CAIO)는 자신이 이끄는 메타초지능연구소(MSL)가 팀의 첫 AI 모델인 ‘뮤즈 스파크’를 출시했다고 밝혔다.

뮤즈 스파크는 공개 전에는 ‘아보카도’라는 코드명으로 불렸으며, 약 9개월에 걸쳐 개발이 진행됐다.

메타에 따르면 이 모델은 벤치마크(성능) 테스트에서 오픈AI의 ‘GPT-5.4’, 구글의 ‘제미나이 3.1 프로’. 앤스로픽 ‘클로드 오퍼스 4.6’ 등 경쟁사의 AI 모델과 비슷한 성능을 보이거나 뛰어넘는 것으로 나타났다.

메타는 뮤즈 스파크의 핵심 기능으로 ‘심사숙고 모드’를 꼽았다. 이 모드는 복잡한 문제 처리를 요청하면 여러 에이전트가 동시에 추론을 벌이는 방식으로 작동하는데, 메타는 이를 활용하면 경쟁사의 고성능 추론 전문 AI 모델에 필적하는 성능을 보인다고 설명했다.

심사숙고 모드를 활용한 뮤즈 스파크의 추론 능력은 ‘인류의 마지막 시험(HLE)’ 성능지표에서 50.2%를 기록했는데, 이는 경쟁 모델인 ‘제미나이3.1 딥싱크’(48.4%)를 넘어선 수치다. HLE는 전문가 수준 추론 능력을 추론하는 주요 성능지표로 평가받는다.

메타는 “뮤즈 스파크는 최상위 AI 모델로 포지셔닝한 것이 아닌 효율성과 다양한 작업에서 경쟁력이 있는 모델로 상정했다”면서 “작고 빠르게 설계됐지만, 여러 분야의 복잡한 질문을 추론할 수 있는 성능을 갖췄다”고 설명했다.

최근 미 국방부로 인해 화두가 되는 AI 안전성 평가에서도 뮤즈 스파크는 높은 점수를 받았다.

메타는 “뮤즈 스파크는 안전성 평가에서 생물학 무기 관련 위험한 요구를 거절하는 비율이 98%에 육박했다”며 “이는 경쟁 모델인 오퍼스(95.4%)나 GPT(74.7%), 제미나이(61.5%)와 비교해 높은 수치”라고 강조했다.

AI 모델 테스트 기업 발스AI의 라얀 크리슈난 최고경영자(CEO)는 “이번 뮤즈 스파크 공개로 메타는 자신들이 AI 업계에서 경쟁력 있는 곳임을 입증했다”면서 “이러한 개발 속도가 유지되면 머지않아 새로운 최첨단 모델을 공개할 수 있을 것”이라고 전망했다.

뮤즈 스파크 공개 후 메타 주가는 전 거래일 대비 6.50% 급등한 512.42달러에 마감했다.

메타는 지난해 내놓은 AI 모델인 ‘라마’ 시리즈가 기대 이하의 평가를 받은 뒤 공격적인 투자를 결정했다. 알렉산더 왕 스케일AI 공동창업자를 영입하기 위해 스케일AI 지분 49%를 143억달러(약 21조원)에 인수하는 것을 시작으로 업계 전문가들을 적극 영입했다.

당시 라마는 개방형으로 공개했지만, 뮤즈 스파크는 경쟁 모델들과 동일하게 폐쇄형으로 공개했다. 메타는 향후 버전에서는 개방형 전환도 검토할 것을 밝힌 상태다.