
인공지능(AI)의 성능을 비교하기 위해 동일한 문제나 과제를 제시해 점수를 매기는 시험 도구를 ‘벤치마크’라고 한다. 모델의 지식, 추론, 코드 작성, 생산성 등 특정 능력을 평가하는 기준으로 활용된다. 최근 AI 경쟁이 치열해지면서 모델 간 성능 격차가 좁혀지고 AI가 상향 평준화됐다. 이에 따라 성능 평가 테스트 도구도 새롭게 개발되고 있다.
아직까지 공식 국제 표준으로 확립된 벤치마크는 없지만 MLPerf, MMLU, HumanEval 등이 사실상 글로벌 기준으로 활용된다. 구글·스탠퍼드·NVIDIA 등이 참여한 컨소시엄 MLCommons가 발표한 MLPerf는 하드웨어와 시스템의 학습·추론 성능을 가늠하는 전통적인 지표로 꼽힌다. UC버클리 연구팀이 내놓은 MMLU는 역사·법학·의학 등 57개 분야 문제를 통해 모델의 범용 지식과 추론 능력을 측정한다. 2021년 오픈AI가 공개한 HumanEval은 프로그래밍 문제 풀이를 통해 코드 생성 능력을 검증하는 기준이다.
하지만 소프트웨어정책연구소는 지난 4월 발표한 ‘AI Index 2025 주요내용 및 시사점’ 보고서에서 “급속도로 발전하는 AI 성능 측정을 위해 보다 까다로운 신규 벤치마크가 도입됐지만 1년 만에 벤치마크 점수가 최대 71.7%까지 향상됐다”고 지적했다. 예를 들어 코드 작성, 버그 수정, 코드 리뷰 등 SW개발 작업에서 AI 모델을 평가하는 ‘SWE(SoftWare Engineering)-벤치’에서는 2023년 AI가 코딩 문제의 4.4%만 해결할 수 있었지만 2024년에는 71.7%를 해결하는 등 성능이 67.3%p 급증했다.
이처럼 AI의 성능이 높아지고 용도·특성이 다양해짐에 따라 분야별로 새로운 벤치마크가 등장하고 있다. 메타는 지난달 25일 AI 에이전트의 능력을 평가하는 벤치마크 ‘가이아2(Gaia2)’를 공개했다. 가이아2는 기존에 공개한 벤치마크 ‘가이아’의 업그레이드 버전으로 동적 환경에서의 상호작용 능력을 평가하도록 설계됐다. 잡음과 불확실성 처리, 동적 환경 적응, 에이전트 간 협력, 시간 제약 속 작업 수행까지 측정할 수 있다.
정부가 ‘AI 3대 강국’ 도약을 내세우는 등 국내적으로 AI에 대한 관심이 높아지면서 한국형 벤치마크도 다양해지고 있다. 삼성전자는 지난달 25일 AI 모델의 업무 생산성 성능을 평가하는 벤치마크 ‘트루벤치(TRUEBench)’를 자체 개발했다고 밝혔다. 삼성전자 DX부문 선행 연구개발 조직인 삼성리서치가 사내 생성형 AI 모델 적용 경험을 바탕으로 개발한 것이다.
트루벤치의 평가 항목은 기업에서 자주 사용하는 콘텐츠 생성, 데이터 분석, 문서 요약 및 번역, 연속 대화 등 실제 오피스 업무에서 활용되는 체크 리스트를 기반으로 구성됐다. 총 10개 카테고리, 46개 업무, 2485개의 세분화된 항목으로 이뤄져 있다. 영어 중심의 기존 벤치마크와 달리 한국어를 비롯해 영어·일본어·중국어·스페인어 등 총 12개 언어를 지원한다.
기존에는 한국어와 문화를 함께 평가하는 CLIcK(Cultural and Linguistic Intelligence in Korean)과 전문 자격시험 문제를 활용해 고난도 지식 이해를 측정하는 KMMLU(Korean Massive Multitask Language Understanding)가 한국어 특화 벤치마크로 꼽혔다.
다만 벤치마크 점수가 늘 객관성을 담보하는 건 아니다. 최병호 고려대 AI연구소 교수는 “오픈AI의 모델을 좋게 평가한 벤치마크를 만든 회사들은 대부분 오픈AI가 설립에 관여하거나 펀드한 곳”이라며 “벤치마크 안에 다양한 변수가 있기 때문에 무엇을 측정하느냐에 따라 결과가 달라질 수 있다”고 말했다. 벤치마크가 특정 AI의 성능을 높게 평가하도록 만들어질 수 있다는 뜻이다.











