실제 오피스 환경 기반... 다국어 지원·세밀한 평가로 차별화

이번 벤치마크는 삼성전자 DX부문 선행 연구조직인 삼성리서치가 사내 생성형 AI 적용 경험을 바탕으로 개발한 것으로, AI 모델이 실제 업무에서 어느 정도 생산성을 발휘할 수 있는지를 측정하는 데 초점을 맞췄다.
삼성전자는 많은 기업이 AI를 도입하고 있지만 기존 벤치마크만으로는 업무 생산성 성능을 정확히 가늠하기 어렵다는 점에 주목했다. 특히 시중 벤치마크 대부분이 영어 중심에 머물고, 제한된 횟수의 대화 평가에 그친다는 한계가 있었다.
트루벤치는 이와 달리 실제 기업 환경을 반영한 평가 항목을 도입했다. 평가 항목은 콘텐츠 생성, 데이터 분석, 문서 요약 및 번역, 연속 대화 등 10개 카테고리, 46개 업무, 총 2,485개 세부 항목으로 구성됐다. 사용자의 짧은 요청부터 최대 2만 자에 달하는 긴 문서 요약까지 폭넓게 측정할 수 있다.
사용자는 동시에 최대 5개 모델을 비교할 수 있으며, 평균 응답 길이 등 효율성 지표도 함께 제공돼 모델 간 성능 차이를 한눈에 파악할 수 있다. 또한 카테고리별 세부 점수까지 공개돼 기존 평가보다 세밀한 분석이 가능하다.
트루벤치는 영어, 한국어, 일본어, 중국어, 스페인어를 포함한 12개 언어를 지원하며, 다국어가 혼합된 교차 언어 번역 기능 평가도 가능하다. 삼성전자는 글로벌 오픈소스 플랫폼 허깅페이스(Hugging Face)에 데이터 샘플과 모델 평가 결과를 담은 리더보드(Leaderboard)를 공개했다.
삼성전자는 평가의 효율성과 객관성을 위해 AI 교차 검증 방식을 도입했다. 사람이 구축한 평가 기준을 AI가 반복 검토해 오류나 모순을 걸러내고, 이를 통해 편향을 최소화하면서 일관성 있는 결과를 도출한다는 설명이다.
전경훈 삼성전자 DX부문 최고기술책임자(CTO) 겸 삼성리서치장은 “삼성 리서치는 다양한 실제 적용 사례를 바탕으로 차별화된 생산성 AI 기술 경쟁력과 노하우를 보유하고 있다”며 “트루벤치 공개를 통해 생산성 성능 평가 기준을 정립하고 삼성전자의 기술 리더십을 더욱 공고히 할 것”이라고 말했다.
송소라 하이뉴스(Hinews) 기자
press@hinews.co.kr