9일간 46만 번 AI 호출…AI 사용량 집착이 낳는 역효과

기업 내 AI 도입 현황을 추적하는 일은 IT 리더에게 지표 설정과 관련한 딜레마를 안긴다. AI 프로젝트의 성공 여부는 궁극적으로 투자수익률(ROI)로 판단해야 하지만, 직원들이 조직이 도입한 AI 도구를 실제로 사용하도록 만드는 것 역시 ROI 달성을 위한 중요한 과정이기 때문이다.

그렇다면 최종 목표를 놓치지 않으면서 AI 활용도를 측정하는 가장 효과적인 방법은 무엇일까.

일부 기업은 AI 도입 현황을 파악하기 위한 지표로 토큰 사용량을 채택했으며, 사용을 장려하기 위해 AI 활용을 게임처럼 경쟁 방식으로 운영하기도 한다. 하지만 일부 AI 전문가들은 이러한 접근이 위험할 수 있다고 경고한다.

보도에 따르면 아마존, JP모건, 메타, 디즈니 등은 AI 도입을 촉진하기 위해 AI 사용량 순위표를 운영하고 있다. 일부 사례에서는 직원들이 토큰 예산을 빠르게 소진하면서 막대한 비용을 발생시키기도 했다. 비즈니스 인사이더 보도에 따르면 디즈니의 한 직원은 9일 동안 클로드 AI와 46만 회 상호작용한 것으로 나타났다.

이 같은 사내 순위 경쟁은 ‘토큰맥싱(Tokenmaxxing)’이라는 현상을 낳고 있다. 직원들이 경쟁에서 우위를 차지하기 위해 AI 도구 사용량을 과도하게 늘리는 것이다. 여러 AI 전문가들은 생산성이나 실제 성과 지표와 연계하지 않은 채 직원의 토큰 사용량만 추적하는 것은, 특히 AI 예산을 책임지는 IT 리더에게 재앙으로 이어질 수 있다고 지적한다.

일부 기업에서는 토큰 사용량 상위 직원이 수백만 달러에 달하는 비용을 발생시킨 사례도 보고됐다.

소프트웨어 개발 지원 기업 하니스(Harness)의 수석부사장 트레버 스튜어트는 토큰 사용량 순위표가 본래는 선의에서 출발한 것이라고 설명했다.

그는 “기업들은 직원들이 이런 도구를 어떻게 사용하고 있는지, 얼마나 많은 사람이 사용하고 있는지 파악하려는 것”이라며 “도입을 장려하면 결국 생산성 향상으로 이어질 것으로 기대한다”라고 말했다.

하지만 토큰 사용량 순위표는 직원들이 비용을 고려하지 않은 채 AI 도구를 사용하도록 유도할 수 있으며, 일부는 단순한 작업에도 최첨단 AI 모델을 활용하게 만든다.

스튜어트는 “간단한 도구로도 충분히 해결할 수 있는 일을 굳이 더 복잡한 도구로 처리하는 것과 같다”라며 “토큰맥싱은 결국 잘못된 행동을 장려하는 결과를 낳는다”라고 지적했다.

수집하기 쉬운 지표의 함정

AI 분석 기업 펜도(Pendo)의 CEO 토드 올슨은 토큰 사용량이 비교적 쉽게 수집할 수 있는 지표이기 때문에 널리 활용되고 있다고 설명했다.

그는 “토큰을 전혀 사용하지 않는 사람은 AI를 전혀 사용하지 않는 것이고, 따라서 아무런 가치를 얻지 못하고 있다는 의미”라며 “하지만 모든 사람이 실제로 AI를 사용하기 시작하면 상황은 훨씬 더 복잡해지고 판단도 모호해진다”라고 말했다.

올슨은 조직이 직원들의 AI 도구 사용을 이끌어내는 첫 단계를 넘어선 이후에는 다른 지표를 함께 고려해야 한다고 강조했다.

그는 “사람들이 새로운 것을 시도하고 기존 습관을 바꾸도록 만드는 초기 관성이 존재한다”라며 “이는 일종의 ‘0에서 1로 가는 문제’다. 하지만 이후에는 사람들이 단지 사용하기 위해 사용하는 것은 아닌지 살펴봐야 한다”라고 설명했다.

킨드릴(Kyndryl)의 글로벌 엔터프라이즈 혁신·AI·주권 기술 전략 부문 파트너 로건 울프는 토큰 사용량이 반드시 생산성 향상으로 이어지는 것은 아니라는 점이 가장 큰 문제라고 지적했다.

그는 “기업들은 직원들이 AI를 얼마나 생산적으로 활용하고 있는지를 판단하는 대리 지표로 토큰 소비량을 사용하고 있다”라며 “직원들은 사실상 토큰을 많이 사용하도록 장려받거나, 경우에 따라 충분히 사용하지 않았다는 이유로 불이익을 받는다. 게다가 이 지표는 조작하기도 매우 쉽다”라고 설명했다.

울프는 이를 작성한 코드 줄 수가 가장 많은 개발자에게 보상을 제공하는 것에 비유했다. 이러한 방식은 결국 불필요하게 비대해진 애플리케이션을 만들어내게 된다는 것이다.

그는 “토큰 사용량이 핵심성과지표(KPI)가 되는 순간 효율성, 품질, 위험 감소 같은 성과보다 단순한 출력량이 우선시된다”라고 말했다.

또한 IT 리더가 빠지기 쉬운 가장 큰 함정 가운데 하나는 토큰 사용 장려 정책이 AI 예산을 무너뜨릴 수 있다는 점이라고 경고했다.

울프는 “최근 에너지 비용 상승의 영향으로 토큰당 비용이나 추론당 비용이 가까운 시일 내에 낮아질 가능성은 거의 보이지 않는다”라며 “이런 상황에서는 AI 프로젝트의 단위 경제성과 ROI가 오히려 악화되는 역효과가 나타날 수 있다”라고 말했다.

잘못된 것을 측정하는 문제

AI 코드 리뷰 기업 코도(Qodo)의 CEO 이타마르 프리드먼은 토큰 사용량만 측정하는 것은 건강을 개선하기 위해 매일 걷는 거리만 기록하면서 섭취 칼로리나 기본 건강 지표는 확인하지 않는 것과 같다고 비유했다. 예를 들어 하루에 2마일을 걷더라도 5,000칼로리를 섭취한다면 건강이 좋아질 가능성은 크지 않다.

프리드먼은 직원의 토큰 사용량을 추적하는 것 자체는 나쁜 관행이 아니지만, 이를 유일한 지표로 활용하면 기업이 AI 도입 효과를 불완전하게 평가하게 된다고 설명했다.

그는 “토큰 사용량을 극대화하는 것과 생산성 향상 사이에는 어느 정도 상관관계가 있다고 생각한다”라며 “문제는 이를 가장 중요한 지표이자 어쩌면 유일한 생산성 지표로 취급할 경우, 결국 보여주기식 수치만 만들어낼 수 있다는 점”이라고 말했다.

또한 일부 기업은 개발자의 토큰 사용량까지 추적하는 것으로 보인다고 지적했다. 그는 품질 검토와 보안 검증이 충분히 이뤄지지 않은 상태에서 개발자들이 AI 생성 코드를 대량으로 생산하도록 유도되면, 해당 코드에 심각한 버그와 보안 취약점이 포함될 수 있다고 경고했다.

더 많은 지표가 필요하다

하니스의 스튜어트는 토큰 사용량 추적의 함정을 피하기 위해 기업이 생산성이나 실제 성과를 측정할 수 있는 지표를 함께 마련해야 한다고 조언했다.

그는 “기업이 중요하게 생각하는 행동과 인센티브를 중심으로 게임화 방식을 설계해야 한다”라며 “하니스의 경우 중요한 것은 소비한 토큰의 양이 아니라 실제로 제공한 결과물이다. 입력(input)이 아니라 산출물(output)에 초점을 맞춰야 한다”라고 설명했다.

스튜어트는 생산성 지표는 기업마다 달라질 수 있다고 덧붙였다. 예를 들어 AI 코딩 도구를 사용하는 개발자의 경우 핵심 지표는 작성한 코드 줄 수가 아니라 실제 운영 환경에 배포된 코드의 양이 될 수 있다는 것이다.

그는 “비용을 들여 작성한 코드가 검토 과정에서 거부되거나 되돌려졌거나 실제 서비스에 배포되지 않았다면 어떨까”라며 “낭비된 비용이 얼마나 되는지 파악할 필요가 있다. 만약 순위표를 운영한다면 이러한 잠재적 낭비 요소를 함께 측정해 균형을 맞춰야 한다”라고 말했다.

또한 기업은 직원들이 AI를 얼마나 효율적으로 활용하고 있는지도 추적할 수 있다고 설명했다.

스튜어트는 “최적화가 가능한 비용, 낭비된 비용, 그리고 소비된 토큰이라는 세 가지 요소가 있다”라며 “이 세 가지를 함께 살펴보는 것이 매우 중요하다”라고 말했다. 이어 “여기에 네 번째 축이 있다. 실제 결과물이 무엇이었는가 하는 점이다. 예를 들어 코드가 실제 운영 환경에 배포됐는지를 확인해야 한다”라고 밝혔다.
dl-ciokorea@foundryco.com