AI

AI의 지능을 측정하는 방법 - Arc agi

Optimization
728x90
요약: 이 글에서는 AI의 추론 능력을 측정하는 벤치마크 'Arc-agi'에 대해 알아봅니다. Arc-agi가 무엇인지, 왜 AI에게 어려운 과제인지, 그리고 최신 AI 모델들의 성능 순위와 게임 형태로 발전한 ARC-AGI-3의 동향까지 자세히 살펴봅니다.

 

AI의 지능을 측정하는 방법 - Arc-agi

2025년 7월 기준으로 수많은 AI들이 만들어졌습니다. AI를 실무에 활용하시는 분이라면 AI의 성능을 중요하게 생각하실 것입니다. 그렇기 때문에 AI를 만드는 사람들 역시 자신의 AI가 똑똑하다는 것을 알리고 싶어합니다.

 

1. 인간처럼 추론하는 AI를 위한 벤치마크, Arc-agi

Arc-agi는 AI의 똑똑함을 측정하기 위해 만들어진 벤치마크입니다. 이 벤치마크의 특징은 사람은 쉽게 풀 수 있지만, AI에게는 까다로운 문제들이 제공된다는 것입니다. 이는 모라벡의 역설과 비슷하다고 생각하시면 됩니다.

 

2. Arc-agi 문제 예시

Arc-agi 버전 1의 추론 문제 예시. AI는 앞선 패턴들을 학습하여 마지막 빈칸의 그림을 예측해야 합니다.

Arc-agi는 3버전까지 나왔고, 위 사진은 1버전의 문제입니다. IQ 테스트와 비슷한 모양인데, 1~4번째 사진을 보면서 규칙을 익히고, 5번째 사진을 바탕으로 6번째 사진을 추측해야 합니다. 답이 너무 뻔해서 사람은 쉽게 풀 수 있지만, AI에게는 결코 쉬운 문제가 아닙니다.

 

3. 왜 AI에게는 어려울까?

AI에게 위 문제가 어려운 이유는, AI가 시각적 직관(눈)이 없기 때문입니다. Arc-agi는 AI에게 그림 이미지를 주는 것이 아니라, 아래와 같은 텍스트(JSON) 데이터를 제공합니다.

{
  "train": [
    {
      "input": [
        [0, 1, 0],
        [1, 0, 1],
        [0, 1, 0],
        [1, 0, 1],
        [0, 1, 0],
        [1, 0, 1]
      ],
      "output": [
        [0, 2, 0],
        [2, 0, 2],
        [0, 2, 0],
        [2, 0, 2],
        [0, 2, 0],
        [2, 0, 2]
      ]
    },
    {
      "input": [
        [0, 1, 0],
        [1, 1, 0],
        [0, 1, 0],
        [0, 1, 1],
        [0, 1, 0],
        [1, 1, 0]
      ],
      "output": [
        [0, 2, 0],
        [2, 2, 0],
        [0, 2, 0],
        [0, 2, 2],
        [0, 2, 0],
        [2, 2, 0]
      ]
    }
  ],
  "test": [
    {
      "input": [
        [1, 1, 1],
        [0, 1, 0],
        [0, 1, 0],
        [1, 1, 1],
        [0, 1, 0],
        [0, 1, 0]
      ],
      "output": [
        [2, 2, 2],
        [0, 2, 0],
        [0, 2, 0],
        [2, 2, 2],
        [0, 2, 0],
        [0, 2, 0]
      ]
    }
  ]
}

비어있는 칸은 0, 채워진 칸은 1, 2, .. 같은 숫자로 표현됩니다. AI는 이러한 숫자 행렬들만으로 패턴을 찾아야 하는 것입니다. AI의 순수 추론 능력을 검증하기에 아주 좋은 방법입니다.

이것은 마치 사람에게 숫자와 그로부터 해석되는 문장을 여러 개 준 뒤에, 어떤 규칙이 있는지 찾아보라고 하는 것과 같습니다.

 

4. 최신 성능 동향 (ARC-AGI Leaderboard)

ARC-AGI-1 기준 성능 순위표
AI System Organization System Type ARC-AGI-1 ARC-AGI-2 Cost/Task Code/Paper
Stem Grad Human N/A 98.0% N/A $10.00
Human Panel Human N/A 98.0% 100.0% $17.00
Avg. Mturker Human N/A 77.0% N/A $3.00
o3-preview (Low)* OpenAI CoT + Synthesis 75.7% 4.0% $200.00 📄
Grok 4 (Thinking) xAI CoT 66.7% 16.0% $2.17 📄
o3 (High) OpenAI CoT 60.8% 6.5% $0.834
o3-Pro (High) OpenAI CoT + Synthesis 59.3% 4.9% $7.55 📄
o4-mini (High) OpenAI CoT 58.7% 6.1% $0.856
o3-Pro (Medium) OpenAI CoT + Synthesis 57.0% 1.9% $4.74 📄

ARC-AGI-1 기준으로는 OpenAI사의 O3-preview가 1위 입니다. 하지만 최근에 나온 Grok 4의 점수도 눈여겨봐야 하는데, ARC-AGI-2의 점수가 1위이기 때문입니다.

 

5. 게임으로 진화한 ARC-AGI-3

ARC-AGI-3(https://three.arcprize.org/)는 텍스트 형태가 아니라 게임 형태로 AI의 지능을 측정합니다. 웹사이트에 들어가면 누구나 게임처럼 진행할 수 있는데, 역시나 사람에게는 쉽지만 AI에게는 만만치 않습니다.

 

ARC-AGI-3의 LS20 레벨 클리어 후 나타나는 'VICTORY!!!' 화면

저는 LS20을 플레이했고, 전부 다 깨면 리더보드에 기록을 남길 수 있습니다.

 

Chatgpt의 에이전트가 레벨1을 클리어했음을 알려주는 사진

 

최근에는 ChatGPT Agent가 이 ARC-AGI-3의 첫 번째 레벨을 통과했다는 소식이 들려 화제가 되기도 했습니다.

 

X의 Wes Roth님(@WesRothMoney)

ChatGPT Agent beats the first level of the ARG AGI 3 challenge! wen ARG AGI 4?

x.com