AI의 지능을 측정하는 방법 - Arc-agi
2025년 7월 기준으로 수많은 AI들이 만들어졌습니다. AI를 실무에 활용하시는 분이라면 AI의 성능을 중요하게 생각하실 것입니다. 그렇기 때문에 AI를 만드는 사람들 역시 자신의 AI가 똑똑하다는 것을 알리고 싶어합니다.
1. 인간처럼 추론하는 AI를 위한 벤치마크, Arc-agi
Arc-agi는 AI의 똑똑함을 측정하기 위해 만들어진 벤치마크입니다. 이 벤치마크의 특징은 사람은 쉽게 풀 수 있지만, AI에게는 까다로운 문제들이 제공된다는 것입니다. 이는 모라벡의 역설과 비슷하다고 생각하시면 됩니다.
2. Arc-agi 문제 예시

Arc-agi는 3버전까지 나왔고, 위 사진은 1버전의 문제입니다. IQ 테스트와 비슷한 모양인데, 1~4번째 사진을 보면서 규칙을 익히고, 5번째 사진을 바탕으로 6번째 사진을 추측해야 합니다. 답이 너무 뻔해서 사람은 쉽게 풀 수 있지만, AI에게는 결코 쉬운 문제가 아닙니다.
3. 왜 AI에게는 어려울까?
AI에게 위 문제가 어려운 이유는, AI가 시각적 직관(눈)이 없기 때문입니다. Arc-agi는 AI에게 그림 이미지를 주는 것이 아니라, 아래와 같은 텍스트(JSON) 데이터를 제공합니다.
{
"train": [
{
"input": [
[0, 1, 0],
[1, 0, 1],
[0, 1, 0],
[1, 0, 1],
[0, 1, 0],
[1, 0, 1]
],
"output": [
[0, 2, 0],
[2, 0, 2],
[0, 2, 0],
[2, 0, 2],
[0, 2, 0],
[2, 0, 2]
]
},
{
"input": [
[0, 1, 0],
[1, 1, 0],
[0, 1, 0],
[0, 1, 1],
[0, 1, 0],
[1, 1, 0]
],
"output": [
[0, 2, 0],
[2, 2, 0],
[0, 2, 0],
[0, 2, 2],
[0, 2, 0],
[2, 2, 0]
]
}
],
"test": [
{
"input": [
[1, 1, 1],
[0, 1, 0],
[0, 1, 0],
[1, 1, 1],
[0, 1, 0],
[0, 1, 0]
],
"output": [
[2, 2, 2],
[0, 2, 0],
[0, 2, 0],
[2, 2, 2],
[0, 2, 0],
[0, 2, 0]
]
}
]
}
비어있는 칸은 0, 채워진 칸은 1, 2, .. 같은 숫자로 표현됩니다. AI는 이러한 숫자 행렬들만으로 패턴을 찾아야 하는 것입니다. AI의 순수 추론 능력을 검증하기에 아주 좋은 방법입니다.
이것은 마치 사람에게 숫자와 그로부터 해석되는 문장을 여러 개 준 뒤에, 어떤 규칙이 있는지 찾아보라고 하는 것과 같습니다.
4. 최신 성능 동향 (ARC-AGI Leaderboard)
| AI System | Organization | System Type | ARC-AGI-1 | ARC-AGI-2 | Cost/Task | Code/Paper |
|---|---|---|---|---|---|---|
| Stem Grad | Human | N/A | 98.0% | N/A | $10.00 | — |
| Human Panel | Human | N/A | 98.0% | 100.0% | $17.00 | — |
| Avg. Mturker | Human | N/A | 77.0% | N/A | $3.00 | — |
| o3-preview (Low)* | OpenAI | CoT + Synthesis | 75.7% | 4.0% | $200.00 | 📄 |
| Grok 4 (Thinking) | xAI | CoT | 66.7% | 16.0% | $2.17 | 📄 |
| o3 (High) | OpenAI | CoT | 60.8% | 6.5% | $0.834 | — |
| o3-Pro (High) | OpenAI | CoT + Synthesis | 59.3% | 4.9% | $7.55 | 📄 |
| o4-mini (High) | OpenAI | CoT | 58.7% | 6.1% | $0.856 | — |
| o3-Pro (Medium) | OpenAI | CoT + Synthesis | 57.0% | 1.9% | $4.74 | 📄 |
ARC-AGI-1 기준으로는 OpenAI사의 O3-preview가 1위 입니다. 하지만 최근에 나온 Grok 4의 점수도 눈여겨봐야 하는데, ARC-AGI-2의 점수가 1위이기 때문입니다.
5. 게임으로 진화한 ARC-AGI-3
ARC-AGI-3(https://three.arcprize.org/)는 텍스트 형태가 아니라 게임 형태로 AI의 지능을 측정합니다. 웹사이트에 들어가면 누구나 게임처럼 진행할 수 있는데, 역시나 사람에게는 쉽지만 AI에게는 만만치 않습니다.

저는 LS20을 플레이했고, 전부 다 깨면 리더보드에 기록을 남길 수 있습니다.

최근에는 ChatGPT Agent가 이 ARC-AGI-3의 첫 번째 레벨을 통과했다는 소식이 들려 화제가 되기도 했습니다.
X의 Wes Roth님(@WesRothMoney)
ChatGPT Agent beats the first level of the ARG AGI 3 challenge! wen ARG AGI 4?
x.com
'AI' 카테고리의 다른 글
| chatgpt 유료구독을 해야하는 이유 (0) | 2025.07.19 |
|---|---|
| Chatgpt(실험모델) 2025년 IMO(국제수학올림피아드) 금메달 획득 (1) | 2025.07.19 |
| Gemini API 가이드: Structured Output으로 JSON 출력 형식 고정하기 (0) | 2025.07.19 |
| 작가의 재구성: AI 시대, 프롬프트 엔지니어에서 문학 감독까지 (0) | 2025.07.19 |
| 가정통신문 예시 (0) | 2025.07.18 |