ランキング一覧に戻る
τ²-Bench 自律エージェントタスク — ツール呼び出しと推論の組み合わせ能力を測定 Terminal Bench Hard ターミナルベースのエージェントタスク — CLI環境での自律的能力を測定 Aider-Polyglot 多言語コーディングアシスタントベンチマーク — 複数プログラミング言語のコーディング能力を測定
AIエージェント能力ランキング
τ²-Bench、Terminal Bench Hard、Aider-Polyglot による自律エージェント能力評価。
660 件のモデル
| # | モデル名 | 開発元 | オープンソース | |||
|---|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 | Anthropic | 91.9 | 91.9 | 65.4 | クローズド |
| 2 | Gemini 3.1 Pro Preview | Google DeepMind | 90.8 | 90.8 | 68.5 | クローズド |
| 3 | Gemini 3.0 Flash | Google DeepMind | 90.2 | 90.2 | 47.6 | クローズド |
| 4 | GLM-5 | Zhipu AI | 89.7 | 89.7 | 61.1 | クローズド |
| 5 | Step 3.5 Flash | StepFun | 88.2 | 88.2 | 51.0 | クローズド |
| 6 | GLM-4.7 | Zhipu AI | 87.4 | 87.4 | 41.0 | クローズド |
| 7 | Qwen3.5-397B-A17B | アリババ | 86.7 | 86.7 | 52.5 | クローズド |
| 8 | Gemini 3.0 Pro (Preview 11-2025) | Google DeepMind | 85.4 | 85.4 | 54.2 | クローズド |
| 9 | Claude Sonnet 4.5 | Anthropic | 84.7 | 71.0 | — | クローズド |
| 10 | Grok 4.1 Fast | xAI | 82.7 | 82.7 | — | クローズド |
| 11 | Qwen3-Max-Thinking | アリババ | 82.1 | 82.1 | — | クローズド |
| 12 | GPT-5.2 | OpenAI | 82.0 | 82.0 | — | クローズド |
| 13 | Opus 4.5 | Anthropic | 82.0 | 82.0 | 59.3 | クローズド |
| 14 | DeepSeek V3.2 | DeepSeek | 80.3 | 80.3 | 46.4 | クローズド |
| 15 | GPT-5 | OpenAI | 80.0 | 80.0 | — | クローズド |
| 16 | GLM-4.7-Flash | Zhipu AI | 79.5 | 79.5 | — | クローズド |
| 17 | Qwen3.5-27B | アリババ | 79.0 | 79.0 | 41.6 | クローズド |
| 18 | MiniMax M2 | MiniMax | 77.2 | 77.2 | — | クローズド |
| 19 | Gemma 4 31B | Google DeepMind | 76.9 | 76.9 | — | クローズド |
| 20 | GLM-4.6 | Zhipu AI | 75.9 | 75.9 | — | クローズド |
| 21 | Qwen3 Max (Preview) | アリババ | 74.0 | 74.0 | — | クローズド |
| 22 | Claude Opus 4 | Anthropic | 72.5 | 72.5 | — | クローズド |
| 23 | Gemma 4 26B A4B | Google DeepMind | 68.2 | 68.2 | — | クローズド |
| 24 | DeepSeek V3.2-Exp | DeepSeek | 66.7 | 66.7 | — | クローズド |
| 25 | Kimi K2 | Moonshot AI | 64.3 | 64.3 | — | クローズド |
| 26 | Claude Sonnet 3.7 | Anthropic | 61.8 | 61.8 | — | クローズド |
| 27 | OpenAI o4 - mini | OpenAI | 56.9 | 56.9 | — | クローズド |
| 28 | GPT-4.1 | OpenAI | 54.7 | 54.7 | — | クローズド |
| 29 | GPT-4.1 mini | OpenAI | 53.0 | 53.0 | — | クローズド |
| 30 | Claude Sonnet 4 | Anthropic | 52.0 | 52.0 | — | クローズド |