ランキング一覧に戻る
HLE 総合知能テスト — 人間レベルの推論能力を測定 ARC-AGI-2 抽象的推論ベンチマーク — 新規パターンの汎化能力を測定 FrontierMath - Tier 4 高度な数学問題 — 研究レベルの数学的推論能力を測定 SWE-bench Verified 実践的ソフトウェア開発タスク — 実際のバグ修正能力を測定 τ²-Bench 自律エージェントタスク — ツール呼び出しと推論の組み合わせ能力を測定
総合ランキング
HLE、ARC-AGI-2、FrontierMath、SWE-bench Verified、τ²-Bench の総合ランキング。
660 件のモデル
| # | モデル名 | 開発元 | オープンソース | |||||
|---|---|---|---|---|---|---|---|---|
| 1 | Claude Mythos Preview | Anthropic | 64.7 | — | — | 93.9 | — | クローズド |
| 2 | GPT-5.4 Pro | OpenAI | 58.7 | 83.3 | 38.0 | — | — | クローズド |
| 3 | Muse Spark | Meta AI | 58.0 | 42.5 | 14.6 | 77.4 | — | クローズド |
| 4 | GPT-5.5 Pro | OpenAI | 57.2 | 84.6 | 39.6 | — | — | クローズド |
| 5 | Opus 4.7 | Anthropic | 54.7 | 75.8 | 22.9 | 87.6 | — | クローズド |
| 6 | Kimi K2.6 | Moonshot AI | 54.0 | — | — | 80.2 | — | クローズド |
| 7 | Qwen3.7-Max-Preview | アリババ | 53.5 | — | — | 80.4 | — | クローズド |
| 8 | Claude Opus 4.6 | Anthropic | 53.0 | 66.3 | 22.9 | 80.8 | 91.9 | クローズド |
| 9 | GLM 5.1 | Zhipu AI | 52.3 | — | — | — | — | クローズド |
| 10 | GPT-5.5 | OpenAI | 52.2 | 85.0 | 35.4 | — | — | クローズド |
| 11 | GPT-5.4 | OpenAI | 52.1 | 77.1 | 27.1 | — | — | クローズド |
| 12 | Gemini 3.1 Pro Preview | Google DeepMind | 51.4 | 77.1 | 16.7 | 80.6 | 90.8 | クローズド |
| 13 | Kimi K2 Thinking | Moonshot AI | 51.0 | — | — | 71.3 | — | クローズド |
| 14 | Qwen 3.6 Plus Preview | アリババ | 50.6 | — | — | 78.8 | — | クローズド |
| 15 | GLM-5 | Zhipu AI | 50.4 | 4.9 | 2.1 | 77.8 | 89.7 | クローズド |
| 16 | Kimi K2.5 | Moonshot AI | 50.2 | 11.8 | 4.2 | 76.8 | — | クローズド |
| 17 | Qwen3.6-Max-Preview | アリババ | 50.2 | — | — | 78.8 | — | クローズド |
| 18 | GPT-5.2 Pro | OpenAI | 50.0 | 54.2 | 31.3 | — | — | クローズド |
| 19 | Qwen3-Max-Thinking | アリババ | 49.8 | — | — | 75.3 | 82.1 | クローズド |
| 20 | Claude Sonnet 4.6 | Anthropic | 49.0 | 58.3 | 8.3 | 79.6 | — | クローズド |
| 21 | Qwen3.5-27B | アリババ | 48.5 | — | — | 72.4 | 79.0 | クローズド |
| 22 | Gemini 3 Deep Think - 2620 | Google DeepMind | 48.4 | 84.6 | — | — | — | クローズド |
| 23 | Qwen3.5-397B-A17B | アリババ | 48.3 | — | — | 76.4 | 86.7 | クローズド |
| 24 | DeepSeek-V4-Pro | DeepSeek | 48.2 | — | — | 80.6 | — | クローズド |
| 25 | Gemini 3.0 Pro (Preview 11-2025) | Google DeepMind | 45.8 | 45.1 | 18.8 | 76.2 | 85.4 | クローズド |
| 26 | GPT-5.2 | OpenAI | 45.5 | 54.2 | 18.8 | 80.0 | 82.0 | クローズド |
| 27 | DeepSeek-V4-Flash | DeepSeek | 45.1 | — | — | 79.0 | — | クローズド |
| 28 | Grok 4 Heavy | xAI | 44.4 | — | 2.1 | 73.5 | — | クローズド |
| 29 | Gemini 3.0 Flash | Google DeepMind | 43.5 | 33.6 | 4.2 | 68.7 | 90.2 | クローズド |
| 30 | Opus 4.5 | Anthropic | 43.2 | 37.6 | 4.2 | 80.9 | 82.0 | クローズド |