ランキング一覧に戻る
AIME 2025 American Invitational Mathematics Examination 2025 — 高校生レベルの数学コンテスト AIME 2026 American Invitational Mathematics Examination 2026 — 高校生レベルの数学コンテスト FrontierMath - Tier 4 高度な数学問題 — 研究レベルの数学的推論能力を測定 MATH-500 数学問題セット — 幅広い数学分野の問題解決能力を測定 GSM8K Grade School Math 8K — 小学校レベルの数学的推論能力を測定
数学能力ランキング
AIME 2025/2026、FrontierMath、MATH-500、GSM8K による数学的推論能力評価。
660 件のモデル
| # | モデル名 | 開発元 | オープンソース | |||||
|---|---|---|---|---|---|---|---|---|
| 1 | Step 3.5 Flash | StepFun | 97.3 | — | — | — | — | クローズド |
| 2 | DeepSeek V3.2 Speciale | DeepSeek | 96.0 | — | — | — | — | クローズド |
| 3 | DeepSeek V3.2 | DeepSeek | 93.1 | 92.7 | 2.1 | — | — | クローズド |
| 4 | o3-pro | OpenAI | 93.0 | — | — | — | — | クローズド |
| 5 | Qwen3-235B-A22B-Thinking | アリババ | 92.3 | — | — | — | — | オープン |
| 6 | Grok 4 Fast | xAI | 92.0 | — | — | — | — | クローズド |
| 7 | GLM-4.7-Flash | Zhipu AI | 91.6 | — | — | — | — | クローズド |
| 8 | Grok 4.1 Fast | xAI | 89.0 | — | — | — | — | クローズド |
| 9 | DeepSeek-R1-0528 | DeepSeek | 87.5 | — | — | 98.0 | — | クローズド |
| 10 | MiniMax M2.5 | MiniMax | 86.3 | — | — | — | — | クローズド |
| 11 | Intern-S1 | 上海人工知能研究所 | 86.0 | — | — | — | — | オープン |
| 12 | Gemini-2.5-Pro-Preview-05-06 | Google DeepMind | 83.0 | — | 2.1 | 98.8 | — | クローズド |
| 13 | GPT OSS 120B | OpenAI | 83.0 | — | — | — | — | クローズド |
| 14 | Step3 | StepFun | 82.9 | — | — | — | — | オープン |
| 15 | Qwen3-4B-Thinking-2507 | アリババ | 81.3 | — | — | — | — | オープン |
| 16 | M2.1 | MiniMax | 81.0 | — | — | — | — | クローズド |
| 17 | Qwen3 Max (Preview) | アリババ | 80.6 | — | — | — | — | クローズド |
| 18 | GPT OSS 20B | OpenAI | 79.0 | — | — | — | — | クローズド |
| 19 | MiniMax M2 | MiniMax | 78.0 | — | — | — | — | クローズド |
| 20 | MiniMax-M1-80k | MiniMax | 76.9 | — | — | 96.8 | — | クローズド |
| 21 | Hunyuan-A13B-Instruct | テンセントAI研究所 | 76.8 | — | — | — | 91.8 | クローズド |
| 22 | Hunyuan-7B | テンセント | 75.3 | — | — | 93.7 | — | クローズド |
| 23 | Kimi K2 0905 | Moonshot AI | 75.2 | — | — | — | — | オープン |
| 24 | MiniMax-M1-40k | MiniMax | 74.6 | — | — | 96.0 | — | クローズド |
| 25 | Qwen3-235B-A22B-2507 | アリババ | 70.3 | — | — | — | — | オープン |
| 26 | DeepSeek-R1 | DeepSeek | 70.0 | — | — | 97.3 | — | クローズド |
| 27 | Qwen3-Next | アリババ | 69.5 | — | — | — | 90.3 | クローズド |
| 28 | Pangu Pro MoE | ファーウェイ | 68.1 | — | — | 96.8 | — | クローズド |
| 29 | Magistral-Medium-2506 | Mistral | 65.0 | — | — | — | — | クローズド |
| 30 | Gemini 2.5 Flash-Lite | Google DeepMind | 63.1 | — | — | — | — | クローズド |