AIモデルランキング

17種類のベンチマークによるAIモデル総合ランキング。カテゴリ別に詳細な比較が可能です。

総合ランキング

HLE、ARC-AGI-2、FrontierMath、SWE-bench Verified、τ²-Bench の総合ランキング。

5 ベンチマーク

コーディング能力ランキング

SWE-bench Verified、LiveCodeBench、SWE-bench Pro、Aider-Polyglot によるプログラミング能力評価。

4 ベンチマーク

数学能力ランキング

AIME 2025/2026、FrontierMath、MATH-500、GSM8K による数学的推論能力評価。

5 ベンチマーク

AIエージェント能力ランキング

τ²-Bench、Terminal Bench Hard、Aider-Polyglot による自律エージェント能力評価。

3 ベンチマーク

推論能力ランキング

HLE、ARC-AGI-2、GPQA Diamond による推論・思考能力評価。

3 ベンチマーク

汎用性能ランキング

MMLU-Pro、LMArena Elo による総合的な性能評価。

2 ベンチマーク

OpenClawランキング

Claw Bench、Pinch Bench によるOpenClawエージェント性能評価。

2 ベンチマーク

総合ランキング

HLE、ARC-AGI-2、FrontierMath、SWE-bench、τ²-Bench の総合スコア

960 件のモデル

#	モデル名	開発元						オープンソース
1	Claude Mythos Preview	Anthropic	64.7	—	—	93.9	—	クローズド
2	Muse Spark 1.1	Meta AI	62.1	—	—	—	—	クローズド
3	Claude Fable 5	Anthropic	59.0	—	—	95.0	—	クローズド
4	GPT-5.4 Pro	OpenAI	58.7	83.3	38.0	—	—	クローズド
5	Muse Spark	Meta AI	58.0	42.5	14.6	77.4	—	クローズド
6	Claude Opus 4.8	Anthropic	57.9	—	—	88.6	—	クローズド
7	Claude Sonnet 5	Anthropic	57.4	—	—	85.2	—	クローズド
8	GPT-5.5 Pro	OpenAI	57.2	84.6	39.6	—	—	クローズド
9	Kimi K3	Moonshot AI	56.0	—	—	—	—	クローズド
10	GLM-5.2	Zhipu AI	54.7	—	—	—	—	クローズド
11	Opus 4.7	Anthropic	54.7	75.8	22.9	87.6	—	クローズド
12	Kimi K2.6	Moonshot AI	54.0	—	—	80.2	—	クローズド
13	Qwen3.7-Max-Preview	アリババ	53.5	—	—	80.4	—	クローズド
14	Hy3	テンセントAI研究所	53.2	—	—	78.0	—	クローズド
15	Claude Opus 4.6	Anthropic	53.0	66.3	22.9	75.6	91.9	クローズド
16	GLM 5.1	Zhipu AI	52.3	—	—	—	—	クローズド
17	GPT-5.5	OpenAI	52.2	85.0	35.4	—	—	クローズド
18	GPT-5.4	OpenAI	52.1	77.1	27.1	—	—	クローズド
19	Gemini 3.1 Pro Preview	Google DeepMind	51.4	77.1	16.7	80.6	90.8	クローズド
20	Kimi K2 Thinking	Moonshot AI	51.0	—	—	71.3	—	クローズド
21	Qwen 3.6 Plus Preview	アリババ	50.6	—	—	78.8	—	クローズド
22	GLM-5	Zhipu AI	50.4	4.9	2.1	72.8	89.7	クローズド
23	Kimi K2.5	Moonshot AI	50.2	11.8	4.2	70.8	—	クローズド
24	Qwen3.6-Max-Preview	アリババ	50.2	—	—	78.8	—	クローズド
25	GPT-5.2 Pro	OpenAI	50.0	54.2	31.3	—	—	クローズド
26	Qwen3-Max-Thinking	アリババ	49.8	—	—	75.3	82.1	クローズド
27	Claude Sonnet 4.6	Anthropic	49.0	58.3	8.3	79.6	—	クローズド
28	Qwen3.5-27B	アリババ	48.5	—	—	72.4	79.0	クローズド
29	Gemini 3 Deep Think - 2620	Google DeepMind	48.4	84.6	—	—	—	クローズド
30	Qwen3.5-397B-A17B	アリババ	48.3	—	—	76.4	86.7	クローズド