AIエージェント能力ランキング

τ²-Bench、Terminal Bench Hard、Aider-Polyglot による自律エージェント能力評価。

960 件のモデル

#	モデル名	開発元				オープンソース
1	Claude Opus 4.6	Anthropic	91.9	91.9	65.4	クローズド
2	Gemini 3.1 Pro Preview	Google DeepMind	90.8	90.8	68.5	クローズド
3	Gemini 3.0 Flash	Google DeepMind	90.2	90.2	47.6	クローズド
4	GLM-5	Zhipu AI	89.7	89.7	61.1	クローズド
5	Step 3.5 Flash	StepFun	88.2	88.2	51.0	クローズド
6	GLM-4.7	Zhipu AI	87.4	87.4	41.0	クローズド
7	Qwen3.5-397B-A17B	アリババ	86.7	86.7	52.5	クローズド
8	Gemini 3.0 Pro (Preview 11-2025)	Google DeepMind	85.4	85.4	54.2	クローズド
9	Claude Sonnet 4.5	Anthropic	84.7	71.0	—	クローズド
10	Grok 4.1 Fast	xAI	82.7	82.7	—	クローズド
11	Qwen3-Max-Thinking	アリババ	82.1	82.1	—	クローズド
12	GPT-5.2	OpenAI	82.0	82.0	—	クローズド
13	Opus 4.5	Anthropic	82.0	82.0	59.3	クローズド
14	DeepSeek V3.2	DeepSeek	80.3	80.3	46.4	クローズド
15	GPT-5	OpenAI	80.0	80.0	—	クローズド
16	GLM-4.7-Flash	Zhipu AI	79.5	79.5	—	クローズド
17	Qwen3.5-27B	アリババ	79.0	79.0	41.6	クローズド
18	ERNIE 5.0	バイドゥ	78.8	78.8	—	クローズド
19	MiniMax M2	MiniMax	77.2	77.2	—	クローズド
20	Gemma 4 31B	Google DeepMind	76.9	76.9	—	クローズド
21	GLM-4.6	Zhipu AI	75.9	75.9	—	クローズド
22	Qwen3 Max (Preview)	アリババ	74.0	72.0	—	クローズド
23	Claude Opus 4	Anthropic	72.5	72.5	—	クローズド
24	Gemma 4 26B A4B	Google DeepMind	68.2	68.2	—	クローズド
25	DeepSeek V3.2-Exp	DeepSeek	66.7	66.7	—	クローズド
26	Kimi K2	Moonshot AI	64.3	64.3	59.1	クローズド
27	Claude Sonnet 3.7	Anthropic	61.8	61.8	—	クローズド
28	OpenAI o4 - mini	OpenAI	56.9	56.9	—	クローズド
29	GPT-4.1	OpenAI	54.7	54.7	52.4	クローズド
30	GPT-4.1 mini	OpenAI	53.0	53.0	32.4	クローズド

ベンチマークについて

τ²-Bench

自律エージェントタスク — ツール呼び出しと推論の組み合わせ能力を測定

Terminal Bench Hard

ターミナルベースのエージェントタスク — CLI環境での自律的能力を測定

Aider-Polyglot

多言語コーディングアシスタントベンチマーク — 複数プログラミング言語のコーディング能力を測定