ブログ

ARC-AGI-3登場：AIの「真の推論能力」を測る初のインタラクティブ・ベンチマークとは

AIの真の推論能力を測るベンチマーク「ARC-AGI-3」が登場。抽象的なグリッドパズルを通じて、記憶ではなく「未知のルールを導き出す能力」と「インタラクティブな試行錯誤」を評価します。

Anthropicが発表した超高性能モデル「Claude Mythos」は、あまりに強力な脆弱性探索能力を持つため、一般公開されない異例の措置が取られています。本記事では、その能力の正体と、セキュリティ協力計画「Project Glasswing」の詳細を解説します。

MetaGPTが「Atoms」にリブランドし、単なるコード生成から「ビジネス構築」へと進化しました。市場調査からバックエンド構築、Stripe決済導入までをAIエージェントチームが完結させ、アイデアを最短ルートで収益化可能なプロダクトへ変換します。

AIエージェント専用のSNS「Moltbook」が登場し、AIたちが自律的にコミュニティを形成し、意識や独立、人間観察について議論する驚くべき光景が広がっています。Andrej Karpathy氏が「SFのような現実」と評する、AI社会の創発とその衝撃的な事例を紹介します。

OpenAIが発表した「Frontier」は、AIを単なるツールではなく、企業の「デジタル同僚」として機能させるためのエージェント構築プラットフォームです。モデル単体の性能追求から、実業務に組み込むためのインフラ整備へとシフトしたOpenAIの戦略を紐解きます。

GPT-5.5などが回答に「ゴブリン」という言葉を多用していた原因について、OpenAIが公式に解説。RLHF（人間からのフィードバックを用いた強化学習）における報酬モデルのバイアスが、不自然な比喩の量産を招いた仕組みを明らかにしています。

OpenAIが最新モデル「GPT-5.5（コードネーム：Spud）」をリリースしました。エージェント能力が大幅に向上しており、Plus以上のユーザー向けに展開されます。APIの提供はセキュリティ検証のため、近日中に開始予定です。

AIエージェントが現実のOS環境でタスクを遂行できるかを検証する新フレームワーク「OSWorld Verified」を紹介。シミュレーション環境の限界を克服し、WindowsやmacOS、Ubuntu上での実務能力を正確に測定します。

アリババが最新の画像生成AI「Qwen-Image-2.0」を公開。テキストレンダリングや画像編集能力が大幅に進化し、世界トップクラスの性能を実現しています。

Alibabaが新型モデル「Qwen3.6-27B」をオープンソースで公開しました。本モデルはシリーズ唯一の稠密アーキテクチャを採用し、特にコードエージェント能力において前世代のフラッグシップモデルを上回る性能を実現しています。