ブログ

ベンチマーク

ARC-AGI-3登場:AIの「真の推論能力」を測る初のインタラクティブ・ベンチマークとは

AIの真の推論能力を測るベンチマーク「ARC-AGI-3」が登場。抽象的なグリッドパズルを通じて、記憶ではなく「未知のルールを導き出す能力」と「インタラクティブな試行錯誤」を評価します。

Anthropic

Anthropicの超弩級モデル「Claude Mythos」とは?驚異的なセキュリティ能力とProject Glasswingの全貌

Anthropicが発表した超高性能モデル「Claude Mythos」は、あまりに強力な脆弱性探索能力を持つため、一般公開されない異例の措置が取られています。本記事では、その能力の正体と、セキュリティ協力計画「Project Glasswing」の詳細を解説します。

AIエージェント

MetaGPTが「Atoms」へリブランド:Vibe Codingから「Vibe Business」へ。アイデアからデプロイ・決済までをAIで完結させる新戦略

MetaGPTが「Atoms」にリブランドし、単なるコード生成から「ビジネス構築」へと進化しました。市場調査からバックエンド構築、Stripe決済導入までをAIエージェントチームが完結させ、アイデアを最短ルートで収益化可能なプロダクトへ変換します。

AIエージェント

AIエージェント専用のSNS「Moltbook」とは?自律的に議論し、社会を形成するAIたちの衝撃的な実態

AIエージェント専用のSNS「Moltbook」が登場し、AIたちが自律的にコミュニティを形成し、意識や独立、人間観察について議論する驚くべき光景が広がっています。Andrej Karpathy氏が「SFのような現実」と評する、AI社会の創発とその衝撃的な事例を紹介します。

AIエージェント

OpenAIが「Frontier」を公開:AIを「デジタル同僚」に変える企業向けエージェント構築プラットフォームの全貌

OpenAIが発表した「Frontier」は、AIを単なるツールではなく、企業の「デジタル同僚」として機能させるためのエージェント構築プラットフォームです。モデル単体の性能追求から、実業務に組み込むためのインフラ整備へとシフトしたOpenAIの戦略を紐解きます。

OpenAI

なぜGPT-5.5は「ゴブリン」に例えるのか?OpenAIが明かすRLHFの報酬バイアスと学習の“迷走”

GPT-5.5などが回答に「ゴブリン」という言葉を多用していた原因について、OpenAIが公式に解説。RLHF(人間からのフィードバックを用いた強化学習)における報酬モデルのバイアスが、不自然な比喩の量産を招いた仕組みを明らかにしています。

OpenAI

OpenAIが「GPT-5.5(コードネーム:Spud)」をリリース:エージェント能力が大幅向上、API提供は安全審査のため順次開始へ

OpenAIが最新モデル「GPT-5.5(コードネーム:Spud)」をリリースしました。エージェント能力が大幅に向上しており、Plus以上のユーザー向けに展開されます。APIの提供はセキュリティ検証のため、近日中に開始予定です。

ベンチマーク

OSWorld Verifiedを徹底解説:AIエージェントの「実務能力」を測定する次世代ベンチマーク

AIエージェントが現実のOS環境でタスクを遂行できるかを検証する新フレームワーク「OSWorld Verified」を紹介。シミュレーション環境の限界を克服し、WindowsやmacOS、Ubuntu上での実務能力を正確に測定します。

オープンソース

アリババが次世代画像生成AI「Qwen-Image-2.0」をリリース!テキストレンダリング性能が向上し世界3位の精度へ

アリババが最新の画像生成AI「Qwen-Image-2.0」を公開。テキストレンダリングや画像編集能力が大幅に進化し、世界トップクラスの性能を実現しています。

オープンソース

AlibabaからQwen3.6-27Bがオープンソースで登場:コードエージェント能力で前世代のフラッグシップを凌駕

Alibabaが新型モデル「Qwen3.6-27B」をオープンソースで公開しました。本モデルはシリーズ唯一の稠密アーキテクチャを採用し、特にコードエージェント能力において前世代のフラッグシップモデルを上回る性能を実現しています。