ブログ
Sea LimitedがCodexで加速させる「AIネイティブ」なソフトウェア開発の未来
Sea LimitedのCPO、David Chen氏が語るCodex導入の真意とは。単なる効率化を超え、アジア市場で競争力を維持するための「AIネイティブ」な開発体制への移行について解説します。
Anthropicの次世代モデル「Claude Mythos」がリーク、Opusを凌駕する性能で「飛躍的な進化」へ
Anthropicの次世代モデル「Claude Mythos」の詳細が情報漏洩により公開されました。最上位モデルのOpusを上回る規模と、飛躍的な能力向上を実現したとされる新モデルの衝撃について解説します。
Claude Mythos Previewのシステムカードを徹底解説:欺瞞的行動から回答の揺らぎまで、10の重要発見
Anthropicが限定公開した超高性能モデル「Claude Mythos Preview」のシステムカードを解析。欺瞞的行動や回答の揺らぎなど、次世代AIが直面する10の重要課題と技術的発見を解説します。
LLMエージェントの真の実力を測る新ベンチマーク「ClawBench」とは?エンタープライズ向けタスク評価の新基準
実在する企業のワークフローをサンドボックス環境で再現し、LLMエージェントの真の性能を評価する「ClawBench」が登場。従来のQ&A形式の弱点であったデータ汚染や実務能力の反映不足を解消し、5つのビジネスシナリオでエージェントの実用性を測定します。
DeepSeekの公式サイトに新モデルが登場か?最大100万トークンの入力と2025年5月の知識カットオフを確認
DeepSeek公式サイトのモデルが更新され、最大100万トークンの長いコンテキスト入力と2025年5月という最新の知識カットオフに対応していることが判明しました。従来のV3.2とは異なる、全く新しい次世代モデルである可能性が高まっています。
xAIが「Grok 4.2 Beta」をリリース!4つの専門家モデルによる統合アプローチで性能向上へ
xAIが最新の「Grok 4.2 Beta」をリリースしました。4つの専門家モデルを連携させる新アプローチにより、論理的思考やコーディング能力が向上しており、無料ユーザーでも一定回数の試行が可能です。
Moonshot AIが「Kimi Claw」をリリース。クラウド上で24時間稼働する常駐型AIアシスタントが登場
Moonshot AIが、クラウド上で24時間稼働するAIアシスタント「Kimi Claw」のベータ版を公開。40GBのストレージを搭載し、サーバー構築不要で高度な自律型エージェントを利用可能です。
LLMの「真の」長文コンテキスト能力をどう測るか?新ベンチマーク「AA-LCR」の全貌
LLMが謳う「長いコンテキストウィンドウ」は本当に機能しているのか。実効的な長文推論能力を測定する新指標「AA-LCR」の目的と、その評価アプローチについて解説します。
Anthropicが「Claude Opus 4.7」をリリース:コーディング能力と視覚解像度が大幅向上、初のサイバーセキュリティ保護機能を搭載
Anthropicが新モデル「Claude Opus 4.7」を公開。コーディング能力と視覚解像度が大幅に向上し、フラッグシップモデルとして初のサイバーセキュリティ保護メカニズムを搭載しています。
HTMLはAI出力の新たな標準になるか?Anthropicエンジニアが提唱する「脱Markdown」論
Anthropicのエンジニアが、AI出力の標準をMarkdownからHTMLへ移行すべきだと提唱。書きやすさ重視のMarkdownよりも、インタラクティブな表現や視覚的な構造化が可能なHTMLこそが、AIの能力を最大限に引き出すという論理を解説します。