2026-06-05 | AI News

8件 — 重要 4件

●重要MODEL

Google releases Gemma 4 QAT checkpoints for local inference

GoogleはGemma 4の量子化対応トレーニング（QAT）チェックポイントを全モデルサイズ向けにリリースした。メモリ効率を維持しながら品質を保つことを目的としており、E2Bモデルは約1GBで動作可能とされる。OllamaやvLLMなどのエコシステムが即座に対応し、6GB VRAMのラップトップでも動作できると期待されている。

●重要MODEL

Ideogram 4.0、オープンウェイトの画像生成モデルとしてトップ評価を獲得

Ideogram 4.0は9.3BパラメータのDiffusion Transformerとして公開され、fp8およびnf4チェックポイントがリリースされた。nf4バリアントは24GB GPUで動作可能であり、Arenaのテキスト画像生成ランキングでトップ層に位置づけられ、オープンウェイトモデルとして最高評価を獲得した。

●重要RESEARCH

Sakana AI、東京に再帰的自己改善（RSI）専門ラボを設立

Sakana AIは東京にRSI（再帰的自己改善）専門ラボを立ち上げ、「The AI Scientist」「Darwin Gödel Machine」「ShinkaEvolve」などの先行プロジェクトを統合した。ハイパースケールなコンピュートなしでも自己改善システムが構築可能と主張しており、RSIが単なるブログの概念から正式な研究プログラムへと移行したことを示している。

●重要MODEL

NVIDIA、Nemotron-3 Ultra 550Bをオープンリリース

NVIDIAはMamba-2、MoE、選択的アテンション、Multi-Token Predictionを組み合わせた550Bパラメータ（アクティブ55B）のLatentMoEモデルをリリースした。最大100万トークンのコンテキストをサポートし、OpenMDW 1.1ライセンスで公開されているが、最低でも16×H100または8×H200が必要なため、一般ユーザーのローカル実行は現実的でない。PerplexityはすでにPro/Maxユーザー向けに提供を開始した。

RESEARCH

Huawei、KVarNによる3〜5倍のKVキャッシュ圧縮をオープンソース化

HuaweiはApache 2.0ライセンスのKVキャッシュ量子化手法「KVarN」をvLLMに統合する形でオープンソース公開した。FP16比で3〜5倍の圧縮と最大約1.4倍のスループット向上を主張しており、再トレーニングやキャリブレーションなしで推論品質を維持できるとしている。ただしコミュニティからは懐疑的な声もあり、高並列バッチでの実証が求められている。

RESEARCH

エージェント評価の新基準：ALE・SWE-Marathon・Meta-Agent Challengeが登場

長期タスクや経済的価値を測る新しいエージェント評価ベンチマークが複数登場した。Agents' Last Exam（ALE）は1,000以上の職業タスクで構成され最難関タスクの正答率はわずか2.6%、SWE-Marathonは10億トークン規模のコーディング耐久テストを実施する。Princetonの研究ではGPT-5.5やClaude Opus 4.7を含む最新モデルでも信頼性は旧モデルと大差ないと結論づけられた。

PRODUCT

Cloudflare、AIゲートウェイに支出上限・モデルフォールバック機能を追加

CloudflareはAI Gatewayにモデル・ユーザー単位の予算制限と、上限到達時に安価なモデルへ自動切り替えするフォールバック機能を追加した。企業のAI利用がプロトタイプ規模を超えるにつれ、コスト管理インフラへの需要が高まっており、今後Cloudflare Accessを通じたID連携制御も予定されている。

PRODUCT

OpenAI、誤アカウント停止インシデントとChatGPT Lockdown Modeを展開

OpenAIは誤ったアカウント停止が発生したことを公式に認め、その後ほとんどのアカウントが復元されたと報告した。同時にChatGPT Lockdown Modeを全ユーザーに展開し、プロンプトインジェクションによるデータ流出を防ぐため外部ネットワークリクエストを制限する機能を追加した。マルチテナント環境での出力漏洩リスクも指摘されており、クラウド推論製品のセキュリティ課題が改めて浮き彫りになっている。