Google releases Gemma 4 QAT checkpoints for local inference
GoogleはGemma 4の量子化対応トレーニング(QAT)チェックポイントを全モデルサイズ向けにリリースした。メモリ効率を維持しながら品質を保つことを目的としており、E2Bモデルは約1GBで動作可能とされる。OllamaやvLLMなどのエコシステムが即座に対応し、6GB VRAMのラップトップでも動作できると期待されている。
8件 — 重要 4件
元記事を読む →GoogleはGemma 4の量子化対応トレーニング(QAT)チェックポイントを全モデルサイズ向けにリリースした。メモリ効率を維持しながら品質を保つことを目的としており、E2Bモデルは約1GBで動作可能とされる。OllamaやvLLMなどのエコシステムが即座に対応し、6GB VRAMのラップトップでも動作できると期待されている。
Ideogram 4.0は9.3BパラメータのDiffusion Transformerとして公開され、fp8およびnf4チェックポイントがリリースされた。nf4バリアントは24GB GPUで動作可能であり、Arenaのテキスト画像生成ランキングでトップ層に位置づけられ、オープンウェイトモデルとして最高評価を獲得した。
Sakana AIは東京にRSI(再帰的自己改善)専門ラボを立ち上げ、「The AI Scientist」「Darwin Gödel Machine」「ShinkaEvolve」などの先行プロジェクトを統合した。ハイパースケールなコンピュートなしでも自己改善システムが構築可能と主張しており、RSIが単なるブログの概念から正式な研究プログラムへと移行したことを示している。
NVIDIAはMamba-2、MoE、選択的アテンション、Multi-Token Predictionを組み合わせた550Bパラメータ(アクティブ55B)のLatentMoEモデルをリリースした。最大100万トークンのコンテキストをサポートし、OpenMDW 1.1ライセンスで公開されているが、最低でも16×H100または8×H200が必要なため、一般ユーザーのローカル実行は現実的でない。PerplexityはすでにPro/Maxユーザー向けに提供を開始した。
HuaweiはApache 2.0ライセンスのKVキャッシュ量子化手法「KVarN」をvLLMに統合する形でオープンソース公開した。FP16比で3〜5倍の圧縮と最大約1.4倍のスループット向上を主張しており、再トレーニングやキャリブレーションなしで推論品質を維持できるとしている。ただしコミュニティからは懐疑的な声もあり、高並列バッチでの実証が求められている。
長期タスクや経済的価値を測る新しいエージェント評価ベンチマークが複数登場した。Agents' Last Exam(ALE)は1,000以上の職業タスクで構成され最難関タスクの正答率はわずか2.6%、SWE-Marathonは10億トークン規模のコーディング耐久テストを実施する。Princetonの研究ではGPT-5.5やClaude Opus 4.7を含む最新モデルでも信頼性は旧モデルと大差ないと結論づけられた。
CloudflareはAI Gatewayにモデル・ユーザー単位の予算制限と、上限到達時に安価なモデルへ自動切り替えするフォールバック機能を追加した。企業のAI利用がプロトタイプ規模を超えるにつれ、コスト管理インフラへの需要が高まっており、今後Cloudflare Accessを通じたID連携制御も予定されている。
OpenAIは誤ったアカウント停止が発生したことを公式に認め、その後ほとんどのアカウントが復元されたと報告した。同時にChatGPT Lockdown Modeを全ユーザーに展開し、プロンプトインジェクションによるデータ流出を防ぐため外部ネットワークリクエストを制限する機能を追加した。マルチテナント環境での出力漏洩リスクも指摘されており、クラウド推論製品のセキュリティ課題が改めて浮き彫りになっている。