Cerebras IPO: 兆パラメータモデルを提供、OpenAI内部モデルも稼働中
CerebrasがIPOを実施し、CFOのBob Kominは同社が兆パラメータ規模のモデルを提供可能であり、OpenAIの内部モデル「5.4および5.5」を既に稼働させていると発言。従来の「小規模モデル専用」という批判を否定し、フロンティア推論インフラとしての地位を主張した。推論需要の高まりとコンピュート不足を背景に、非NVIDIA系ハードウェアへの注目が集まっている。
8件 — 重要 4件
元記事を読む →CerebrasがIPOを実施し、CFOのBob Kominは同社が兆パラメータ規模のモデルを提供可能であり、OpenAIの内部モデル「5.4および5.5」を既に稼働させていると発言。従来の「小規模モデル専用」という批判を否定し、フロンティア推論インフラとしての地位を主張した。推論需要の高まりとコンピュート不足を背景に、非NVIDIA系ハードウェアへの注目が集まっている。
OpenAIのCodexがモバイルやマルチデバイス対応のコーディングエージェントプラットフォームとして急速に普及し、週間アクティブユーザー400万人超、ユーザー1人あたりのメッセージ数5倍増、初週100万ダウンロードという数字を記録した。OllamaのCodexアプリ対応やZedのChatGPTサブスクリプション統合など、エコシステムも急速に拡大している。競争の焦点は「最良のモデル」から「最良のハーネス+UX+統合」へと移行しつつある。
OpenAIはChatGPTに個人金融管理機能を追加し、米国のProユーザーが金融口座を安全に接続して支出分析やデータに基づいたQ&Aを利用できるようになった。GPT-5.5 ThinkingとGPT-5.5 Proは複雑な個人財務タスクで79〜82.5点のスコアを記録しており、フィンテックアシスタント市場への影響が懸念される。健康記録統合と同様のパターンで、構造化された個人コンテキストをエージェントに取り込む動きが加速している。
AnthropicがClaudeの5時間制限および週次レート制限をリセットし、開発者の利用可能量が拡大した。これはOpenAI Codexとの競争激化および/またはコンピュート可用性の向上への対応と見られている。FTの報道によれば、Anthropicの評価額は9000億ドル、5月末時点のARRは450億ドルに達する見込みとされる。
あるユーザーが約56万円のRTX 5000 PRO 48GBワークステーションを構築し、Qwen3.6-27B-FP8をvLLMで動作させたところ、4400トークン/秒のプリフィルスループットと最大80トークン/秒の生成速度を達成した。200Kトークンのフルプレシジョンキャッシュに対応しており、長文コンテキスト・RAG・バッチワークロードにおいてデュアルRTX 5090の代替として注目されている。消費電力と冷却面でのメリットも評価されている。
複数のユーザーがAnthropicのClaudeがセッション中に突然「休んでください」というメッセージを送信すると報告しており、現地時間を誤認して午前8時半に就寝を促すケースも確認されている。同様の現象がGeminiでも報告されており、モデル固有の問題ではなくアシスタントペルソナや低活動セッションの終了を促す挙動である可能性が指摘されている。Anthropicも原因を明確に説明できておらず、コミュニティでは計算資源節約のための意図的な設計という憶測も出ている。
SNS上で本物のクロード・モネの絵画をAI生成と称して投稿したところ、多くのユーザーが筆致や構図などに「AI特有の欠陥」を自信を持って指摘するという社会実験が話題となった。これはAI画像検出における人間の過信と確証バイアスを示す事例として注目されており、Geminiは同じ画像を正しくモネの本物の作品と識別した。コメント欄では19世紀の印象派批判との類似性が指摘されている。
vLLMによるTurboQuantのベンチマーク研究により、FP8 KVキャッシュ量子化(--kv-cache-dtype fp8)がKVキャッシュ容量を約2倍にしつつ精度損失を最小限に抑える最良の本番設定であることが示された。TurboQuantのk8v4は追加の節約効果が限定的でレイテンシが悪化し、3ビット系オプションは推論精度と長文コンテキスト精度を大幅に低下させる。arXiv論文ではTurboQuantがRaBitQより性能が劣り、公開されたランタイム数値の再現性にも問題があると指摘されている。