Anthropic、Opusを超える新ティア「Capybara」を準備中と報道
FortuneがAnthropicの新モデルティア「Capybara」を報道。Claude Opus 4.6より大規模で高性能とされ、コーディング・学術的推論・サイバーセキュリティのベンチマークで大幅な改善が確認されている。コストと安全性の懸念からロールアウトは制限される見込みで、Googleによるデータセンター資金提供も近いと伝えられる。
8件 — 重要 4件
元記事を読む →FortuneがAnthropicの新モデルティア「Capybara」を報道。Claude Opus 4.6より大規模で高性能とされ、コーディング・学術的推論・サイバーセキュリティのベンチマークで大幅な改善が確認されている。コストと安全性の懸念からロールアウトは制限される見込みで、Googleによるデータセンター資金提供も近いと伝えられる。
Zhipuがコーディング特化モデルGLM-5.1を全ユーザーに公開。コーディング評価スコアは35.4から45.3へ大幅改善し、Claude Opus 4.6の47.9に迫る水準となった。オープン・セミオープンモデルとクローズドモデルの差が1年前と比べて大幅に縮小していることを示している。
Clifford代数を活用したRotorQuantが、TurboQuantと比較して10〜19倍の速度向上を44倍少ないパラメータで実現。コサイン類似度0.990とTurboQuantの0.991にほぼ匹敵する精度を維持しつつ、RTX PRO 4000およびApple M4でcuBLASを大幅に上回る性能を示した。一方でGoogleのTurboQuant論文がRaBitQの理論とベンチマークを誤って表現しているとの批判も浮上している。
Nous ResearchのHermes AgentがHugging Faceを第一級の推論プロバイダーとして統合し、28の厳選モデルとさらに多くのモデルへのアクセスを提供。メモリ・永続的マシンアクセス・モデル選択を備えたオープンエージェントへの重要な一歩と評価されている。ブラウザ自動化ベースのツールと比較して低摩擦・高持続性が報告されている。
MetaがSAM 3のドロップイン更新版SAM 3.1を公開。オブジェクトマルチプレクシング機能により1回のフォワードパスで最大16オブジェクトを処理可能となった。中規模オブジェクトのワークロードでH100上のビデオスループットが16FPSから32FPSへ約2倍に向上している。
CohereがApache 2.0ライセンスの2Bパラメータ音声認識モデルをリリースし、コミュニティから高い評価を得ている。A100上でわずか12分で33時間分の音声を文字起こしできるスループットが報告されており、オープン音声処理分野での注目リリースとなった。Mistralも音声合成モデルVoxtralの論文を公開している。
Artificial Analysisが実際のコーディングエージェントの軌跡・100K以上のシーケンス長・アクセラレータあたりの同時ユーザー数などを指標とするAA-AgentPerfを公開。従来の合成トークンベンチマークより実際のデプロイに即した評価基準として注目されている。エージェント重視のサービング向けアクセラレータ比較に有用なフレームワークとなる見込み。
Mac Studio M3 Ultra 512GBとデュアルDGX SparkでQwen3.5 397Bをローカル実行した詳細比較が公開。Mac StudioはMLX 6bit量子化で30〜40トークン/秒、DGX SparkはINT4で27〜28トークン/秒を達成し、それぞれ異なるタスクに適していることが示された。両セットアップとも約1万ドルの費用で、月2,000ドルのAPI費用と比較して10ヶ月で元が取れる計算となる。