AI News Hub
AIの重要ニュース・話題を一目でチェック- 2025年6月13日(金)CognitionのWalden Yan氏が「マルチエージェントを構築するな」と提言した一方で、AnthropicはClaudeのマルチエージェント研究アーキテクチャでマルチエージェントシステムを構築するアプローチを共有し、AIコミュニティでマルチエージェントAI開発に関する議論が活発化しています。Hugging Faceは、PyTorchに注力するため、TransformersライブラリでのTensorFlowとFlaxのサポートを非推奨にすると発表しました。これは、AIフレームワークの統合が進んでいることを示しています。LlamaIndexは、Pydanticスキーマを追跡し、フォーム入力などのタスクに不可欠な、構造化されたアーティファクトメモリブロックをエージェント向けに導入しました。LLMが自律的にファインチューニングデータを生成し、自己編集指示を行うことで、実際のパラメータ更新を伴う再帰的自己改善を可能にするフレームワーク「SEAL」が発表されました。これにより、ARC-AGIタスクで72.5%という高いスコアを達成しました。Anthropicの研究者が、人間によるアノテーションデータではなく、内部モデルの一貫性を活用してLLMを自己ファインチューニングする教師なし手法「Internal Coherence Maximization (ICM)」を発表しました。
- 2025年6月12日(木)BytedanceがSOTA動画生成モデル「Seedance 1.0」を発表、HuggingfaceはTensorflow/JAXのサポートを非推奨にBytedanceが最先端の動画生成モデル「Seedance 1.0」を発表しましたが、一般公開はされていません。Morph LabsはLean向けの自動形式化システム「Trinity」を発表し、Huggingface TransformersはTensorflow/JAXのサポートを非推奨としました。GenAIアプリケーションエンジニアの台頭とLLM向けAPI設計の重要性DeepLearning.AIのAndrew Ngは、GenAIアプリケーションエンジニアの役割が台頭していることを強調し、AIビルディングブロックとCodexやClaude CodeのようなAI支援コーディングツールのスキルが重要であると述べました。また、エンジニアリングチームはLLMに対してAPI設計のテストを強化しています。Sakana AIがText-to-LoRAをリリース、効率的なモデルカスタマイズを実現Sakana AIは、自然言語記述からタスク固有のLoRAアダプターを生成するハイパーネットワーク手法「Text-to-LoRA」をリリースしました。これにより、大規模なデータセットや高価なファインチューニングなしで、効率的なモデルカスタマイズが可能になります。Google DeepMindがAIハリケーン予測システム「Weather Lab」を発表Google DeepMindは、ハリケーンの進路と強度を同時に予測できる新しいAIハリケーン予測システム「Weather Lab」を発表しました。このモデルは、従来の物理ベースのアプローチを上回り、NHCの運用ワークフローに統合される初のAIとなります。OpenAI、オープンソースモデルのリリースを延期「素晴らしいものを追加」OpenAIはオープンソースモデルのリリースを延期し、「素晴らしいものを追加する」と発表しました。コミュニティでは、この遅延がアライメントや安全性、あるいは制限的なガードレールによるものではないかという憶測が飛び交っています。
- 2025年6月11日(水)MetaがScale AIのAlexandr Wangを新スーパーインテリジェンス部門の責任者に任命MetaはScale AIのAlexandr Wangを新たな「スーパーインテリジェンス」部門の責任者として雇用しました。これは、MetaがScale AIに150億ドルを投資し、49%の株式を取得したことによるものです。AI業界の主要な人材がMeta、AMD、OpenAIへ移籍LaminiのSharon ZhouがAMDのAI担当副社長に就任し、InstacartのFidji SimoがOpenAIのアプリ担当CEOに就任しました。OpenAIがo3-proモデルをリリース、推論能力が向上OpenAIはo3-proモデルをChatGPT ProユーザーとAPI向けにリリースしました。このモデルはo3を上回り、Extended NYT ConnectionsやSnakeBenchなどの新しいベンチマークで記録を達成しました。o1-proよりは遅いものの、推論と複雑な問題解決に優れています。OpenAIがo3モデルの価格を80%削減、AIモデルの価格競争が激化OpenAIはo3の価格を80%削減し、GPT-4oよりも安価にしました。これにより、GoogleやAnthropicなどの競合他社にも価格引き下げの圧力がかかると予想されます。OpenAIがGPT-4.1ファミリーのDPOによるファインチューニングを可能にOpenAIの開発者向けに、GPT-4.1ファミリー(4.1、4.1-mini、4.1-nano)を直接選好最適化(DPO)を使用してファインチューニングできるようになりました。これにより、トーン、スタイル、創造性など主観的なタスクに最適化できます。
- 2025年6月10日(火)OpenAI、o3モデルの価格を80%引き下げ、o3-proをリリースOpenAIは、o3モデルの入力トークン価格を80%削減し、100万トークンあたり2ドルにすると発表しました。これにより、o3はGPT-4oよりも安価になり、AnthropicのClaude 4 SonnetやGoogleのGemini 2.5 Proと価格競争力を持ちます。同時に、より強力で信頼性の高いo3-proもリリースされました。Mistral AI、初の推論モデル「Magistral」をリリースMistral AIは、初の推論モデルであるMagistral-SmallとMagistral-Mediumをリリースしました。Magistral-Smallは24Bパラメータのオープンソースモデルで、RTX 4090などの消費者向けGPUで効率的に動作するように最適化されています。ChatGPTとAPIで一時的な障害が発生、その後復旧ChatGPTとAPIで「エラー率とレイテンシの増加」が発生しましたが、後に修正されました。o3のPlusユーザーのレート制限は2倍になりました。Perplexity AI、OpenAIのo3モデルを迅速に統合Perplexity AIは、o3をProユーザー向けにウェブとモバイルアプリの両方で迅速に統合しました。Google DeepMind、高速な動画生成モデルVeo 3 Fastを発表Google DeepMindは、GeminiアプリとFlow向けにVeo 3 Fastを発表しました。これは2倍高速で、視覚品質と一貫性が向上しています。
- 2025年6月10日(火)Apple、オンデバイス基盤モデルを公開も、推論論文に批判集中AppleはiOS開発者向けにオンデバイス基盤モデルをリリースしましたが、LLMの推論に関する同社の論文「Illusion of Reasoning」は、その欠陥のある方法論のために大きな反発を受けました。コミュニティは、LLMの推論能力の評価方法について活発な議論を繰り広げました。ChatGPT、Advanced Voice Modeを大幅アップデートOpenAIはChatGPTのAdvanced Voice Modeを大幅にアップデートし、より自然な音声と翻訳機能の向上を実現しました。これはGreg Brockman氏によってデモンストレーションされ、音声インターフェースにおけるAIの急速な進歩を示しています。LangChainとLlamaIndex、新AIエージェントとツールを発表LangChainはソフトウェア開発を自動化するSWE Agentや、Ollamaを使ったローカルAIエージェントの構築チュートリアルなど、新しいAIツールを発表しました。LlamaIndexは、強化学習ベースの構造理解を用いて複雑なデータ変換を行うExcelエージェントのアーキテクチャを公開しました。PerplexityとGoogle、AI研究ツールを強化PerplexityはDeep Research機能のアップデートをテストしており、GoogleはGeminiを英国政府のシステム「Extract」に導入し、複雑な計画文書を40秒でデジタルデータに変換できるようにしました。中国、世界初の三進法AIチップの量産を開始中国の研究者が世界初の三進法AIチップの量産を開始したと報じられました。このチップは3つの状態を使用して情報を処理し、AIワークロードの計算効率を向上させる可能性がありますが、既存のバイナリソフトウェアスタックとの統合には課題が残ります。
- 2025年6月6日(金)Rednoteが142BパラメータのオープンソースMoEモデル「dots.llm1」をリリース中国のXiaohongshu(Rednote)が、142Bの総パラメータと14Bのアクティブパラメータを持つオープンソースのMoE言語モデル「dots.llm1」をリリースしました。このモデルは、11.2兆の高品質な非合成トークンで事前学習されており、Docker、HuggingFace、vLLMなどの効率的な推論フレームワークをサポートしています。ベンチマークではQwen3 235Bをわずかに上回ると主張されています。EleutherAIが8TBのオープンデータセット「Common Pile v0.1」を公開EleutherAIが、オープンライセンスのテキストデータセット「Common Pile v0.1」(8TB)をリリースしました。このデータセットで訓練されたモデル「Comma v0.1-1T」と「Comma v0.1-2T」は、Llama 1および2の7Bモデルに匹敵する性能を示しており、より倫理的で透明性の高いLLMエコシステムの構築を目指しています。Figure AIのロボットが自律的なパッケージ操作を実演Figure AIのBrett Adcock氏が、同社のHelix(VLA)モデルによって制御されるFigure 02ロボットが、バーコードを下向きにしたり、スキャン用にパッケージを平らにしたりする自律的な操作を実演しました。これは、人間のような器用さとタスク理解を示す学習行動であり、高度なポリシー学習と閉ループのセンサー運動制御を示しています。OpenAI、全チャットデータを無期限保持 - NYT訴訟が背景OpenAIは、New York Timesとの訴訟に関連して、PlusおよびProユーザーを含むすべてのチャットデータを無期限に保持していることを明らかにしました。この保持はモデルトレーニングのためではなく、法的要件によるものです。この慣行は、EUのデータ保護法(GDPR)との互換性について懸念を引き起こしています。Gemini 2.5 Pro、SVG生成で高評価も幻覚増加と視覚的推論に課題GoogleのGemini 2.5 Proの06-05バージョンは、SVG生成能力や長文コンテキストでの性能が評価される一方で、幻覚の増加や知能の低下が指摘されています。特に、Ebbinghaus錯視の認識テストで失敗するなど、視覚的推論の信頼性に課題が見られます。
- 2025年6月6日(金)Gemini 2.5 ProがLMArenaで首位奪還、コーディング・推論・数学で大幅改善Googleの最新モデル「Gemini 2.5 Pro」がLMArenaのリーダーボードで1470点を獲得し、首位に返り咲きました。コーディング、推論、数学の能力が向上し、特にAIDER POLYGLOTでは82.2%を達成し、高コストのo3モデルよりも3倍以上安価です。Qwen3が最先端の埋め込み・再ランキングモデルをリリース、多言語リーダーボードで首位にQwenチームが最先端のオープンウェイト埋め込みモデルと再ランキングモデルをリリースしました。「Qwen3-Embedding-8B」はMTEB多言語リーダーボードで1位を獲得し、Geminiの実験的埋め込みモデルを上回りました。これらのモデルはvLLMでサポートされており、既存のRAGシステムに大きな恩恵をもたらすと期待されています。OpenThinker3-7Bが新オープン推論モデルのトップに、DeepSeekを33%上回るOpenThinker3-7Bが、新しくリリースされたOpenThoughts3-1.2Mデータセットで訓練された、最先端の7Bオープンデータ推論モデルとして発表されました。DeepSeek-R1-Distill-Qwen-7Bを33%上回り、限られた予算でも大手企業に匹敵する成果を出せることを証明しました。LightOnがFastPlaidを発表、遅延相互作用モデルを最大554%高速化LightOnが、遅延相互作用モデル向けの新しいアーキテクチャ「FastPlaid」を発表しました。これにより、ColBERTモデルで最大554%の高速化を実現し、効率的なAIモデルの展開に貢献します。Morph LabsがChristian Szegedyを最高科学責任者に採用、Verified Superintelligence開発を主導AI研究企業のMorph Labsが、深層学習とコンピュータビジョンの重要人物であるChristian Szegedyを最高科学責任者として採用しました。彼はVerified Superintelligenceの開発を主導します。
- 2025年6月5日(木)GoogleがGemini 2.5とLangGraphを活用したAIエージェント構築のためのDeepSearchスタックをオープンソース化しました。これは、開発者が柔軟なエージェントアーキテクチャを構築し、GemmaのようなローカルLLMと統合できるテンプレートとして機能します。Metaの新しい論文では、GPTスタイルのトランスフォーマーが1パラメータあたり約3.5〜4ビットの情報を記憶していることが示され、記憶から汎化への移行がモデル容量の飽和ととも起こることが分析されています。これはMixture-of-Expertsモデルや量子化に影響を与えます。Nvidiaが新しい推論モデル「Nemotron-Research-Reasoning-Qwen-1.5B」をリリースしました。これは、独自のProRL(Prolonged Reinforcement Learning)アプローチで訓練され、複雑な推論タスクでDeepSeek-R1-7Bに匹敵する性能を発揮します。ブラジルのUlianopolis市役所がGoogleのVeo 3生成AIビデオを使用して、わずか300レアル(約52ドル)でプロ品質のコマーシャルを制作しました。これは、従来の制作コストを大幅に削減し、メディア制作ワークフローに大きな変化をもたらす可能性を示しています。ChatGPTのメモリ機能が無料ユーザーにも展開され、会話履歴を参照してより関連性の高い応答を提供できるようになりました。ただし、自動保存による不要な情報の保持やプライバシーに関する懸念も議論されています。
- 2025年6月3日(火)OpenAIは、ChatGPT Plusユーザー向けにCodexのインターネットアクセス機能を展開し、無料ユーザー向けにはメモリ機能を改善しました。CodexはPRの更新や音声操作が可能になり、インターネットアクセスにはリスクが伴うことが明示されています。AnthropicのClaude 4 OpusとSonnetモデルはコーディングベンチマークで上位にランクインし、GoogleのGemini 2.5 ProとFlashモデルは新しい音声機能で注目を集めています。特にGemini 2.5 Proは多くのユーザーに日常的に利用されています。MicrosoftはSoraを搭載したBing Video Creatorをグローバル展開し、テキストからビデオ生成を可能にしました。Perplexity Labsは旅行検索の需要が増加しており、Firecrawlはエージェントワークフロー向けのウェブ検索/スクレイピングAPIをリリースしました。Googleは、AIエージェント構築のためのDeepSearchスタックをオープンソース化しました。これはGeminiとLangGraphフレームワークを活用しており、モジュール式のバックエンド/フロントエンドコンポーネントを提供し、迅速なプロトタイピングに適しています。Nvidiaは、複雑な推論タスクに特化したオープンウェイトの1.5BパラメータLLM「Nemotron-Research-Reasoning-Qwen-1.5B」をリリースしました。このモデルはProRL(Prolonged Reinforcement Learning)で訓練され、DeepSeek-R1-1.5Bを大幅に上回る性能を示しています。
- 2025年6月2日(月)DeepSeek R1-0528が推論、ハルシネーション削減、JSON出力、関数呼び出しで大幅に改善し、OpenAI o3やGemini 2.5 Proなどのクローズドモデルに匹敵または凌駕。オープンウェイト戦略により、中国のAIラボが米国ラボに並ぶか上回る勢いを見せています。Model Context Protocol (MCP)がAIエージェント間の通信標準として急速に普及し、Gradio Agents x MCPハッカソンも開催。自己改善型コーディングエージェント「Darwin Gödel Machine (DGM)」が登場し、SWE-bench性能を大幅向上。エージェントの信頼性向上に向けた評価フレームワークも開発中です。LisanBenchやLiveBenchといった新しい推論・エージェントベンチマークが登場。一方で、ベンチマーク汚染やRLによる性能向上への過度な強調に対する懸念が議論されています。Anthropicはオープンソースの回路追跡ツールを公開し、AIの透明性を推進しています。tinygradのAI生成CUDA-CカーネルがPyTorchの最適化済みカーネルを凌駕する性能を示し、AIインフラの効率化に貢献。Apple M3 Macの高性能メモリ帯域幅が大規模モデルの実行を後押しし、AMDの次世代GPUの噂も浮上するなど、ハードウェア面での革新が続いています。ChatGPTのチャット履歴削除が実際には完全に行われず、モデルが過去の会話内容を記憶しているというデータプライバシーに関する懸念が浮上。また、OpenAIが一部モデルの128Kコンテキストサポートを終了したことで、ユーザーの不満と代替モデルへの移行が促されています。