AI News Hub
AIの重要ニュース・話題を一目でチェック- 2025年5月16日(金)OpenAI、クラウドSWEエージェント「Codex」を発表OpenAIがクラウドベースのソフトウェアエンジニアリングエージェント「Codex」をChatGPT Pro、Enterprise、Teamユーザー向けに研究プレビューとしてリリースしました。Codexは、コードのリファクタリング、バグ修正、ドキュメント作成などを並行して実行できます。また、低遅延のコードQ&Aおよび編集に最適化された新モデル「codex-mini」を搭載したCodex CLIも強化されました。Google DeepMind、AlphaEvolveで新たな数学的発見とコスト削減を実現Google DeepMindのAlphaEvolveがGemini 2.0を活用し、新たな数学的発見を達成しました。これにより、強化学習なしでGeminiのコストを1%削減できることが示されました。Salesforce、オープンなマルチモーダルモデル「BLIP3-o」をリリースSalesforceが、拡散トランスフォーマーを用いてCLIP画像特徴を生成する新しいアプローチを採用した、完全にオープンな統合マルチモーダルモデルファミリー「BLIP3-o」をリリースしました。Qwen、言語モデルの並列スケーリング法則を発表Qwenが、言語モデルの並列スケーリング法則を導入しました。これは、Classifier-Free Guidance (CFG) から着想を得ており、Pストリームへの並列化がモデルパラメータをO(log P)でスケーリングすることを示唆しています。LLMのパフォーマンス、マルチターン会話で劣化の傾向新しい研究論文によると、LLMのパフォーマンスは、信頼性の低下によりマルチターン会話で劣化することが判明しました。
- 2025年5月15日(木)DeepMindのAlphaEvolve、Gemini 2.0で新数学を発見し、AIトレーニングコストを削減DeepMindが開発したAlphaEvolveは、Gemini 2.0を搭載したアルゴリズム発見のためのコーディングエージェントです。行列乗算アルゴリズムの高速化、未解決の数学問題の解決、データセンターとAIトレーニングの効率向上を実現します。特にGeminiトレーニングではカーネル速度が23%向上し、データセンターとAIトレーニングの総コストを1%削減しました。強化学習とは異なり、モデルの重みではなくコードを最適化します。OpenAI、GPT-4.1とGPT-4.1 miniをリリース、安全性評価ハブと考古学チャレンジも発表OpenAIはChatGPTにGPT-4.1をリリースしました。これはコーディングタスクと指示追従に特化しており、GPT-4o miniを置き換える高速な代替モデルであるGPT-4.1 miniも提供されます。また、モデルの安全性評価のためのSafety Evaluations Hubと、考古学的遺跡発見のためのOpenAI to Z Challengeも発表しました。UnslothがTTSファインチューニングをサポート、llama.cppにPDF入力統合、LLMのマルチターン会話に課題Unslothは、Text-to-Speech (TTS) モデルの効率的なファインチューニングをサポートし、約1.5倍の高速トレーニングと50%のVRAM削減を実現しました。llama.cppにはPDF入力サポートが統合され、LLMのマルチターン会話における性能低下が指摘されています。Nous Researchが分散型事前学習を開始、SalesforceがBLIP3-oマルチモーダルモデルをリリースNous Researchは、分散型事前学習実行を開始し、40BパラメータのDeepseekライクなモデルを20兆トークン以上でトレーニングしています。Salesforceは、セマンティックにリッチなCLIP画像特徴を生成するBLIP3-oマルチモーダルモデルファミリーをリリースしました。LLM、マルチターン会話で性能が大幅低下LLMがマルチターン会話で性能が著しく低下することが研究で示されました。特に指示が分割されている場合に顕著で、初期の誤解から回復できない傾向があります。これは、単一ターンベンチマークでは捉えられない課題です。
- 2025年5月14日(水)OpenAIがGPT-4.1をリリース、コーディングと指示理解を強化OpenAIは、ChatGPTのPlus、Pro、Teamユーザー向けにGPT-4.1をリリースしました。これは、コーディングタスクと指示の理解に特化しており、GPT-4o miniを置き換えるものです。Anthropicが新Claudeモデルを発表、推論能力に期待Anthropicは、Claude OpusとClaude Sonnetのリリースを控えており、特にClaude Opusは高度な推論能力を持つと期待されています。しかし、Claude O3には幻覚に関する批判もあります。AlibabaがQwen3テクニカルレポートを公開、Seed1.5-VLがSOTA達成AlibabaはQwen3テクニカルレポートを公開し、Seed1.5-VLが60のVLMベンチマーク中38でSOTAを達成したことを報告しました。Google DeepMindがAlphaEvolveを発表、アルゴリズム発見を自動化Google DeepMindは、Geminiを活用したコーディングエージェント「AlphaEvolve」を発表しました。これは、アルゴリズムの発見と最適化を自動化し、行列乗算カーネルの速度を23%向上させ、Geminiモデルのトレーニング時間を1%削減しました。ChatGPTがウェブトラフィックで急上昇、新たな情報インターフェースにChatGPTは、昨年15位だったウェブサイト訪問数ランキングで5位に急上昇し、従来のウェブ検索に代わる主要な情報インターフェースになりつつあります。
- 2025年5月13日(火)TencentのHunyuan-Turbos、LMArenaで8位に浮上TencentのHunyuan-TurbosがLMArenaリーダーボードで8位にランクインし、2月以降大幅な改善を見せ、主要カテゴリで高いパフォーマンスを発揮しています。OpenAI、医療AI評価の新ベンチマーク「HealthBench」を発表OpenAIが250人以上の医師の協力を得て開発した新しい医療評価ベンチマーク「HealthBench」を発表しました。o3、GPT-4.1 nano、Grok 3などのモデルが好成績を収めています。ByteDance、高性能ビジョン言語モデル「Seed1.5-VL」をリリースByteDanceが、5億3200万パラメータのビジョンエンコーダと200億アクティブパラメータのMoE LLMを搭載したビジョン言語モデル「Seed1.5-VL」をリリースしました。38の公開ベンチマークでSOTAを達成しています。Kling 2.0が画像から動画生成のトップに、Gemini 2.5 Proは動画理解で優位性を示すKling 2.0が画像から動画生成モデルのトップに立ち、Veo 2とRunway Gen 4を上回る性能を示しています。Gemini 2.5 Proは、高度なマルチモーダル機能で動画理解に優れています。Qwen3モデルファミリー、効率的なパラメータ使用で高い知能を発揮Qwen3モデルファミリー、特にQwen3 235B-A22B (Reasoning)モデルは、220億のアクティブパラメータで2350億の総パラメータを持ちながら、高い知能と効率的なパラメータ使用で注目されています。
- 2025年5月12日(月)Prime Intellectが分散型GPUトレーニングと強化学習フレームワーク「INTELLECT-2」をリリースしました。これは、世界中の余剰GPUを活用し、コロケーションの制限を克服する分散型AIトレーニングのビジョンを掲げています。技術レポート、QwQファインチューン、RLフレームワークなど、多角的なアプローチで分散型AIの可能性を示しています。ByteDanceが画像カスタマイズのための統合モデル「DreamO」をHugging Faceで公開しました。ID、IP、試着、スタイルといった多様なタスクに対応し、軽量かつ高性能な単一モデルで実現しています。QwenがGPTQ、GGUF、AWQといった量子化に最適化されたモデルをリリースしました。これにより、Ollama、LM Studio、SGLang、vLLMなどのオープンソースプラットフォームでの展開が容易になります。Metaが、言語モデルの効率と推論能力を向上させるための「Dynamic Byte Latent Transformer」(8Bパラメータ)と「Collaborative Reasoner」フレームワークのモデルウェイトを公開しました。Mistral AIが、強力なマルチモーダルAIモデル「Mistral Medium 3」と、ビジネス向けエージェントAIアシスタント「Le Chat Enterprise」をリリースしました。Le Chat EnterpriseはGoogle Drive連携やエージェント構築ツールを備えています。
- 2025年5月9日(金)Gemini 2.5 Flash、性能向上もコストが150倍にGoogleのGemini 2.5 Flashは、AI分析インデックスで12ポイントの向上を見せたものの、Gemini 2.0 Flashと比較して出力トークンが9倍高価で、推論時のトークン使用量が17倍多いため、コストが150倍になることが報告されています。これにより、特定のユースケースでのアップグレードの費用対効果が問われています。Mistral Medium 3、低価格で高性能を実現Mistral Medium 3は、Llama 4 Maverick、Gemini 2.0 Flash、Claude 3.7 Sonnetと競合し、コーディングと数学的推論において優れた性能を示しています。価格も100万入力トークンあたり0.4ドル、出力トークンあたり2ドルと大幅に低く設定されています。Alibaba、多言語対応のQwen3モデルファミリーを発表AlibabaのQwen3ファミリーは、8つのオープンな大規模言語モデルで構成され、オプションの推論モードと119言語での多言語機能をサポートしています。推論、コーディング、関数呼び出しタスクで優れた性能を発揮し、Web Devツールも搭載しています。OpenAI、o4-miniで強化学習ファインチューニングを導入OpenAIのo4-miniは、思考連鎖推論とタスク固有のグレーディングを用いた強化学習ファインチューニング(RFT)をサポートするようになりました。これにより、モデルのパフォーマンス向上が期待されます。Microsoft、X-REASONERで汎用推論を強化MicrosoftのX-REASONERは、汎用ドメインテキストで後学習されたビジョン言語モデルで、モダリティを横断した汎用的な推論を可能にします。ChatGPTのGitHubリポジトリとの連携により、コードベースの検索とレポート作成が強化されました。
- 2025年5月8日(木)OpenAIがReinforcement FinetuningとGitHubリポジトリのDeep Researchを公開しました。これはCognitionのDeepWikiと比較されています。NVIDIAがOpen Code Reasoningモデル(32B、14B、7B)をApache 2.0ライセンスでオープンソース化しました。これらのモデルはLiveCodeBenchでO3 mini & O1 (low)を上回り、トークン効率が30%向上しています。Mistral Medium 3は、Llama 4 Maverick、Gemini 2.0 Flash、Claude 3.7 Sonnetに匹敵する性能を持ち、特にコーディングと数学的推論で大幅な改善が見られます。価格も大幅に低くなっていますが、オープンソースではありません。GoogleのGemini 2.5 Proは、同社で最もインテリジェントなモデルであり、シンプルなプロンプトからのコーディング能力が向上しています。しかし、Gemini 2.5 Flashは、トークン使用量とコストの増加により、Gemini 2.0 Flashと比較して150倍のコスト増となっています。Absolute Zero Reasoner (AZR)は、外部データなしに強化学習による自己対戦を通じてコーディングと数学的推論でSOTA性能を達成しました。また、Apple ML researchはiPhone上で動作するFastVLMをリリースし、NvidiaのParakeet ASRモデルはHugging Face ASRリーダーボードでトップを獲得しました。
- 2025年5月7日(水)2025年のAI Engineer World's Fairは、Retrieval + Search、GraphRAG、RecSys、SWE-Agents、Agent Reliability、Reasoning + RL、Voice AI、Generative Media、Infrastructure、Security、Evalsなど18のトラックに拡大。Waymo、Tesla、Googleの基盤モデルを特徴とするRobotics and Autonomyなど、新しい分野にも焦点を当てている。Google DeepMindは、LMArenaのコーディングおよびWeb開発ベンチマークで1位を獲得したGemini 2.5 Pro Preview「I/O edition」を発表した。このモデルは、画像からコードへの変換、コードの変換と編集、複雑なエージェントの開発に優れている。OpenAIは、AIコーディングエージェントのスタートアップであるWindsurfを30億ドルで買収することに合意したと報じられている。この買収は、OpenAIの製品開発を加速し、AI能力を強化することを目的としているが、Windsurfのオープンソースエコシステムにおける多様性とオープン性を損なう可能性が懸念されている。Lightricksは、マルチスケールレンダリングと高速推論を特徴とするオープンソースの13Bパラメータ動画生成モデル「LTXV 13B」をリリースした。このモデルは、同等のモデルよりも約30倍高速で、キーフレーミング、カメラ/シーン/キャラクターの動き、マルチショットシーケンスなどの高度な制御をサポートしている。Absolute Zero Reasoner (AZR)は、言語モデルが自身の学習を最適化するためにタスクを自己生成し、コード実行環境で自動的に報酬を検証する新しいパラダイムを導入した。これにより、人間がキュレーションした外部データが不要になり、コーディングと数学的推論のベンチマークで最先端の結果を達成している。
- 2025年5月6日(火)Google、WebDev Arenaで首位獲得の「Gemini 2.5 Pro」アップデート版をリリースGoogleは、マルチモーダルな画像からコードへの変換機能を強化し、WebDev Arena LeaderboardでClaude 3.7 Sonnetを凌駕する「Gemini 2.5 Pro」のアップデート版をリリースしました。このアップデートは、Google I/Oに先駆けて行われ、実際のコーディング能力が大幅に向上しています。Nvidia、効率的な推論モデル「Llama-Nemotron」をHugging Faceで公開Nvidiaは、効率的な推論と推論能力で知られる「Llama-Nemotron」モデルファミリーをHugging Faceで公開しました。このモデルは、エンタープライズ利用向けのオープンライセンスで提供され、AI分野における推論能力の向上に貢献します。Alibaba、0.6Bから235Bまでの「Qwen3」モデルファミリーを発表Alibabaは、0.6Bから235Bまでの幅広いパラメータを持つ「Qwen3」モデルをリリースしました。これには、密なモデルとMoE(Mixture of Experts)モデルの両方が含まれ、多様なAIアプリケーションに対応します。François Chollet、TPU最適化のレコメンダーシステムライブラリ「KerasRS」をリリースFrançois Cholletは、JAX、PyTorch、TensorFlowと互換性があり、TPUに最適化された新しいレコメンダーシステムライブラリ「KerasRS」をリリースしました。これにより、レコメンダーシステムの構築が容易になります。Lightricks、高速ビデオ生成モデル「LTXV 13B」をオープンソースで公開Lightricksは、オープンソースの13Bパラメータビデオ生成モデル「LTXV 13B」をリリースしました。このモデルは、マルチスケールレンダリングにより、同等のモデルよりも約30倍高速なビデオ生成を可能にし、商用利用も可能です。
- 2025年5月5日(月)OpenAIがWindsurfを30億ドルで買収、Cursorが90億ドル評価で9億ドル調達OpenAIは、AIスタートアップのWindsurfを30億ドルで買収する交渉を最終段階に入っており、Cursorは90億ドルの評価額で9億ドルの資金調達を完了したと報じられています。これは、AI業界における大規模な買収と資金調達の動きを示しています。NVIDIAがLlama-Nemotronシリーズを発表、推論能力と効率性を強調NVIDIAは、8Bから253BパラメータまでのLlama-Nemotronシリーズを発表しました。これらのモデルは、推論能力と効率性に優れており、特にLN-Ultraは2025年4月時点で最もインテリジェントなオープンモデルとされています。AlibabaがQwen3ファミリーをリリース、コーディングと数学で高評価Alibabaは、600Mから235BパラメータまでのQwen3ファミリーをリリースしました。これには2つのMoEモデルと6つの高密度モデルが含まれ、Qwen3-235B-A22Bはコーディングと数学のベンチマークで高い評価を得ています。Microsoftが推論特化型Phi-4モデルを発表、OpenAIのo1-miniを凌駕Microsoftは、推論に特化したPhi-4モデルをリリースしました。特に14BパラメータのPhi-4-reasoningは、OpenAIのo1-miniを上回る性能を示しています。DeepSeekが数学的推論AI「Prover-V2」をオープンソース化DeepSeekは、非公式な数学的推論と定理証明を組み合わせたオープンソースAI「Prover-V2」を発表しました。これはMiniF2F-testで88.9%の合格率を達成しています。