AI News Hub

AIの重要ニュース・話題を一目でチェック

AIニュース速報：OpenAIのCodex、GoogleのAlphaEvolve、SalesforceのBLIP3-o、Qwenの並列スケーリング法則、LLMのマルチターン会話での性能劣化
2025年5月16日(金)
OpenAI、クラウドSWEエージェント「Codex」を発表
OpenAIがクラウドベースのソフトウェアエンジニアリングエージェント「Codex」をChatGPT Pro、Enterprise、Teamユーザー向けに研究プレビューとしてリリースしました。Codexは、コードのリファクタリング、バグ修正、ドキュメント作成などを並行して実行できます。また、低遅延のコードQ&Aおよび編集に最適化された新モデル「codex-mini」を搭載したCodex CLIも強化されました。
Google DeepMind、AlphaEvolveで新たな数学的発見とコスト削減を実現
Google DeepMindのAlphaEvolveがGemini 2.0を活用し、新たな数学的発見を達成しました。これにより、強化学習なしでGeminiのコストを1%削減できることが示されました。
Salesforce、オープンなマルチモーダルモデル「BLIP3-o」をリリース
Salesforceが、拡散トランスフォーマーを用いてCLIP画像特徴を生成する新しいアプローチを採用した、完全にオープンな統合マルチモーダルモデルファミリー「BLIP3-o」をリリースしました。
Qwen、言語モデルの並列スケーリング法則を発表
Qwenが、言語モデルの並列スケーリング法則を導入しました。これは、Classifier-Free Guidance (CFG) から着想を得ており、Pストリームへの並列化がモデルパラメータをO(log P)でスケーリングすることを示唆しています。
LLMのパフォーマンス、マルチターン会話で劣化の傾向
新しい研究論文によると、LLMのパフォーマンスは、信頼性の低下によりマルチターン会話で劣化することが判明しました。
AI進化と課題：DeepMindのAlphaEvolve、OpenAIのGPT-4.1、LLMのマルチターン会話の課題
2025年5月15日(木)
DeepMindのAlphaEvolve、Gemini 2.0で新数学を発見し、AIトレーニングコストを削減
DeepMindが開発したAlphaEvolveは、Gemini 2.0を搭載したアルゴリズム発見のためのコーディングエージェントです。行列乗算アルゴリズムの高速化、未解決の数学問題の解決、データセンターとAIトレーニングの効率向上を実現します。特にGeminiトレーニングではカーネル速度が23%向上し、データセンターとAIトレーニングの総コストを1%削減しました。強化学習とは異なり、モデルの重みではなくコードを最適化します。
OpenAI、GPT-4.1とGPT-4.1 miniをリリース、安全性評価ハブと考古学チャレンジも発表
OpenAIはChatGPTにGPT-4.1をリリースしました。これはコーディングタスクと指示追従に特化しており、GPT-4o miniを置き換える高速な代替モデルであるGPT-4.1 miniも提供されます。また、モデルの安全性評価のためのSafety Evaluations Hubと、考古学的遺跡発見のためのOpenAI to Z Challengeも発表しました。
UnslothがTTSファインチューニングをサポート、llama.cppにPDF入力統合、LLMのマルチターン会話に課題
Unslothは、Text-to-Speech (TTS) モデルの効率的なファインチューニングをサポートし、約1.5倍の高速トレーニングと50%のVRAM削減を実現しました。llama.cppにはPDF入力サポートが統合され、LLMのマルチターン会話における性能低下が指摘されています。
Nous Researchが分散型事前学習を開始、SalesforceがBLIP3-oマルチモーダルモデルをリリース
Nous Researchは、分散型事前学習実行を開始し、40BパラメータのDeepseekライクなモデルを20兆トークン以上でトレーニングしています。Salesforceは、セマンティックにリッチなCLIP画像特徴を生成するBLIP3-oマルチモーダルモデルファミリーをリリースしました。
LLM、マルチターン会話で性能が大幅低下
LLMがマルチターン会話で性能が著しく低下することが研究で示されました。特に指示が分割されている場合に顕著で、初期の誤解から回復できない傾向があります。これは、単一ターンベンチマークでは捉えられない課題です。
AI業界の最新動向：モデル進化、アルゴリズム発見、情報アクセスの変化
2025年5月14日(水)
OpenAIがGPT-4.1をリリース、コーディングと指示理解を強化
OpenAIは、ChatGPTのPlus、Pro、Teamユーザー向けにGPT-4.1をリリースしました。これは、コーディングタスクと指示の理解に特化しており、GPT-4o miniを置き換えるものです。
Anthropicが新Claudeモデルを発表、推論能力に期待
Anthropicは、Claude OpusとClaude Sonnetのリリースを控えており、特にClaude Opusは高度な推論能力を持つと期待されています。しかし、Claude O3には幻覚に関する批判もあります。
AlibabaがQwen3テクニカルレポートを公開、Seed1.5-VLがSOTA達成
AlibabaはQwen3テクニカルレポートを公開し、Seed1.5-VLが60のVLMベンチマーク中38でSOTAを達成したことを報告しました。
Google DeepMindがAlphaEvolveを発表、アルゴリズム発見を自動化
Google DeepMindは、Geminiを活用したコーディングエージェント「AlphaEvolve」を発表しました。これは、アルゴリズムの発見と最適化を自動化し、行列乗算カーネルの速度を23%向上させ、Geminiモデルのトレーニング時間を1%削減しました。
ChatGPTがウェブトラフィックで急上昇、新たな情報インターフェースに
ChatGPTは、昨年15位だったウェブサイト訪問数ランキングで5位に急上昇し、従来のウェブ検索に代わる主要な情報インターフェースになりつつあります。
AI業界の最新動向：モデル性能向上と新ベンチマークの登場
2025年5月13日(火)
TencentのHunyuan-Turbos、LMArenaで8位に浮上
TencentのHunyuan-TurbosがLMArenaリーダーボードで8位にランクインし、2月以降大幅な改善を見せ、主要カテゴリで高いパフォーマンスを発揮しています。
OpenAI、医療AI評価の新ベンチマーク「HealthBench」を発表
OpenAIが250人以上の医師の協力を得て開発した新しい医療評価ベンチマーク「HealthBench」を発表しました。o3、GPT-4.1 nano、Grok 3などのモデルが好成績を収めています。
ByteDance、高性能ビジョン言語モデル「Seed1.5-VL」をリリース
ByteDanceが、5億3200万パラメータのビジョンエンコーダと200億アクティブパラメータのMoE LLMを搭載したビジョン言語モデル「Seed1.5-VL」をリリースしました。38の公開ベンチマークでSOTAを達成しています。
Kling 2.0が画像から動画生成のトップに、Gemini 2.5 Proは動画理解で優位性を示す
Kling 2.0が画像から動画生成モデルのトップに立ち、Veo 2とRunway Gen 4を上回る性能を示しています。Gemini 2.5 Proは、高度なマルチモーダル機能で動画理解に優れています。
Qwen3モデルファミリー、効率的なパラメータ使用で高い知能を発揮
Qwen3モデルファミリー、特にQwen3 235B-A22B (Reasoning)モデルは、220億のアクティブパラメータで2350億の総パラメータを持ちながら、高い知能と効率的なパラメータ使用で注目されています。
AI業界の主要な進展：分散型AI、新モデル、効率化技術が続々登場
2025年5月12日(月)
Prime Intellect、分散型AIトレーニングフレームワーク「INTELLECT-2」を発表
Prime Intellectが分散型GPUトレーニングと強化学習フレームワーク「INTELLECT-2」をリリースしました。これは、世界中の余剰GPUを活用し、コロケーションの制限を克服する分散型AIトレーニングのビジョンを掲げています。技術レポート、QwQファインチューン、RLフレームワークなど、多角的なアプローチで分散型AIの可能性を示しています。
ByteDance、画像カスタマイズ統合モデル「DreamO」をHugging Faceでリリース
ByteDanceが画像カスタマイズのための統合モデル「DreamO」をHugging Faceで公開しました。ID、IP、試着、スタイルといった多様なタスクに対応し、軽量かつ高性能な単一モデルで実現しています。
Qwen、量子化最適化モデルをリリースし、オープンソース展開を強化
QwenがGPTQ、GGUF、AWQといった量子化に最適化されたモデルをリリースしました。これにより、Ollama、LM Studio、SGLang、vLLMなどのオープンソースプラットフォームでの展開が容易になります。
Meta、言語モデル効率化と推論強化のための新モデルウェイトを公開
Metaが、言語モデルの効率と推論能力を向上させるための「Dynamic Byte Latent Transformer」（8Bパラメータ）と「Collaborative Reasoner」フレームワークのモデルウェイトを公開しました。
Mistral AI、マルチモーダルモデル「Mistral Medium 3」とビジネス向けAIアシスタント「Le Chat Enterprise」を発表
Mistral AIが、強力なマルチモーダルAIモデル「Mistral Medium 3」と、ビジネス向けエージェントAIアシスタント「Le Chat Enterprise」をリリースしました。Le Chat EnterpriseはGoogle Drive連携やエージェント構築ツールを備えています。
AIモデルの進化とコスト、新機能の動向
2025年5月9日(金)
Gemini 2.5 Flash、性能向上もコストが150倍に
GoogleのGemini 2.5 Flashは、AI分析インデックスで12ポイントの向上を見せたものの、Gemini 2.0 Flashと比較して出力トークンが9倍高価で、推論時のトークン使用量が17倍多いため、コストが150倍になることが報告されています。これにより、特定のユースケースでのアップグレードの費用対効果が問われています。
Mistral Medium 3、低価格で高性能を実現
Mistral Medium 3は、Llama 4 Maverick、Gemini 2.0 Flash、Claude 3.7 Sonnetと競合し、コーディングと数学的推論において優れた性能を示しています。価格も100万入力トークンあたり0.4ドル、出力トークンあたり2ドルと大幅に低く設定されています。
Alibaba、多言語対応のQwen3モデルファミリーを発表
AlibabaのQwen3ファミリーは、8つのオープンな大規模言語モデルで構成され、オプションの推論モードと119言語での多言語機能をサポートしています。推論、コーディング、関数呼び出しタスクで優れた性能を発揮し、Web Devツールも搭載しています。
OpenAI、o4-miniで強化学習ファインチューニングを導入
OpenAIのo4-miniは、思考連鎖推論とタスク固有のグレーディングを用いた強化学習ファインチューニング（RFT）をサポートするようになりました。これにより、モデルのパフォーマンス向上が期待されます。
Microsoft、X-REASONERで汎用推論を強化
MicrosoftのX-REASONERは、汎用ドメインテキストで後学習されたビジョン言語モデルで、モダリティを横断した汎用的な推論を可能にします。ChatGPTのGitHubリポジトリとの連携により、コードベースの検索とレポート作成が強化されました。
AI業界の最新動向：OpenAIの新機能、NVIDIAのオープンソースモデル、Mistralの競争力、Google Geminiの進化、そしてSOTA達成のAZR
2025年5月8日(木)
OpenAI、強化学習によるファインチューニングとGitHubリポジトリの深層調査を発表
OpenAIがReinforcement FinetuningとGitHubリポジトリのDeep Researchを公開しました。これはCognitionのDeepWikiと比較されています。
NVIDIA、Open Code Reasoningモデルをオープンソース化、性能と効率を向上
NVIDIAがOpen Code Reasoningモデル（32B、14B、7B）をApache 2.0ライセンスでオープンソース化しました。これらのモデルはLiveCodeBenchでO3 mini & O1 (low)を上回り、トークン効率が30%向上しています。
Mistral Medium 3、競合モデルに匹敵する性能と低価格を実現
Mistral Medium 3は、Llama 4 Maverick、Gemini 2.0 Flash、Claude 3.7 Sonnetに匹敵する性能を持ち、特にコーディングと数学的推論で大幅な改善が見られます。価格も大幅に低くなっていますが、オープンソースではありません。
Google Gemini 2.5 Pro、コーディング能力向上もFlash版はコスト増
GoogleのGemini 2.5 Proは、同社で最もインテリジェントなモデルであり、シンプルなプロンプトからのコーディング能力が向上しています。しかし、Gemini 2.5 Flashは、トークン使用量とコストの増加により、Gemini 2.0 Flashと比較して150倍のコスト増となっています。
AZR、コーディングと数学的推論でSOTA達成、AppleとNvidiaも新モデル発表
Absolute Zero Reasoner (AZR)は、外部データなしに強化学習による自己対戦を通じてコーディングと数学的推論でSOTA性能を達成しました。また、Apple ML researchはiPhone上で動作するFastVLMをリリースし、NvidiaのParakeet ASRモデルはHugging Face ASRリーダーボードでトップを獲得しました。
AI業界の主要な進展：イベント拡大、新モデル、買収、自己改善型AI
2025年5月7日(水)
AI Engineer World's Fair 2025が規模を拡大、新トラックとRobotics and Autonomyを追加
2025年のAI Engineer World's Fairは、Retrieval + Search、GraphRAG、RecSys、SWE-Agents、Agent Reliability、Reasoning + RL、Voice AI、Generative Media、Infrastructure、Security、Evalsなど18のトラックに拡大。Waymo、Tesla、Googleの基盤モデルを特徴とするRobotics and Autonomyなど、新しい分野にも焦点を当てている。
Google、Gemini 2.5 Pro Preview「I/O edition」を発表 - コーディングとWeb開発でLMArenaのトップに
Google DeepMindは、LMArenaのコーディングおよびWeb開発ベンチマークで1位を獲得したGemini 2.5 Pro Preview「I/O edition」を発表した。このモデルは、画像からコードへの変換、コードの変換と編集、複雑なエージェントの開発に優れている。
OpenAI、AIコーディングエージェントのWindsurfを30億ドルで買収か - エコシステムへの影響に懸念
OpenAIは、AIコーディングエージェントのスタートアップであるWindsurfを30億ドルで買収することに合意したと報じられている。この買収は、OpenAIの製品開発を加速し、AI能力を強化することを目的としているが、Windsurfのオープンソースエコシステムにおける多様性とオープン性を損なう可能性が懸念されている。
Lightricks、高速動画生成モデル「LTXV 13B」をオープンソースでリリース
Lightricksは、マルチスケールレンダリングと高速推論を特徴とするオープンソースの13Bパラメータ動画生成モデル「LTXV 13B」をリリースした。このモデルは、同等のモデルよりも約30倍高速で、キーフレーミング、カメラ/シーン/キャラクターの動き、マルチショットシーケンスなどの高度な制御をサポートしている。
Absolute Zero Reasoner、自己改善型AIの新たなパラダイムを提示 - データ不要でSOTA達成
Absolute Zero Reasoner (AZR)は、言語モデルが自身の学習を最適化するためにタスクを自己生成し、コード実行環境で自動的に報酬を検証する新しいパラダイムを導入した。これにより、人間がキュレーションした外部データが不要になり、コーディングと数学的推論のベンチマークで最先端の結果を達成している。
AI業界の最新動向：Google、Nvidia、Alibabaが新モデルを発表、高速ビデオ生成も登場
2025年5月6日(火)
Google、WebDev Arenaで首位獲得の「Gemini 2.5 Pro」アップデート版をリリース
Googleは、マルチモーダルな画像からコードへの変換機能を強化し、WebDev Arena LeaderboardでClaude 3.7 Sonnetを凌駕する「Gemini 2.5 Pro」のアップデート版をリリースしました。このアップデートは、Google I/Oに先駆けて行われ、実際のコーディング能力が大幅に向上しています。
Nvidia、効率的な推論モデル「Llama-Nemotron」をHugging Faceで公開
Nvidiaは、効率的な推論と推論能力で知られる「Llama-Nemotron」モデルファミリーをHugging Faceで公開しました。このモデルは、エンタープライズ利用向けのオープンライセンスで提供され、AI分野における推論能力の向上に貢献します。
Alibaba、0.6Bから235Bまでの「Qwen3」モデルファミリーを発表
Alibabaは、0.6Bから235Bまでの幅広いパラメータを持つ「Qwen3」モデルをリリースしました。これには、密なモデルとMoE（Mixture of Experts）モデルの両方が含まれ、多様なAIアプリケーションに対応します。
François Chollet、TPU最適化のレコメンダーシステムライブラリ「KerasRS」をリリース
François Cholletは、JAX、PyTorch、TensorFlowと互換性があり、TPUに最適化された新しいレコメンダーシステムライブラリ「KerasRS」をリリースしました。これにより、レコメンダーシステムの構築が容易になります。
Lightricks、高速ビデオ生成モデル「LTXV 13B」をオープンソースで公開
Lightricksは、オープンソースの13Bパラメータビデオ生成モデル「LTXV 13B」をリリースしました。このモデルは、マルチスケールレンダリングにより、同等のモデルよりも約30倍高速なビデオ生成を可能にし、商用利用も可能です。
AI業界の大型M&Aと新モデル発表が加速、倫理と社会影響への議論も活発化
2025年5月5日(月)
OpenAIがWindsurfを30億ドルで買収、Cursorが90億ドル評価で9億ドル調達
OpenAIは、AIスタートアップのWindsurfを30億ドルで買収する交渉を最終段階に入っており、Cursorは90億ドルの評価額で9億ドルの資金調達を完了したと報じられています。これは、AI業界における大規模な買収と資金調達の動きを示しています。
NVIDIAがLlama-Nemotronシリーズを発表、推論能力と効率性を強調
NVIDIAは、8Bから253BパラメータまでのLlama-Nemotronシリーズを発表しました。これらのモデルは、推論能力と効率性に優れており、特にLN-Ultraは2025年4月時点で最もインテリジェントなオープンモデルとされています。
AlibabaがQwen3ファミリーをリリース、コーディングと数学で高評価
Alibabaは、600Mから235BパラメータまでのQwen3ファミリーをリリースしました。これには2つのMoEモデルと6つの高密度モデルが含まれ、Qwen3-235B-A22Bはコーディングと数学のベンチマークで高い評価を得ています。
Microsoftが推論特化型Phi-4モデルを発表、OpenAIのo1-miniを凌駕
Microsoftは、推論に特化したPhi-4モデルをリリースしました。特に14BパラメータのPhi-4-reasoningは、OpenAIのo1-miniを上回る性能を示しています。
DeepSeekが数学的推論AI「Prover-V2」をオープンソース化
DeepSeekは、非公式な数学的推論と定理証明を組み合わせたオープンソースAI「Prover-V2」を発表しました。これはMiniF2F-testで88.9%の合格率を達成しています。

前へ5 / 6次へ

トップに戻る