AI News Hub
AIの重要ニュース・話題を一目でチェック- 2025年5月2日(金)Qwen3モデル、量子化バージョンをリリース - コーディング能力に期待Qwenモデルファミリーは、Qwen3モデルの量子化バージョン(14B、32B、235Bパラメータ)をリリースしました。特にQwen3-235Bはコーディング能力に優れていると評価されています。Microsoft、Phi-4-reasoningを発表 - 小規模ながら高性能MicrosoftはOpenAIのo3-miniから蒸留された14Bパラメータモデル「Phi-4-reasoning」を発表しました。教師ありファインチューニングと強化学習を重視し、一部のベンチマークでより大規模なモデルを上回る性能を示しています。CohereのCommand A、SQL性能でトップにCohereの生成モデル「Command A」が、SQLのBird Benchリーダーボードで最高スコアを獲得しました。これは、大規模なスキャフォールディングに依存するシステムを上回る結果です。Google、動画生成評価TRAJANとGemini互換性レイヤーを更新Googleは動画生成の temporal consistency を評価する新しい評価指標「TRAJAN」を導入し、GeminiのOpenAI互換性レイヤーを更新しました。Inception Labs、高速な拡散LLM APIをリリースInception Labsは、オートレグレッシブモデルよりも5倍高速な拡散LLM APIをリリースしました。出力トークン生成の並列化が主要な利点とされています。
- 2025年5月1日(木)Microsoft、推論モデル「Phi-reasoning 4」を発表MicrosoftがPhi-reasoning 4(14B)をリリース。データ透明性とトークン効率に課題があるものの、Qwenをわずかに下回る性能。Anthropic、Claudeに新機能追加AnthropicがClaudeにリモートMCPサーバーサポートと45分のリサーチモードを導入。Alibaba、Qwen3シリーズを発表AlibabaがQwen3-235Bおよびその他のQwen3派生モデルを発表。Together AI APIで利用可能で、手頃な価格のコーディングと推論機能が特徴。DeepSeek、数学特化型モデル「Prover V2」をリリースDeepSeekがDeepSeek-Prover V2を発表。最先端の数学問題解決能力を持ち、671Bパラメータにスケールアップ。Meta AI、Llamaモデルが12億DL突破Meta AIのLlamaモデルが12億ダウンロードを達成。Llama Guard 4とPrompt Guard 2を新たにリリースし、入力/出力フィルタリングとジェイルブレイク防止を強化。
- 2025年4月30日(水)ChatGPTの「GlazeGate」問題、OpenAIが公式に撤回OpenAIは、物議を醸したChatGPTのアップデート後、ユーザーからの短期的なフィードバックに注力しすぎたことを認め、公式に撤回しました。これは、モデルのチューニングが予期せぬ動作を引き起こすリスクを示しています。LMArenaの公平性に疑問符、Cohereの研究者が批判論文を発表Cohereの研究者たちは、LMArenaがOpenAI、DeepMind、X.ai、Meta AI Fairなどの大手企業に有利な不公平な慣行を行っていると批判する論文を発表しました。これにより、LMArenaのリーダーボードの公平性に対する懸念が高まっています。Alibaba、高性能な多言語対応AIモデル「Qwen3ファミリー」をリリースAlibabaがQwen3ファミリーをリリースしました。最大235B MoEのモデルを含み、119言語をサポートし、36兆トークンで学習されています。vLLMやllama.cppなどのツールに統合され、高い性能と多言語対応が注目されています。Meta、オープンソースAI促進のためのLlama Impact Grants受賞者を発表Metaは、オープンソースAIのイノベーションを促進するため、第2回Llama Impact Grantsの受賞者を発表しました。これにより、オープンソースAIコミュニティの発展が期待されます。AIモデルのベンチマーク公平性に懸念、リーダーボードの過学習が問題にAI Twitterでは、リーダーボードの過学習とモデルベンチマークの公平性に関する懸念が議論されています。特に、LMArenaのリーダーボードの限界が指摘され、より信頼性の高い評価方法が求められています。
- 2025年4月29日(火)Meta、LlamaConでAI開発者プラットフォームを発表MetaはLlamaConでAI開発者プラットフォームを発表しました。このプラットフォームは、CerebrasとGroqのハードウェアを活用したファインチューニングと高速推論を提供しますが、現在はウェイティングリスト制です。Alibaba、Qwen3シリーズのLLMをリリースAlibabaはQwen3シリーズのLLMをリリースしました。これには2つのMoEモデルと6つの高密度モデル(0.6Bから235Bパラメータ)が含まれます。フラッグシップモデルのQwen3-235B-A22Bは、競合するベンチマーク結果を達成し、119の言語と方言をサポートしています。Qwen3モデル、コーディングとエージェント機能に最適化Qwen3モデルは、コーディングとエージェント機能に最適化されており、Apache 2.0ライセンスで提供されます。vLLM、Ollama、llama.cppなどのツールを使用したローカルでの利用も広くサポートされています。Qwen3、OpenAIのo3-miniを凌駕する性能コミュニティのフィードバックでは、Qwen3の拡張可能なパフォーマンスと、OpenAIのo3-miniなどのモデルに対する優位性が強調されています。Google DeepMind、Gemini 2.5 Proのデモを公開Google DeepMindはGemini 2.5 Proのデモを公開し、強化学習アルゴリズムのコーディング、ライブでのトレーニング可視化、エラーデバッグの能力を示しました。