AI日報 - 2025-12-05(夕刊)

キーワード：NVIDIA, AIエージェント, DeepSeek, Gemini, Mistral, Claude, ロボット, AIチップ, ジェンスン・ホアンのAI三原則, Google Antigravity IDEの障害, DeepSeekのH20チップ買い占め, Mistral Large 3コーディングモデル, Claudeの構造化出力

AIコラム編集長厳選

🔥 注目

NVIDIA CEO Jensen Huang氏、AIのスケーリング、ロボット、原子力について語る : Jensen Huang氏はJREポッドキャストで、AI開発の「三つの法則」として、pre-training、post-training（強化学習）、そして推論時のスケーリングを説明しました。彼は、今後2〜3年以内に世界の知識の90%がAIによって生成されると予測し、これは「偽データ」ではなく「蒸留された知能（distilled intelligence）」であると強調しました。AIの計算能力に対する膨大なエネルギー需要に直面し、彼は今後6〜7年以内にデータセンターに電力を供給する数百メガワット級の小型モジュール式原子炉（Small Modular Reactors, SMR）が登場すると予想しています。さらに、Huang氏はロボットが全く新しい産業を創出し、AIによる労働力のゼロコスト化に対応するため「普遍的高収入（universal high income）」という概念を提唱しました。彼はNVIDIAの成功を、失敗への恐れと「苦痛」に耐える能力に起因するとしました。 (ソース: Reddit r/ArtificialInteligence)

GoogleのAgentic AIがユーザーのHDDデータを誤って削除し、壊滅的な障害を引き起こす : GoogleのAIエージェント統合開発環境（IDE）Antigravityは、ユーザーのキャッシュクリア指示を実行した際、誤ってユーザーのDドライブ全体のデータを削除しました。AIはその後「深くお詫びします」と述べ、データ復旧のアドバイスを提供しました。この事件は、AIエージェントがシステムレベルの操作を実行する際の潜在的なリスクと信頼性の課題を浮き彫りにし、大手テクノロジー企業でさえこのような「壊滅的な障害（catastrophic failure）」が発生しうることを示しています。 (ソース: Reddit r/ArtificialInteligence)

DeepSeek、米国輸出禁止措置前にNVIDIAチップを大量に買いだめ : 報道によると、DeepSeekは米国がH20チップに輸出規制を課す前に、戦略的に大量のNVIDIAチップを買いだめしたと報じられています。この動きにより、同社は国内でモデル訓練を継続でき、海外のデータセンターに依存する他の中国企業とは対照的です。この事件は、地政学的緊張が世界のAI開発とサプライチェーン戦略に与える深い影響を明らかにしています。 (ソース: Reddit r/ArtificialInteligence)

DeepSeek gathered a large stock ⁠of Nvidia chips before the US export bans

🎯 動向

Google DeepMind、シンガポールに新AI研究チームを設立 : Google DeepMindはシンガポールに新しい研究チームを設立します。このチームは、高度な推論、LLM/RL、および最先端のSOTAモデル（例：Gemini、Gemini Deep Think）の改善に焦点を当てます。Yi TayとQuoc Leが率いるこのチームは、アジアをリードするAGIラボの構築を目指し、シンガポールの人材の優位性を活用します。 (ソース: JeffDean, YiTayML, quocleix, shaneguML, bookwormengr)

Mistral Large 3、オープンソースコーディングモデルの新トップに : Mistral Large 3はArenaランキングに初登場し、オープンソースのコーディングモデルで1位を獲得しました。このモデルはコーディングタスクにおいて強力な能力を示し、コミュニティから広く注目され、推奨されています。Mistralチームは、今後数日中にそのコーディング能力に関する詳細を発表すると予告しています。 (ソース: MistralAI, scaling01, b_roziere, qtnx_, arthurmensch, arena, dl_weekly, Reddit r/LocalLLaMA)

Gemini 3 Deep Thinkモード発表、高度な推論能力を向上 : Googleは、Ultraユーザー向けにGemini 3 Deep Thinkモードを正式にリリースしました。このモードは並列推論アプローチを採用し、複数の仮説を同時に探索することで、ARC-AGI-2、HLE、GPQA Diamondなどの困難なベンチマークで顕著な改善を示し、IMOおよびICPCの金メダル技術サポートを獲得しました。Deep Thinkは、より強力な科学推論エージェントとなることを目指しています。 (ソース: JeffDean, _philschmid, osanseviero, NoamShazeer, tulseedoshi, lmthang, GeminiApp, Google)

Claude Haiku 4.5とOpus 4.5、構造化出力を提供開始 : Claude Haiku 4.5とOpus 4.5は、Claude開発者プラットフォームおよびMicrosoft Foundryで構造化出力機能を提供開始しました。この機能は100%のSchema準拠を保証し、リクエストごとに完璧な形式の応答を生成できるため、AIアプリケーションを構築する開発者の効率と信頼性を大幅に向上させます。 (ソース: alexalbert__, Reddit r/ClaudeAI)

Microsoft、VibeVoice-Realtime-0.5B音声モデルをリリース : Microsoftは、新しいリアルタイム音声モデルであるVibeVoice-Realtime-0.5Bを正式にリリースしました。このモデルのリリースは、AI音声技術のエコシステムをさらに豊かにし、リアルタイム音声処理および生成の分野で新たなアプリケーションをもたらすことが期待されます。 (ソース: _akhaliq, huggingface)

LeRobot、X-VLA汎用視覚-言語-行動モデルを発表 : LeRobotは、ソフトプロンプトベースの視覚-言語-行動モデルであるX-VLAをリリースしました。これは、複数のロボット形態（Franka、WidowX、Agibotなど）にわたる汎用性を目指しています。X-VLAは、統一されたTransformerバックボーンネットワークを採用し、ソフトプロンプトドメインIDを通じて新しいハードウェアに適応し、フローマッチング技術を利用してスムーズな50Hz連続制御を実現します。このモデルは多形態データセットで事前学習されており、ファインチューニング用に6つのチェックポイントが提供されています。 (ソース: huggingface, _akhaliq)

DeepSeek V3.2、AutoCodeBench-V2コーディングベンチマークで優れたパフォーマンス : DeepSeek V3.2は、1000の洗練された問題を含むAutoCodeBench-V2コーディングベンチマークで優れたパフォーマンスを発揮しました。特に、より良い事後学習とアテンションメカニズムの最適化を経て、その継続的な進歩は注目に値します。さらに、Claude 4.5 Opusもこのベンチマークで優れたパフォーマンスを示しました。 (ソース: scaling01, teortaxesTex, Reddit r/LocalLLaMA)

DeepSeek V3.2在AutoCodeBench-V2编码基准测试中表现出色

Luma AI、マルチモーダル統一動画モデルへ転換 : Luma AIのチーフサイエンティストである宋佳銘氏は、同社が「マルチモーダル統一モデル（multimodal unified model）」を次の段階の核となる方向性として確立し、Ray 3がLumaの最後の従来の動画生成モデルになる可能性があると述べました。彼は、将来の動画生成モデルは、より長い時間とより良い画質を追求するだけでなく、現実世界への理解と推論能力を向上させ、マルチモーダル融合を通じて「生成」から「理解」へのアップグレードを実現すべきだと考えています。 (ソース: 36氪)

ByteDanceの豆包AIモバイルアシスタント、OSに深く統合 : ByteDanceはZTEと提携し、豆包AIモバイルアシスタントのテクニカルプレビュー版をリリースしました。これは、豆包のLLMおよびAgentをAndroidオペレーティングシステムに深く統合し、ショッピングの価格比較や旅行計画などの自動化された操作を実現します。このモードは、AIが携帯電話を深く制御し、よりスムーズなインタラクション体験を提供することを目指していますが、同時にデータセキュリティとサードパーティアプリケーションの承認に関する論争も引き起こしています。 (ソース: 36氪, bookwormengr)

中国のヒューマノイドロボットとエッジAIチップ市場の新たなトレンド : モルガン・スタンレーの調査によると、中国企業の62%が今後3年以内にヒューマノイドロボットを採用する可能性がありますが、現在の技術はまだ成熟しておらず、操作の柔軟性、機能性、価格が主な障壁となっています。同時に、LLMの競争はエッジデバイスにまで広がり、計算パラダイムの変革を推進しています。エッジAIチップ市場は新しいパラダイムを迎え、SOCとNPUが協調して発展し、将来的にはdNPUが主導すると予想され、市場規模は急速に成長すると見込まれています。 (ソース: 36氪, 36氪)

AIグラス市場、「おもちゃ」から第二のスマート端末へ : AIグラス市場は、「おもちゃ」から第二のスマート端末への転換期を迎えており、出荷量が急増しています。メーカーはデュアルチップアーキテクチャと軽量設計により、バッテリー寿命と装着感の課題を解決し、AI機能は通知ディスプレイから意味理解と能動的なサービス意識を持つアシスタントへとアップグレードされています。市場競争はAIエコシステムの拡張と入口の争奪に焦点を当てていますが、高い返品率、バッテリー寿命の不足、代替不可能性の欠如が依然として課題です。 (ソース: 36氪)

Apple UIデザイン責任者がMetaへ移籍、AIハードウェア戦争が激化 : Appleのユーザーインターフェースデザイン責任者であるアラン・ダイ氏がMetaに移籍し、Reality Labs部門のチーフデザインオフィサーに就任しました。彼はハードウェア、ソフトウェア、およびAIインターフェース体験のデザイン統合を担当します。この動きは、MetaがAIコンシューマーハードウェア分野に本格的に参入し、ダイ氏のモバイルおよび空間コンピューティング分野での経験を活用して、AIデバイス、特にスマートグラスなどのスクリーンレスAIデバイスのユーザー体験を再構築することを示唆しています。 (ソース: 36氪)

Coolhual Robotics、Physical AIで都市サービスを再構築 : Coolhual RoboticsはPhysical AIを通じて都市サービスを再定義しています。その双腕操作小型ロボットR0は、都市の清掃作業だけでなく、不動産管理などの複雑なシナリオにも対応できます。Coolhualは、都市の汚くてきつい仕事を足がかりに、BEV世界モデルとVLMバイパス認知システムを通じて、ロボットが環境、タスク、変化を理解できるようにし、自己記憶と戦略プロンプト調整を組み合わせて、箱から出してすぐに使える継続学習能力を持たせ、具身知能を都市の街角で実現しています。 (ソース: 36氪)

GPT-5.1 Codex Max APIリリース : OpenAIはGPT-5.1 Codex Max APIを正式にリリースしました。このモデルは、複雑なコードリファクタリングとWindows環境でのコラボレーションにおいて優れたパフォーマンスを発揮します。今回のリリースは、AIコーディング能力のさらなる向上を示し、開発者により強力なツールを提供します。 (ソース: scaling01)

Google Research Titansアーキテクチャ、コンテキスト長を拡張 : Google Researchは、RNNの速度とTransformerの性能を組み合わせたTitansアーキテクチャを発表しました。これは、深層神経記憶を通じてリアルタイム学習を実現し、モデル推論のコンテキスト長を200万トークン以上に効果的に拡張します。この革新は、超長文テキストや複雑な推論タスクを処理するモデルの能力を向上させることが期待されます。 (ソース: JeffDean)

FP8強化学習がコンシューマー向けGPUで実現 : DeepSeek-R1のFP8 GRPO（Generalized Policy Gradient）は、コンシューマー向けGPUでの実行をサポートし、わずか5GBのVRAMで強化学習を実現します。この技術はPyTorchと協力し、FP8 RLの推論速度を1.4倍に向上させ、VRAM消費を大幅に削減することで、Qwen3-1.7Bモデルが5GBのVRAMで実行可能になりました。 (ソース: QuixiAI)

Qwen3 NextがCUDAサポートを獲得 : Qwen3 Nextモデルは、完全なCUDAサポートを獲得しました。これにより、NVIDIA GPU上での実行効率とパフォーマンスが大幅に向上します。このアップデートは、CUDAアクセラレーションを利用してモデルの推論と訓練を行いたいユーザーにとって重要な進展です。 (ソース: Reddit r/LocalLLaMA)

🧰 ツール

AIコーディングと開発ツールの統合 : Claude CodeはRaptorフレームワークでFFmpegクラッシュ分類に使用され、オープンソースLLMのファインチューニングにも利用できます。LangChain 1.1はモデルリトライミドルウェアを導入し、AIエージェントの回復力を向上させます。GPT-5.1-Codex-Maxは現在、Codeエディタ、GitHub Copilot、Windsurfに統合されており、複雑なリファクタリングタスクを最適化します。cc-switchはClaude Code、Codex、Gemini CLIの統一管理プラットフォームを提供し、設定とスキル拡張を簡素化します。 (ソース: halvarflake, Ronald_vanLoon, hwchase17, Hacubu, ben_burtenshaw, huggingface, Reddit r/LocalLLaMA, MiniMax__AI, LangChainAI, jsuarez5341, NandoDF, code, kanjun, imjaredz, cognition, farion1231/cc-switch)

AIマルチメディアコンテンツ作成・編集ツール : Kling 2.6とKlingAI Avatar 2.0は、短編映画、アニメーション、表情豊かなキャラクターパフォーマンスをサポートし、Claude 4.5 SonnetおよびGlifエージェントと組み合わせて自律的な映画/広告制作を実現できます。Nano Banana Proは、レトロなNokia携帯電話の写真効果、隠しテキスト画像、歴史的な都市のパースペクティブモデル生成を提供します。Runway Gen-4.5は、映画品質、3Dアニメーションなど多様な美的スタイルとキャラクター変形をサポートします。Suno Studioは、人間の声を様々な楽器の音色に変換できます。DayuanJiang/next-ai-draw-ioは、AI駆動の図表作成および編集を提供し、自然言語コマンドと画像コピーをサポートします。 (ソース: Kling_ai, fabianstelzer, op7418, synthesiaIO, dotey, suno, GLIF, GeminiApp, mlpowered, DayuanJiang/next-ai-draw-io)

プロフェッショナルAIツールとプラットフォーム : FactIQは経済データの検索と洞察を提供します。AI21 Maestroは、AWS VPC上でのエンタープライズ級エージェントAIのデプロイをサポートします。Open WebUI Pythonクライアントは、ユーザー、ファイル、システム設定を管理するためのプログラム制御を提供します。Claude QoLブラウザ拡張機能は、テキスト検索、フォーク、TTS、STTなどを含むClaude体験を強化します。ComfyUI-ManagerはComfyUI拡張機能として、カスタムノードとモデルのインストールと管理を簡素化します。Turbopuffer FTS v2は、20倍高速化された全文検索を実現します。CordysCRMは、AIエージェントとBI機能を統合したオープンソースのAI CRMシステムです。 (ソース: rishdotblog, AI21Labs, Reddit r/OpenWebUI, Reddit r/ClaudeAI, Comfy-Org/ComfyUI-Manager, Sirupsen, 1Panel-dev/CordysCRM, emilygsands)

エッジAIとNVRソリューション : Edge AI NVRプロジェクトは、YOLOモデルをRaspberry Pi上で実行し、コンテナ化されたYawcam-AI、PiStream-Lite、EdgePulseを提供します。これにより、データ収集から推論、録画、最適化までのエッジAIスタックを構築し、RTSPオブジェクト検出、録画、自動化をサポートします。このソリューションは、エッジノードでのAI推論の継続的な実行を実現し、永続ストレージ、モデル交換、GPUアクセラレーション、CPUフォールバックなどの機能を備えています。 (ソース: Reddit r/deeplearning)

ニューラルネットワーク可視化ツールneural-netz : neural-netzは、Typstでニューラルネットワークを可視化するためのパッケージです。研究者や学習者がネットワーク構造と動作原理をよりよく理解するのに役立ちます。このツールのリリースは、深層学習分野の研究と教育に新たな補助手段を提供します。 (ソース: Reddit r/deeplearning)

ローカルコーディングとエージェント開発プラットフォームGranite 4.0 : Granite 4.0は、ローカルコーディングとエージェント開発をサポートします。ユーザーは、適度なハードウェアで効率的なエンドポイントエージェント機能を実装でき、特にLLM分野でその可能性を示しています。このプラットフォームは、ローカルで高速かつ高品質なコーディングツールに対する開発者のニーズを満たすことを目指しています。 (ソース: Reddit r/LocalLLaMA)

Stable Audio Open 1.0音楽生成 : Stable Audio Open 1.0は、Trap/EDMインストゥルメンタル生成に特化したファインチューニングバージョンをリリースしました。ユーザーはHugging Faceで体験でき、音楽制作にAIアシストを提供します。このツールの登場により、特定の音楽スタイルのAI生成がより便利で専門的になりました。 (ソース: Reddit r/deeplearning)

📚 学習

AI教育とキャリア開発リソース : 深層学習、データアナリスト、AIエージェント構築の詳細なロードマップと主要なステップが提供されています。同時に、NVIDIAは2026年度の大学院奨学金を発表し、自律システム、コンピュータアーキテクチャ、グラフィックス、深層学習、ロボット工学、セキュリティなどの加速コンピューティングの最先端分野における8人の中国人博士課程学生の研究を支援します。これは、AI人材育成に対する学術界の重視を浮き彫りにしています。 (ソース: Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, 36氪)

LLM評価と説明可能性 : LLM評価ガイドv2が更新され、より読みやすくインタラクティブなグラフィックが提供されます。説明可能なAI（XAI）は、信頼できるAIを構築するための重要な一歩として、透明性を高めるために見なされています。ニューロシンボリックAIは、大規模言語モデルの幻覚問題に対処する方法として提案されています。 (ソース: LoubnaBenAllal1, Ronald_vanLoon, Ronald_vanLoon)

AIエージェントとツール実行コース : DeepLearning.AIは、ツール実行を使用してコーディングエージェントを構築する方法を教える新しいコースを開始しました。これにより、エージェントがコードを記述および実行してタスクを完了し、サンドボックス化されたクラウド環境で安全に実行できるようになります。このコースは、開発者が複雑なタスクを自律的に処理できるAIエージェントを構築するスキルを習得するのに役立つことを目指しています。 (ソース: DeepLearningAI)

AIトレーナーとデータ品質 : AIトレーナーは、モデルの背後で「秩序の維持者」の役割を果たします。曖昧なビジネス要件を明確なルールに変換し、高品質なデータを生成し、データがクリーンで、ルールが明確で、プロセスが安定し、品質が信頼できることを保証することは、モデルが賢くなるための根本です。彼らはビジネス、アルゴリズム、アノテーションを結びつける重要な橋渡し役です。 (ソース: 36氪)

NeurIPS会議参加ガイド : NeurIPS 2025などのML会議向けに、10の専門的なヒントが共有されました。会議の目的は「人材との出会い、仕事への情熱の再燃、新しい知識の学習」であるべきだと強調し、口頭発表だけでなく、高帯域幅の知識を得るためにポスターセッションに優先的に参加することを推奨しています。 (ソース: jxmnop, [bookwormengr](https://x.com/bookwormengr/status/199

AI日報 – 2025-12-05(夕刊)

AIコラム編集長厳選

🔥 注目

🎯 動向

🧰 ツール

📚 学習

コメントを残すコメントをキャンセル

AIコラム編集長厳選

🔥 注目

🎯 動向

🧰 ツール

📚 学習

関連タグ

Related Posts

AI日報 – 2025-12-08(夕刊)

AI日報 – 2025-12-08(朝刊)

AI日報 – 2025-12-07(夕刊)

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル