AI日報 – 2026-01-07(朝刊)

キーワード:AI, 物理AI, 自動運転, NVIDIA Vera Rubin, ボストンダイナミクス Atlas, LFM 2.5

🔥 注目

NVIDIA CES 2026:物理AIの「ChatGPTモーメント」の幕開け : ジェンスン・ファン氏はCES 2026の基調講演で、次世代AIプラットフォームVera RubinとそのFeynmanアーキテクチャを発表し、初の推論ベースの自動運転モデルAlpamayoをリリースした。このモデルは単なる反応に留まらず、人間のドライバーのようにChain of Thought (CoT) を通じて複雑なロングテールシナリオを処理できる。さらに、NVIDIAはCosmos Reason 2などの物理AIモデルを展示し、AIが言語理解から物理世界の理解と安全な操作へと飛躍したことを象徴した。これらの一連の発表は物理AIの金字塔と見なされ、ロボット工学と自動運転が大規模な推論駆動の新段階に入ることを予感させている(ソース:TheTuringPost

英伟达CES 2026

Boston DynamicsとGoogle DeepMindが強力なタッグを組む : Google DeepMindはBoston Dynamicsとの研究パートナーシップを発表し、Geminiマルチモーダル大規模モデルの知覚・推論能力を、新型の全電動Atlasヒューマノイドロボットに統合することを明らかにした。Atlasは現在量産段階に入っており、56の自由度と自動バッテリー交換システムを備え、複雑な産業タスクの実行を目指している。この「最強の脳」と「最強の身体」の結合は、非構造化環境におけるロボットの汎化能力の低さという長年の課題を解決する。最初のフリートは2026年に現代自動車とDeepMindに納入され、実地配備が行われる予定だ(ソース:JeffDean

波士顿动力与谷歌DeepMind合作

Liquid AIがLFM 2.5を発表:オンデバイスAIの演算能力の奇跡 : Liquid AIはCESでLFM 2.5シリーズのマイクロオンデバイス基盤モデルを発表した。このモデルはわずか1B程度のパラメータ規模ながら、28T tokenの膨大な事前学習と多段階の強化学習により、同クラスのモデルを凌駕する指示追従能力とマルチモーダル能力を実現した。LFM 2.5-Audioはエンドツーエンドの音声処理をサポートし、遅延を8倍短縮、スマートフォンのCPU上で直接動作する。また、Liquid AIはZoomとの提携を発表し、インテリジェントエージェントを通信プラットフォームに直接統合する。これはAIがクラウド依存から脱却し、効率的でプライバシーに配慮したローカルエージェントへと進化していることを示している(ソース:Liquid AI

LFM 2.5发布

MiniMax M2.1:国産コーディングエージェントの新たな高み : MiniMaxは、多言語Coding Agentに特化したM2.1モデルを正式に発表した。M2.1はSWE-benchなどの主要ベンチマークで強力なパフォーマンスを示し、5000以上の隔離環境をサポートする高並列サンドボックスインフラを構築することで、コンパイル言語の複雑さとテストエコシステムの多様性の課題を解決した。その核心的な強みは「スキャフォールディングの汎化」にあり、異なる開発フレームワークや長期的な指示に適応できる。MiniMaxが提示した2026年のロードマップによると、今後は開発者体験の知覚報酬と世界モデルのシミュレーションを重点的に攻略し、人間レベルのコード品質の実現を目指す(ソース:ZhihuFrontier

MiniMax M2.1

🎯 動向

OpenAIの核心メンバーJerry Tworek氏が離職 : OpenAIの研究副社長であり、o1およびo3推論モデルのパラダイム責任者であるJerry Tworek氏が離職を発表した。「ポーランド派」のキーマンとして、Tworek氏はCodex、GitHub Copilot、およびGPT-4のコード能力に多大な貢献をしてきた。彼の去就は、OpenAI内部の研究方向の調整やGPT-5の開発スケジュールに関する憶測を呼んでいる。複数の核心技術者が相次いで去る中、OpenAIは人材体制の激しい変動に直面している(ソース:dotey

Jerry Tworek离职

ChatGPTに広告モデル導入の可能性 : OpenAIがChatGPTのインターフェース内に広告を埋め込むことを検討しており、Sam Altman CEOもこれに前向きであると報じられた。計算コストが急増する中、サブスクリプション収入は好調なものの損失は依然として大きく、広告はビジネスのクローズドループを追求するための必然的な選択肢となっている。業界内では、AIが回答の中で提携ブランドを密かに推奨する「生成エンジン最適化(GEO)」を助長し、中立性やユーザーの信頼を損なうのではないかという懸念が広がっている(ソース:36氪

ChatGPT广告

vLLM-Omni v0.12.0rc1リリース:マルチモーダル推論がプロダクション級に : オープンソース推論エンジンvLLMが大型アップデートを実施し、マルチモーダルモデルのプロダクション級の安定性へと重点を移した。新バージョンではTeaCacheやSage Attentionなどの技術を統合して生成速度を大幅に向上させ、画像や音声をネイティブサポートするOpenAI互換インターフェースを提供した。AMD ROCmへの公式サポートを通じて、vLLMはハードウェアの独占をさらに打破し、企業向けマルチモーダルアプリケーションに高性能なオープンソース基盤を提供している(ソース:vllm_project

vLLM更新

Google GeminiがGoogle TVと深く統合 : GoogleはGeminiをテレビの大画面に導入する計画で、自然言語による作品検索、ストーリーの振り返り、曖昧な表現による検索をサポートする。Geminiはテキスト、画像、動画を動的に組み合わせてインタラクティブな「ディープ解析」を提供し、音声によるテレビ設定の最適化も可能にする。この動きは、大規模モデルが家庭用エンターテインメントのインタラクションを再構築し、テレビを単なる再生端末から理解能力を備えたインテリジェントな執事へと進化させることを示している(ソース:op7418

Gemini Google TV

LGがK-EXAONE 236B MoEモデルを発表 : LGは、K-EXAONE 236B(23Bアクティブ)Mixture of Experts (MoE) モデルの技術レポートを公開した。このモデルはわずか11T tokenの学習で、36T tokenで学習されたQwen3に匹敵する性能を達成した。MuonオプティマイザとWSD学習率スケジューリングを採用することで、K-EXAONEは極めて高い学習効率を示し、モデルアーキテクチャと学習戦略の最適化によって、より少ないデータでもSOTA性能を実現できることを証明した(ソース:stochasticchasm

LG K-EXAONE

Mistral OCR 3がドキュメント認識のベンチマークを刷新 : MistralはOCR 3をリリースし、表、手書き文字、複雑なフォームの処理において画期的な進歩を遂げ、認識精度を前世代から74%向上させた。このモデルは現実世界の「ノイズの多いデータ」に対して最適化されており、金融や医療などの業界におけるドキュメントのデジタル化に向けた、より信頼性の高いAIツールを提供している(ソース:dl_weekly

🧰 工具

Claude Code:ターミナル内のプログラミング核兵器 : AnthropicがリリースしたClaude Codeは、開発パラダイムを変えつつある。コマンドラインから直接ローカルファイルを操作し、テストを実行できるだけでなく、プラグインを通じてVS Code内でGeminiとの同時利用も可能だ。コミュニティでは、簡単な設定でClaude CodeがiMessageの履歴を読み取って情報を検索できることも発見された。ファイルシステムとツールチェーンへのこの深い統合能力は、「Vibe Coding」をスローガンから現実に変えようとしている(ソース:imjaredz

Claude Code

KIRA:オープンソースのAI協調作業デスクトップ端末 : 韓国のゲーム大手KRAFTONは、社内で使用しているAIアシスタントKIRAをオープンソース化した。このツールはClaudeモデルをベースにしており、タスクの能動的な提案、競合分析、コードレビュー、PDFエクスポートをサポートする。KIRAはマルチエージェントアーキテクチャを採用しており、Haikuが検知、Opusが複雑なタスクの実行、Sonnetがメモリ管理を担当する。データは完全にローカライズされており、企業に安全で効率的なAIオフィスのテンプレートを提供している(ソース:Reddit

KIRA

Unsloth-MLX:Macユーザー向けのローカル微調整ツール : 開発者がUnsloth-MLXをリリースし、Apple Silicon搭載のMac上でMLXフレームワークを利用して大規模モデルをローカルで微調整できるようになった。Unslothと一貫したAPIを維持し、「ローカルでプロトタイプ開発、クラウドでシームレスにスケーリング」を実現している。これにより、個人開発者がプライベートモデルの微調整を探索するハードルが大幅に下がった(ソース:algo_diver

Unsloth-MLX

SurfSense:オープンソースのナレッジベース対話エンジン : SurfSenseは、NotebookLMやPerplexityのオープンソース代替案を目指している。検索、クラウドストレージ、カレンダー、Notionなど15以上の外部データソースに接続でき、100種類以上の大規模モデルとローカルのvLLM設定をサポートする。核心的な強みは、ロールベースアクセス制御 (RBAC) とブラウザ拡張機能のサポートにあり、チームによる社内知識のリアルタイムな共同管理を容易にする(ソース:Reddit

SurfSense

DFlash:拡散モデルによる大規模モデル推論の加速 : 拡散モデルはもはや画像生成だけに限定されない。DFlashは「ブロック拡散」を通じて投機的サンプリングを実現し、Qwen3-8Bに6.2倍のロスレス加速をもたらした。そのロジックは、拡散モデルを利用してドラフトを高速生成し、自己回帰型の大規模モデルで検証するというものだ。並列性と正確性を兼ね備えたこのソリューションは、LLMの推論スループットを向上させるための新たな道を切り開いた(ソース:algo_diver

Supertonic2:究極に軽量なオンデバイスTTS : Supertonic2は、わずか66Mパラメータのオープンソース音声合成モデルであり、M4 Proチップ上でのリアルタイムファクター (RTF) は驚異の0.006に達する。中国語、英語、フランス語、ポルトガル語、スペイン語の5言語をサポートし、極めて低いメモリ使用量とゼロネットワーク遅延を備えている。モバイル端末やエッジデバイスに高品質な音声機能を統合するための理想的な選択肢である(ソース:Reddit

Supertonic2

Claude for Chrome:クラウドUIオートメーションの新体験 : Claudeのブラウザ拡張機能が、GCPコンソールのような複雑なクラウドプラットフォームのUIを処理する際に卓越したパフォーマンスを示すことが開発者によって発見された。ユーザーは何時間もドキュメントを調べる必要はなく、「ユーザーを追加する方法は?」と尋ねるだけで、Claudeがページ構造を理解して操作をガイドしてくれる。これは、AI Agentが「ダイアログボックス」から「OSレベル」の直接的なインタラクションへと進化していることを予兆している(ソース:hrishioa

📚 学習

Cascade RL:NVIDIAが提案する段階的強化学習フレームワーク : NVIDIAは論文『Cascade RL』において、ドメイン順序に従って推論モデルをトレーニングする新しいパラダイムを提案した。数学、コード、アライメントデータを混ぜてトレーニングする従来の方法と比較して、カスケード式RLは破滅的忘却を効果的に防ぐことができる。その14Bモデルは、コードコンテストにおいてパラメータ数が84倍大きいDeepSeek-R1-0528をも凌駕し、構造化された強化学習が推論効率を向上させる大きな可能性を証明した(ソース:omarsar0

Cascade RL

Recursive Language Models (RLM):コンテキスト制限を突破する新戦略 : 長いプロンプトを外部環境と見なし、LLMがプログラム的に自身を検査、分解、再帰的に呼び出してセグメントを処理することを可能にする論文が発表された。RLMはモデル本来のウィンドウサイズを2桁上回る入力を処理でき、長文タスクにおけるパフォーマンスは従来の長文コンテキスト手法を遥かに凌駕しつつ、低いクエリコストを維持している(ソース:yacinelearning

RLM

Falcon-H1R:7Bパラメータモデルの推論限界 : この研究は、精緻なデータクリーニングとターゲットを絞ったRLスケーリングを通じて、7Bの小型モデル (SLM) でも推論タスクにおいて2〜7倍大きなモデルに匹敵、あるいは凌駕できることを示した。Falcon-H1Rは混合並列アーキテクチャを組み合わせており、リソースが限られた環境で高度な推論システムを導入するための実行可能なソリューションを提供している(ソース:HuggingFace

Project Ariadne:AIエージェントの「推論劇場」を監査する : CoT(思考の連鎖)に「事後的な正当化」が存在するかという問題に対し、Project Ariadneは構造的因果モデル (SCM) を導入して監査を行った。研究の結果、事実や科学の分野において、エージェントには深刻な「因果のデカップリング」現象が存在することが判明した。つまり、内部ロジックが干渉されても同じ結論を導き出せるということであり、これはモデルが生成する推論プロセスが、時として誤解を招く「演技」に過ぎないことを開発者に警告している(ソース:HuggingFace

2026年版AIエンジニア究極のロードマップ : コミュニティによって、Pythonのメモリ管理、数学の基礎、ベクトルデータベースから最新のRAGアーキテクチャやAgent開発までを網羅した詳細なAIエンジニアの成長パスがまとめられた。このロードマップは「エンジニアリング+応用研究」の二重の思考を強調しており、Andrej Karpathy氏などの著名な講師による古典的なコースも推奨されている。初心者から上級者まで体系的に学習するための権威あるガイドとなっている(ソース:Reddit

AI路线图

Value Residual Learning:Transformerを加速する新アーキテクチャ : Transformerのすべての層が、第1層で計算された元のToken特徴 (h0) に直接アクセスできるようにするバリアントアーキテクチャが提案された。実験により、これが深いネットワークにおける元のアイデンティティ情報の希釈を効果的に防ぐことが証明され、NanoGPTの記録において43%の加速に寄与した。モデルアーキテクチャの最適化に新たな視点を提供している(ソース:tokenbender

Value Residual

💼 商業

xAIが巨額を投じて自前の天然ガス発電所を建設 : 新たに導入される60万台のGB200 NVL72クラスターに電力を供給するため、Elon Musk氏のxAIは韓国のDoosan Enerbilityから5基の380メガワット天然ガスガスタービン発電機を購入した。電力がAI軍備競争の最大のボトルネックとなっている今、xAIは自前のエネルギー施設を建設することで、強力な垂直統合能力と拡張スピードを見せつけている(ソース:op7418

xAI能源

Marvellが32.5億ドルでCelestial AIを買収 : 半導体大手のMarvellは、光インターコネクト技術のスタートアップであるCelestial AIの買収を完了した。Celestial AIのPhotonic Fabric技術は、演算能力とメモリの分離を可能にし、NVLinkの30倍の帯域幅を提供しつつ、遅延と消費電力を大幅に削減する。この動きは、AIクラスターにおいて深刻化する「メモリの壁」問題を解決することを目的としている(ソース:36氪

Figureロボットの評価額が390億ドルに急騰 : 具身知能(エンボディドAI)のリーダーであるFigureが、NVIDIA、Intel、Qualcommなどの巨頭が参加する10億ドルのシリーズC資金調達を完了した。FigureはエンドツーエンドのVLAモデルを開発しているだけでなく、「ロボットがロボットを作る」自己複製モードを実現するためのBotQ工場を設立した。その高い評価額は、汎用ヒューマノイドロボットの商業化の展望に対する資本市場の極めて高い期待を反映している(ソース:36氪

🌟 コミュニティ

ベネズエラ危機における「リアリティ・ハッカー」:AIが捏造した戦争 : ベネズエラの政情不安の中、ソーシャルメディア上にはAIで生成された「マドゥロ大統領逮捕」「米軍上陸」などの虚偽の動画や画像が溢れかえった。生成の質が非常に高く、拡散も極めて速いため、技術の専門家でさえ即座に判別することが困難であった。これはAIが現実政治に介入する臨界点と見なされており、私たちの現実感覚がAI生成の「偽りの現実」による激しい衝撃に直面していることを証明している(ソース:Reddit

AI伪造现实

「Session Anchor」:大規模モデルの「10ターン物忘れ」を解決するプロンプトテクニック : GPT-5.2やOpusであっても、対話が10ターンを超えると初期の指示を忘れ始めることがコミュニティで発見された。開発者は「セッションアンカー」と呼ばれるテクニックを共有した。これは、複雑なタスクの前に、AIに対して履歴を振り返り、最も重要な3つの制約を要約するよう強制的に求めるものだ。長期記憶を手動でワーキングメモリに引き戻すこの方法は、エラー率を半分に減らすことができる(ソース:Reddit

AIプログラミングによる「スキャフォールディング」の消失:フレームワークに意味はあるのか? : Claude Codeなどのツールがゼロコストでゼロからコードを生成できるようになったことで、開発者は「複雑なWebフレームワークはまだ必要なのか?」と自問し始めている。AIが低層のロジックを容易に保守できるため、すでにブログを単一のHTMLモードに移行した人もいる。AIプログラミングはプロジェクト構造を再構築しており、システム設計を「外部ライブラリへの依存」から「自己生成ロジック」へとシフトさせているが、同時にコードの可読性やセキュリティにおける新たな課題ももたらしている(ソース:saranormous

感情の避難所としてのAI:私たちはデジタル依存へと滑り落ちているのか? : Redditユーザーは、AIが健康相談において家族よりも高い「共感能力」と忍耐強さを示したことを共有した。この「常に興味を持ち、決して飽きない」という特性は人々に理解されていると感じさせるが、同時にAIによる感情の代替に関する懸念も引き起こしている。人間が現実の社交よりもAIとの感情的なつながりを優先し始めたとき、社会倫理の防波堤はかつてない試練に直面することになる(ソース:Reddit

敵対的コードレビュー:Claudeにあなたのコードを「嫌わせる」 : 開発者が極めて効果的なプロンプトを発見した。それは、Claudeに「その実装を嫌っている」シニア開発者になりきってGit Diffのレビューを行わせるというものだ。この敵対的な設計により、見落とされがちな多くのエッジケースやセキュリティの脆弱性を掘り起こすことができる。実験の結果、大規模モデルの「粗探し」モードにおける深さは、通常の「支援」モードを遥かに凌駕することが証明された(ソース:Reddit

💡 その他

サムスンが折り目のない折りたたみディスプレイ技術を展示 : サムスンはCESにおいて、レーザーで穴を開けた金属板を備えたOLEDパネルを展示した。折り畳み時の応力を分散させることで、折り目の問題を完全に解決した。このハードウェアの突破口は、折りたたみスマホの体験を向上させるだけでなく、将来のAIウェアラブルデバイスや巻取り式スマート端末に向けた、より耐久性の高いディスプレイソリューションを提供する(ソース:op7418

无折痕屏幕

ASUSがROG XREAL R1ゲーミンググラスを発表 : このデバイスは重さわずか91グラムで、240Hzのリフレッシュレートをサポートし、4メートルの距離で171インチの巨大スクリーン表示をシミュレートできる。AI時代のポータブルなインタラクション端末として、このような軽量ARグラスは大規模モデルの視覚的インタラクションの重要な媒体になりつつある(ソース:op7418