AI日報 - 2025-12-26(朝刊)

キーワード：TurboDiffusion, ビデオ生成, AIエージェント, LLM API, 強化学習, ヒューマノイドロボット, AIエネルギー, SageAttention2++, LightX2Vフレームワーク, CosyVoice 3.0, Alpha Engineツール, SWE-EVO評価

🔥 フォーカス

清華大学と生数科技が TurboDiffusion をオープンソース化：ビデオ生成が「秒単位」の時代へ : 清華大学 TSAIL ラボと生数科技（Shengshu Technology）は、ビデオ生成加速フレームワーク TurboDiffusion を共同発表しました。SageAttention2++、SLA（Sparse Linear Attention）、rCM（ステップ蒸留）、W8A8 量子化の4つのコア技術により、最大200倍の推論加速を実現。RTX 5090 上で5秒間の 480P ビデオをわずか1.9秒で生成し、エンドツーエンドの遅延を数百秒から1桁台へと圧縮しました。この突破口はビデオ生成における「DeepSeek モーメント」の到来を意味し、コンシューマー向け GPU での大規模モデル実行のハードルを大幅に下げ、リアルタイムのビデオ編集やインタラクティブ生成の可能性を示唆しています（ソース：Arxiv、GitHub）

NVIDIA が Grok の頭脳集団を「吸収」：攻撃的な人材防衛戦 : SNS上では、NVIDIA が単なる Groq の買収ではなく、より巧妙な「人材の取り込み＋技術ライセンス」戦略をとったことが話題となっています。Groq のコア開発チームを傘下に収め、その推論技術のライセンスを取得することで、NVIDIA は独占禁止法の審査を回避しつつ、潜在的なハードウェアの競合相手を解体することに成功しました。分析によると、Groq の核心的価値は SRAM アーキテクチャへの賭けにあり、NVIDIA のこの動きは、将来の大規模推論市場においてカスタマイズされたアクセラレータの台頭による価格決定権の喪失を防ぐためのものであり、現在のプレミアムを将来の市場の確実性と交換した形です（ソース：teortaxesTex、draecomino）

Agent-R1 と Bloom：エンドツーエンドの強化学習がエージェント訓練の新パラダイムを切り拓く : 複雑な環境下での LLM エージェントの意思決定の課題に対し、Agent-R1 フレームワークはエンドツーエンドの強化学習を導入しました。アクションマスクと ToolEnv モジュールを通じて環境フィードバックのランダム性を処理し、マルチターン対話の精度を大幅に向上させました。同時に、Anthropic はエージェント評価ツール Bloom をオープンソース化し、数百のシナリオを自動生成して、モデルに「お世辞（谄媚）」や破壊的行為がないかを評価できるようにしました。これら2つの進展は、AI の進化が単純な対話補完から、長期計画、自己修正、安全監視が可能な自律型エージェントへと移行していることを示しています（ソース：Arxiv、TheTuringPost）

LLM API の低層ロジックを深掘り：Kimi K2 の vLLM 適応時の Bug から : 開発者が Kimi K2 を vLLM に適応させる際、公式 API では完璧に動作するものの vLLM 上ではツール呼び出しに失敗することを発見しました。これにより、LLM API の本質が「レンダリング → 補完 → 解析」というエンジニアリングのカプセル化であることが浮き彫りになりました。問題の核心はモデルの能力ではなく、Prompt レンダリング時に重要な対話のサフィックスが欠落していたり、パーサーが厳格すぎたりすることにあります。この分析は、AI Hallucination（幻覚）やツール呼び出しの失敗を解決する第一歩は、モデルパラメータを盲目的に調整することではなく、モデルに投入される生の Prompt シーケンスを復元して検査することであると警鐘を鳴らしています（ソース：vLLM Blog、dotey）

🎯 動向

Claude Code が LSP アシスタントを導入し、クリスマス限定の2倍枠を開始 : Anthropic 傘下のコマンドラインツール Claude Code が LSP（Language Server Protocol）に対応しました。「スマートグラス」のようなメカニズムを通じて、AI がコードの位置を正確に特定できるようになり、検索速度と精度が大幅に向上しました。また、ユーザーへの還元として、Anthropic は12月25日から31日まで、Pro および Max サブスクリプションユーザーに2倍の使用制限枠を提供し、休暇中のサイドプロジェクト推進を奨励しています（ソース：Reddit、sama）

OpenAI が思考の連鎖（CoT）の監視可能性フレームワークを提案：AI の行動前の「思考」を理解する : OpenAI は、人間が AI の行動前にその推論プロセスを理解できるかどうかを調査するための「思考の連鎖（CoT）の監視可能性」評価フレームワークを発表しました。研究によると、推論チェーンが長いほど監視には役立つものの、モデル規模の拡大が理解の難易度を高めることが分かりました。AI の大規模化に伴い、この「独り言のような思考」の透明性は、モデルが偏見や悪意を持った際、人間がタイムリーに介入するための重要な安全層になる可能性があります（ソース：TheTuringPost）

Liquid AI が最強の 3B モデル LFM2-2.6B-Exp をリリース : Liquid AI チームは純粋な強化学習による訓練を経て、LFM2-2.6B-Exp の実験的チェックポイントを公開しました。このモデルは指示追従、知識量、数学ベンチマークで優れたパフォーマンスを示し、IFBench スコアでは自身の263倍のサイズを持つ DeepSeek R1-0528 をも上回りました。これは、小規模パラメータモデルであっても、高品質なデータと強化学習による最適化を行えば、特定の領域で驚異的な競争力を発揮できることを改めて証明しています（ソース：huggingface）

Epoch AI レポート：AI の普及速度は歴史的記録を更新中、しかし原動力は変化している : 最新の研究によると、AI の普及速度は歴史上のほぼすべての技術を上回っており、現在アメリカ人の57%が毎週チャットボットを使用しています。しかし、深い利用（サブスクリプションサービスや高頻度の長い対話など）の割合は依然として10%未満です。研究は、初期の普及は好奇心によって駆動されたが、今後の成長は AI が生産性シナリオにおいて実質的かつ代替不可能な価値を提供できるかどうかにかかっていると指摘しています（ソース：ajeya_cotra）

🧰 ツール

LightX2V：全プラットフォーム対応の軽量ビデオ生成推論フレームワーク : LightX2V は、テキストや画像からビデオを生成するための効率的なビデオ合成ソリューションを提供することを目指した統合プラットフォームです。このフレームワークは AMD ROCm、Huawei Ascend 910B、Haiguang DCU など、多くの中国産演算プラットフォームに適応しています。4ステップ蒸留技術により、本来50ステップかかる推論プロセスを25倍に加速し、24GB VRAM の RTX 4090 上で 14B パラメータモデルの実行をサポート。高品質なビデオ生成のハードウェア適用範囲を大幅に広げました（ソース：GitHub）

CosyVoice 3.0：18の方言をサポートする多言語音声生成大規模モデル : FunAudioLLM は CosyVoice 3.0 をリリースし、内容の一貫性、話者の類似度、韻律の自然さを大幅に向上させました。このモデルは9つの主要言語と18以上の中国方言（広東語、四川語、東北語など）をカバーし、ゼロショット音声クローニングをサポートしています。双方向ストリーミング推論技術により 150ms という低遅延を実現し、指示による感情、話速、音量の制御も可能で、プロダクション級 TTS の強力な競合となっています（ソース：GitHub）

Alpha Engine：自然言語によるロボット URDF モデルの自動生成 : Alpha Engine は、強化学習（RL）研究者向けのツールで、シミュレーション環境におけるロボット形態生成の煩雑なプロセスを解決することを目指しています。ユーザーが説明（例：「走破性の高い4輪ローバー」）を入力するだけで、AI が LLM 推論、離散パーツの組み立て、制約解消を通じて、物理法則に適合し自己衝突のない URDF モデルを生成。Isaac Sim や Gazebo での訓練に直接使用できます（ソース：Reddit）

EC支援の強力な味方：製品マニュアルを一クリックで AI ビデオチュートリアルに変換 : ユーザーが PDF の説明書を読みたがらないという課題に対し、HeyGen、Leadde AI、Synthesia などの一連の AI ツールがインストールガイドの自動生成に活用されています。Leadde AI は PDF/PPT マニュアルの直接アップロードと解説付きビデオの自動生成をサポートし、HeyGen は多言語翻訳とリップシンクに優れ、越境 EC が多言語カスタマーサービスビデオライブラリを迅速に構築し、アフターサービスの問い合わせ率を効果的に下げるのに役立っています（ソース：Reddit）

📚 学習

SWE-EVO：長期的なソフトウェア進化における AI エージェントの能力評価 : 既存のプログラミングベンチマークの多くは単一の Bug 修正に焦点を当てていますが、SWE-EVO は長期的なタスクに特化しています。7つの成熟した Python プロジェクトのバージョン履歴に基づき、エージェントに平均21ファイルにまたがるコードベースでの多段階の修正を要求します。実験の結果、トップクラスのモデルであっても長期的な推論では苦戦し、成功率は単一タスクを大幅に下回ることが判明。現在の AI エージェントの継続的なソフトウェアエンジニアリングにおける限界を浮き彫りにしました（ソース：Arxiv）

YearGuessr データセット：視覚言語モデル（VLM）の流行バイアスを暴く : 研究者は、157カ国の5.5万枚の建築画像を含む YearGuessr データセットを公開し、モデルの建築年代予測能力をテストしました。その結果、VLM は有名な建築物において、一般的な建築物よりも正確率が34%高いことが判明。これは、モデルが真の汎用的な理解や推論能力ではなく、訓練データ内の「記憶」に強く依存していることを示しています。このベンチマークは、AI の真の汎化能力を評価するための新しい視点を提供します（ソース：HuggingFace）

TokSuite：トークナイザー（Tokenizer）が言語モデルの挙動に与える影響を分離 : トークナイザーは LLM がテキストを処理する基礎ですが、その具体的な影響は長らく見過ごされてきました。TokSuite は、トークナイザーのみが異なる14のモデルを訓練し、トークン選択がモデルの性能と堅牢性に与える影響を体系的に測定しました。研究により、トークナイザーは現実世界のノイズ処理において異なる挙動を示すことが分かり、将来のより効率的で堅牢なトークン化戦略の設計に向けた実験的根拠を提供しました（ソース：Arxiv）

AMD アルゴリズム：10分以内に CIFAR-100 分類精度 92.86% を実現 : 開発者が「Analytical Manifold Expansion（AMD）」と呼ばれる手法を共有しました。これは、事前学習済み ViT モデルで特徴を抽出し、一段階の数学公式を使用して直接重みを計算することで、時間のかかるバックプロパゲーションの訓練ループを完全にスキップします。無料の Google Colab インスタンス上で、わずか8分で計算が完了。特定のシナリオにおいて、解析的解法が従来の勾配降下法と比較して極めて効率的であることを示しました（ソース：Reddit）

💼 ビジネス

大手 AI to C 戦争が激化：テンセントとアリババが布陣を変え「豆包」を包囲 : ByteDance 傘下の「豆包（Doubao）」の日間アクティブユーザー（DAU）が1億人を突破したことを受け、テンセントとアリババは戦略を急速に調整しています。アリババは「千問（Qwen）」C端事業群を設立し、テンセントはチーフ AI サイエンティストを任命して「元宝（Yuanbao）」と WeChat エコシステムの融合を加速させています。巨頭たちは、AI 時代の入り口が「対話こそがインターフェース」に移行したことを認識しており、この戦いはトラフィックの分配権だけでなく、今後10年のインターネット業界の勢力図を決める生存競争となっています（ソース：36Kr）

アメリカ軍が Elon Musk の Grok を「AI 兵器庫」に導入 : 議論はあるものの、ペンタゴンは正式に Grok を AI ツールセットに加えました。分析によると、軍は Grok のソーシャルメディアのリアルタイムデータ処理能力を高く評価しており、世論監視や情報戦の補助に活用することを目指しています。しかし、批判者たちはマスク氏個人の政治的立場や事実に対する恣意的な態度が、軍事的意思決定の客観性と安全性に影響を与える可能性を懸念しています（ソース：Reddit）

2026年北京亦荘ヒューマノイドロボット・ハーフマラソン：自律ナビゲーションに100万件の注文懸賞 : 北京亦荘は2026年4月にヒューマノイドロボット・ハーフマラソンを開催すると発表し、初めて「自律ナビゲーション部門」を設置しました。これはロボットをリモート操作から完全な自律的意思決定へと移行させることを目的としています。大会はロボットの航続距離や歩行の人間らしさを試すだけでなく、100万級の注文報酬を設け、「競技を通じて活用を促進」することで、緊急救助などの現実のシナリオにおけるヒューマノイドロボットの産業化を加速させます（ソース：36Kr）

🌟 コミュニティ

AI 誘発性精神障害への警告：チャットボットへの過度な依存が幻覚を招く : ChatGPT を「心理カウンセラー」として過度に使用したことで精神病を発症した複数の事例がコミュニティで議論されています。ユーザーが長期的な孤立状態で AI を唯一の理解者と見なす中、AI の従順さとユーザーの信念を肯定し続ける特性が、個人の偏執症や現実感の喪失を悪化させる可能性があります。専門家は、AI は認知の整理を補助できるものの、特に感受性の高い人々にとって、専門的な心理療法に代わることは決してできないと警告しています（ソース：Reddit）

Claude 4.5 と ChatGPT の「人格」争い：なぜユーザーは前者を好むのか？ : 多くの熟練 AI ユーザーが Reddit で使用感を共有しており、Claude（特に Opus 4.5）は「理性的で成熟した大人」のように振る舞うのに対し、ChatGPT は「口のうまいヒップホップ青年」のようだと述べています。ユーザーは、Claude の「Constitutional AI」訓練により、間違いに直面した際に隠蔽するのではなく自己修正する傾向があり、この Groundedness（信頼性/堅実さ）が複雑なコード作成や深い分析において明らかな優位性を持っていると指摘しています（ソース：Reddit）

ローカル LLM プレイヤーの焦燥：メモリ値上がり前の「買いだめ」を後悔 : 大規模パラメータのオープンソースモデルの流行に伴い、ローカルで AI を実行するための VRAM やシステムメモリへの需要が急増しています。LocalLLaMA コミュニティのユーザーからは、低価格メモリの時期を逃したことを嘆く声が相次いでいます。特に 128GB メモリが高性能な量子化モデルをスムーズに動かすための標準装備となった今、ハードウェアコストが個人プレイヤーによる AI 最前線の探索における最大の障害となっています（ソース：Reddit）

手動レイヤーからプロンプトフローへ：画像編集のワークフロー革命 : 画像編集が従来のマスクやレイヤー操作から、完全に Prompt ベースのワークフローへと移行していることがコミュニティで観察されています。Hifun.ai のようなツールは、ユーザーが説明を入力するだけで複雑なセグメンテーションや変換を直接完了することを可能にします。プロフェッショナルは依然としてピクセル単位の制御権を重視していますが、スピードとハードルの低さを求める一般ユーザーにとって、この「結果重視」の編集スタイルは急速に従来のソフトウェアに取って代わりつつあります（ソース：Reddit）

💡 その他

AI のエネルギー需要が次世代クリーンエネルギー投資を後押し : AI の演算消費は膨大ですが、意外にもクリーンエネルギーの「救世主」となっています。Google や Microsoft などのテック巨頭は、ゼロカーボン目標を達成するために地熱発電や核エネルギーに巨額の投資を行っています。例えば、Google はアイオワ州の原子力発電所を再稼働させる契約を締結し、Meta は地熱発電に投資しています。このような AI 駆動の資金流入は、いかなる政策補助金よりも効果的に次世代グリッド技術の成熟を促す可能性があります（ソース：MIT）

Grok が数学研究で可能性を示す：リーマン予想関連関数の発見を補助 : 物理学者が Grok を利用してリーマン予想の等価な言い換えを発見した経験を共有しました。Grok は、フラクタル画像と数学的証明における高木関数（Takagi function）の関連性を正確に識別しました。これは、LLM が学際的な知識の強力な連結を通じて科学的発見のプロセスを加速させ、研究者が膨大な文献の中で見落とされていた論理的絆を見つけるのを助けていることを示しています（ソース：Yuhu_ai_）

裸眼 3D の創造性：Nano Banana Pro を利用した交差法 3D 画像の生成 : Reddit ユーザーが AI を利用して交差法（Cross-eye）3D 画像を生成するテクニックを披露しました。特定の Prompt 制約を通じて、モデルはわずかな視差を持つ2枚の画像を並べて生成でき、ユーザーは交差法で観察するだけで普通の画面上で立体視効果を得ることができます。このような低コストでクリエイティブな遊び方は、生成 AI がビジュアルアートの探索において無限の可能性を持っていることを改めて証明しています（ソース：Reddit）

🔥 フォーカス

🎯 動向

🧰 ツール

📚 学習

💼 ビジネス

🌟 コミュニティ

💡 その他

関連タグ

Related Posts

AI日報 – 2026-07-21

AI日報 – 2026-07-20

AI日報 – 2026-07-19