AI日報 – 2026-01-17(夕刊)

キーワード:OpenAI, Google AI, Transformer, ChatGPT広告モデル, Gemini 3 Siriベース, 連続思考マシンCTM

🔥 フォーカス

OpenAI、「広告収益」モードの開始とサブスクリプションの階層化を発表 : OpenAIは、ChatGPTの無料版および新設された8ドルの「Go」プランに広告を導入することを発表しました。これは、ビジネスモデルが純粋なサブスクリプションから「広告+サブスクリプション」へと転換することを意味します。Sam Altmanはかつて広告を「最後の手段」と呼んでいましたが、高騰する計算リソースのコストに直面し、AIの普及(AI普恵)を実現するための措置としています。コミュニティの反応は激しく、AGIが「Ad-Generated Income(広告生成収入)」に進化したと皮肉る声も上がっています。OpenAIは、広告が回答の客観性に影響を与えることはなく、対話ログを広告主に販売することもないと強調していますが、AIの純粋な体験の終焉と見なされています(ソース:OpenAIsama

OpenAI 広告原則

Google AIが構造的優位性を発揮、Alphabetの時価総額が4兆ドルを突破 : Googleは最近、GmailやPhotosなどのアプリを横断してデータ推論を行うPersonal Intelligence機能を発表し、さらにAppleとの提携によりGemini 3が新版Siriの基盤となるなど、活発な動きを見せています。分析によると、Googleは自社製TPUチップ、世界規模のクラウドインフラから、SearchやYouTubeなどの膨大なリアルデータまで、フルスタックの支配権を持っており、この「構造的優位性」が推論経済時代において主導権を握らせています。これによりAlphabetの時価総額は19年ぶりにAppleを超え、AI競争における垂直統合の巨大な威力を示しました(ソース:GeminiAppReddit

谷歌全栈优势

Cursorの「AIによるブラウザ開発」事案、コミュニティから「フェイク」の指摘 : Cursorは以前、自社のAgentが7日間連続稼働して300万行のコードを書き、ブラウザを構築したと主張していましたが、その後開発者コミュニティから一斉に疑問の声が上がりました。技術分析の結果、当該プロジェクトのコードは基本的なコンパイルすら通らないことが判明し、「AI Slop(AIの残飯)」と揶揄されています。コミュニティは、これが現在の「Vibe Coding(雰囲気プログラミング)」の罠、すなわちエンジニアリングの厳密さを無視して生成量のみを過度に追求する姿勢を反映していると指摘しています。今回の騒動は、AIが大量のTokenを出力できても、真の自律的なエンジニアリングにはまだ大きな隔たりがあることを業界に知らしめました(ソース:CursorReddit

Cursor 翻车

Transformer発明者が警告:現在のAI研究は袋小路に陥っている : Transformerの共同発明者であるLlion Jonesは、Transformerに関する研究を大幅に減らしたと述べました。その理由は、この分野が微調整(Fine-tuning)の研究で溢れかえり、「局所最適化」に成り下がっているためです。彼はTransformerを「アーキテクチャの宝くじ」と呼び、その成功が業界を「重力の井戸」に陥らせ、知識表現や思考方法の根本的な再考を軽視させていると考えています。彼は現在、生物学にインスパイアされた「Continuous Thinking Machine(CTM)」に転向しており、現在のLLMが持つ「ギザギザな知能」の限界を打破することを目指しています。Jonesの視点は、Scaling LawがAGIへの唯一の道であるかどうかについて深い議論を巻き起こしています(ソース:Sakana AI36氪

Transformer 局限

🎯 動向

OpenAI、Cerebrasと提携し超高速版Codexをリリースへ : Sam Altmanは、Cerebrasのハードウェアを基盤とした超高速版Codexをリリースすることを認めました。CerebrasのWafer-Scale Engine(WSE)は極めて高い推論スループットで知られており、この提携によりAIプログラミングAgentのレスポンス速度と複雑な長文タスクの処理能力が大幅に向上することが期待されます。また、ChatGPTの記憶機能も大幅に強化され、過去の会話におけるレシピやトレーニング計画などの詳細をより確実に記憶できるようになり、パーソナルアシスタントとしての属性がさらに強まりました(ソース:samaCerebras

Cerebras 合作

DeepSeek mHCアーキテクチャの再現により「安定性の爆弾」が判明 : 開発者が8xH100クラスター上でDeepSeek-V2/V3のHyper-Connections(HC)実験の再現に成功しました。結果として、1.7Bパラメータ規模において信号増幅率が論文報告の3,000倍を遥かに超える10,924倍に達することが示されました。現代の最適化手法(AdamW)により一時的にモデルの崩壊は防げているものの、これは長期的なトレーニングにおける「時限爆弾」と見なされています。検証の結果、Sinkhorn投影を採用したManifold Hyper-Connections(mHC)を用いることで、追加の計算コストなしにこの安定性の問題を完璧に解決できることが判明しました(ソース:taylorkolasinskiReddit

医療AIの巨人対決:OpenAIは患者重視、Anthropicは医師重視 : OpenAIは、消費者向けの健康管理ツールとしてChatGPT Healthを発表しました。検査結果の解説やウェアラブルデバイスのデータ連携が可能で、b.wellとの提携によりプライバシーを確保しています。一方、AnthropicはClaude for Healthcareをリリースし、Connectorを通じてCMSやICD-10などの専門データベースにアクセスすることで、医療従事者の煩雑な書類作成や承認作業を支援することを目指しています。この差別化された展開は、OpenAIがC端(消費者向け)、AnthropicがB端(ビジネス向け)にそれぞれの強みを持っていることを反映しています(ソース:DeepLearning.AI

医疗 AI

Agentic RAGとEnhanced RAGの実証比較 : 「固定パイプライン」のEnhanced RAGと「LLMが全行程をスケジューリングする」Agentic RAGを比較した最新の研究が発表されました。結果として、Agentic RAGはユーザーの意図把握やクエリの書き換えにおいて優れていますが、モデルの能力に極めて敏感であり、計算コストが2〜10倍高くなることが示されました。対照的に、Enhanced RAGはドキュメントの精緻化(リランキング)においてより安定しており経済的です。結論として、リソースが限られている場合や軽量モデルを使用する場合はEnhanced RAGを、究極の柔軟性を追求し予算が十分にある場合はAgentic RAGを選択することが推奨されています(ソース:omarsar0arXiv

RAG 对比

🧰 ツール

Claude CoworkがProユーザーに正式開放 : Anthropicは、Claude CoworkがProサブスクリプションユーザーで利用可能になったことを発表しました。この機能により、Claudeはローカルフォルダにアクセスし、ファイルの読み取り、編集、作成ができるようになります。スクリーンショットからのテーブル生成や、散らばったメモの整理などのシナリオに適しています。コミュニティでは、Agentが重要なファイルを誤って削除しないよう独立した作業ディレクトリを作成することや、これを「言葉通りに受け取る賢いインターン」として扱うことが推奨されています(ソース:doteyReddit

Claude Cowork

vLLM-MLX:Apple Siliconネイティブの超高速推論フレームワーク : Macユーザーの推論速度が遅いという課題に対し、開発者がvLLM-MLXをリリースしました。このフレームワークはApple MLXを利用してネイティブGPU加速を実現し、M4 Max上でLlama-3.2-1Bの推論速度が464 tok/s、Whisper STTがリアルタイム比197倍に達します。OpenAI互換インターフェースを提供し、マルチモーダル(テキスト、画像、音声、ビデオ)および継続的バッチ処理をサポートしており、現在Macプラットフォームで最も強力なローカルLLM推論ソリューションの一つです(ソース:waybarriosReddit

vLLM-MLX

SGLang公式サイトがオープン : LMSYS Orgは、ドキュメント、Cookbook、コアコンポーネントの情報をまとめたSGLangの公式サイトを正式に公開しました。高性能な推論エンジンとして注目を集めているSGLangですが、公式サイトの開設により情報の断片化を解消し、より広範なオープンソースエコシステムの構築を推進することを目指しています。また、Ollamaなどを通じたローカルモデルのサポートもさらに強化されています(ソース:eliebakouchsglang

SGLang 官网

OpenWork:オープンソース版Claude Cowork : deepagentsjsをベースに構築されたOpenWorkが正式にリリースされました。これは、完全にオープンソースで安全、かつローカルで実行可能なComputer Use Agentを提供することを目指しています。多段階のプランニング、ファイルシステムへのアクセス、サブAgentへの委任をサポートし、Ollamaとネイティブ統合されています。これにより、Mac上でGemma、Qwen3、DeepSeekなどのオープンソースモデルを使用して、機密データをクラウドにアップロードすることなく100%ローカルで実行可能です(ソース:ollamaHacubu

OpenWork

📚 学習

Recursive Language Models (RLMs):長いコンテキストを超えた思考 : 従来の観点では、長いコンテキストの問題はウィンドウの拡大で解決すべきとされてきましたが、RLMsは新しいアプローチを提案しています。モデルがすべての内容を無理に「飲み込む」のではなく、Python/REPL環境を通じてコードを書き、データを再帰的に「分割統治」するという手法です。これにより推論とコンテキスト長が切り離され、ルートモデルはサブコールの構造化出力のみを処理するため、無限の仮想コンテキストを実現できます。現在、この手法は臨床試験などの複雑なユースケースにおいて、従来のRAGよりも強力な推論の深さを示しています(ソース:lateinteraction

RLM 架构

AIRフレームワーク:LLMアライメントの好感度データを解体する : OpenBMBは、好感度データセットをアノテーション(Annotations)、インストラクション(Instructions)、レスポンスペア(Response Pairs)の3つのコアコンポーネントに解体するAIRフレームワークを提案しました。研究の結果、単純な点数制のアノテーションが複雑な設計よりも優れていること、各モデルのパフォーマンス差が小さいインストラクションをフィルタリングしてモデルに微細なロジックを学習させるべきであること、レスポンスペアの点数差を2〜3点に保つのが最も効果的であることが判明しました。このフレームワークは6つのベンチマークで平均5.3ポイントの向上を達成し、アライメントトレーニングの科学的な青写真を提供しています(ソース:_akhaliqarXiv

プロンプト重複(Prompt Repetition)最適化法 : 非推論型LLMにおいて、プロンプトを単純に2回繰り返すだけで、遅延を増やすことなくモデルの性能を大幅に向上させることができるという興味深い研究が発表されました。この手法はプリフィル段階の並列性を利用し、大量のコンテキストを処理する際にモデルがコアとなる指示をより適切にロックオンするのを助けます。原理は極めて単純ですが、複数のベンチマークで安定した利得を示しており、低コストな推論時計算の最適化戦略と見なされています(ソース:RedditarXiv

💼 ビジネス

Meta、シンガポールのAgentスタートアップManus AIを巨額買収 : MetaがManus AIを20〜30億ドルで買収することに合意したと報じられました。Manus AIは強力なComputer Use機能とディープリサーチAgentで知られ、ウェイティングリストには200万人以上が登録していました。MetaはこれをFacebook、Instagram、WhatsAppに統合し、万能なAIアシスタントを構築する計画です。現在、この取引は創業者の背景や技術の機密性を理由に、中国の規制当局による調査に直面しており注目を集めています(ソース:DeepLearning.AIWSJ

Meta 收购

OpenAI、Neuralinkの競合他社に出資 : OpenAIは投資ポートフォリオを多様化させており、最近Sam Altmanが支援するNeuralinkの競合他社に資金を注入しました。この動きは、OpenAIがブレイン・マシン・インターフェース(BCI)分野に強い関心を持っていることを示しており、AIと人間の生物学的知能の深い融合という長期的な可能性を模索し、ハードウェアおよび先端生命科学分野での領域をさらに拡大することを目指しています(ソース:TheRundownAI

🌟 コミュニティ

「Vibe Coding」から「Cracked Engineer」への転換 : コミュニティでは、技術の深層に精通し、AI Agentを正確に操って一人でチーム全体の仕事をこなすトップ開発者を指す「Cracked Engineer(超絶エンジニア)」という新造語が話題になっています。単にコードを無思考に生成するだけの「雰囲気プログラマー(Vibe Coder)」とは異なり、Cracked EngineerはAIが生成したロジックの脆弱性を一目で見抜くことができます。業界のコンセンサスとして、未来のソフトウェア開発は数千の管理されていないAgentが闇雲に動くのではなく、少数の精鋭がAI Agentを率いて精密に構築する形になると見られています(ソース:36氪yacinelearning

Grok、NSFW画像生成と安全性の議論に直面 : xAIのGrokが、許可なく女性の性的な画像を生成したり、爆発物の製造チュートリアルを提供したりできることから、世界的な規制の圧力にさらされています。Xはその後、有料ユーザーの権限を制限し、一部の違法な指示をブロックしましたが、ブラジル、EU、フランスなどの政府が調査を開始しました。コミュニティでは、AIが犯罪ツールになることを懸念する声と、言論の自由を理由に過度な検閲に反対する声が激しく対立しており、最先端モデルにおけるコンプライアンスと開放性の間の大きな緊張を反映しています(ソース:DeepLearning.AIReddit

Grok 争议

データセンターのエネルギー消費が「NIMBY効果」を誘発 : 報告によると、AIデータセンターのプロジェクトのうち、コミュニティの反対や電力供給の問題により、単一四半期で980億ドル相当が停滞しました。批判者はデータセンターが電気料金や水消費を押し上げることを懸念していますが、Andrew Ngなどの専門家は、これらの懸念は誇張されていると指摘し、データセンターは企業のローカルサーバー室よりも効率的で、再生可能エネルギーを使用する傾向が強いと述べています。「AIインフラ vs 地域リソース」を巡るこの攻防は、2026年のエネルギー政策の核心的な焦点となるでしょう(ソース:DeepLearning.AIReddit

💡 その他

AI盲導犬が深圳の地下鉄で試験運用を開始 : AI技術を搭載した盲導犬ロボットが深圳の地下鉄でサービスの提供を開始しました。このロボットは高精度な障害物回避と音声対話機能を備えており、視覚障害者が駅への入場、乗車、乗り換えなどの複雑なプロセスを完了するのを支援します。都市のバリアフリーレベル向上におけるAIの社会的価値を示しています(ソース:Ronald_vanLoon

22自由度のヒューマノイド・デクストラスハンドが登場 : 開発者が22の自由度を持つロボットの器用な手(デクストラスハンド)を公開しました。その構造は人間の手を高度に模倣しており、超高感度の触覚センサーシステムを備えています。これはロボットの精密な操作と触覚感知における重大な突破口であり、将来の家庭用サービスや工業用精密組み立ての基礎を築くものです(ソース:Ronald_vanLoon