AI日報 – 2025-09-23(朝刊)

キーワード:LLM-JEPA, Apple Manzano, MediaTek Dimensity 9500, GPT-5, DeepSeek-V3.1-Terminus, Qwen3-Omni, Baidu Qianfan-VL, 埋め込み空間トレーニングフレームワーク, ハイブリッド視覚トークナイザー, デュアルNPUアーキテクチャ, SWE-BENCH PROベンチマークテスト, マルチモーダル音声入力

🔥 注目

LLM-JEPA:言語モデル訓練フレームワークの新たなブレイクスルー : ヤン・ルカン(Yann LeCun)らがLLM-JEPAを提案しました。これは、視覚領域の埋め込み空間目標と自然言語処理の生成目標を組み合わせた初のJEPAスタイル言語モデル訓練フレームワークです。このフレームワークは、NL-RX、GSM8K、Spiderなどの複数のベンチマークで標準LLM目標を上回り、Llama3、OpenELMなどのモデルで良好な性能を示し、過学習に対してより堅牢です。事前学習とファインチューニングの両方で有効であり、埋め込み空間訓練がLLMの次の大きな飛躍となる可能性を示唆しています。(出典:ylecun, ylecun

LLM-JEPA

Apple Manzano:統一マルチモーダルLLMの簡潔でスケーラブルなソリューション : AppleはManzanoを発表しました。これは、シンプルでスケーラブルな統一マルチモーダル大規模言語モデルです。このモデルは混合視覚トークナイザーを採用し、画像理解と生成タスク間の競合を効果的に低減しました。Manzanoは、ChartQA、DocVQAなどのテキスト集約型ベンチマークでSOTAレベルを達成し、生成能力ではGPT-4o/Nano Bananaなどと競合します。条件付き画像による編集をサポートし、マルチモーダルAIの強力な可能性を示しています。(出典:arankomatsuzaki, charles_irl, vikhyatk, QuixiAI, kylebrussell

Apple Manzano

MediaTek Dimensity 9500がデュアルNPUアーキテクチャを発表、アクティブAI体験を強化 : MediaTekはDimensity 9500チップを発表しました。これは、超高性能+超高効率のデュアルNPUアーキテクチャを初めて採用し、AI「Always on」の常駐スマート体験を実現することを目指しています。このチップはETHZモバイルSoC AIベンチマークで首位を維持し、推論効率は前世代比56%向上しました。また、エッジ側での4K超高画質画像生成と128Kコンテキストウィンドウをサポートし、スマートフォンAIのリアルタイム応答とパーソナライズされたサービスのハードウェア基盤を確立し、AIを「呼び出し可能」から「デフォルトでオンライン」へと推進します。(出典:量子位

联发科天玑9500

GPT-5プログラミング評価が逆転:実際の提出タスクで正答率63.1%を達成 : Scale AIが発表した新しいソフトウェアエンジニアリングベンチマークSWE-BENCH PROによると、GPT-5は提出されたタスクで63.1%の正答率を達成し、Claude Opus 4.1の31%を大きく上回りました。これは、その得意分野での性能が依然として強力であることを示しています。新ベンチマークは、新しい問題と複雑な複数ファイル変更シナリオを採用し、モデルの実際のプログラミング能力をより現実的に評価します。これにより、現在のトップモデルが産業レベルのソフトウェアエンジニアリングタスクで依然として課題に直面していることが明らかになりましたが、GPT-5は「できるものは提出し、できないものは提出しない」という戦略の下で、実際の能力が過小評価されていたことが判明しました。(出典:36氪

GPT-5编程测评大反转

🎯 動向

DeepSeek-V3.1-Terminus発表:言語の一貫性とAgent能力を最適化 : DeepSeekはV3.1-Terminusバージョンを発表しました。これは、主に言語の一貫性(中英混在や異常文字の削減)を改善し、Code AgentとSearch Agentの性能を最適化しています。新モデルは多分野の評価でより安定した信頼性の高い出力を提供し、オープンソースのウェイトはHugging FaceとModelScopeで公開済みです。これは、DeepSeekのV3シリーズアーキテクチャの最終的な完成を示しています。(出典:DeepSeek Blog, Reddit r/LocalLLaMA, scaling01, karminski3, ben_burtenshaw, dotey

DeepSeek-V3.1 版本更新

Qwen3-Omniプロモーションビデオ公開:マルチモーダルオーディオとツール呼び出しをサポート : QwenはQwen3-Omniのプロモーションビデオを公開し、マルチモーダルオーディオ入力と出力のサポート、およびネイティブツール呼び出し機能の搭載を予告しました。このモデルはGemini 2.5 Flash Native Audioの直接の競合となる可能性があり、思考モードと非思考モードを提供し、音声Agentの構築可能性を大幅に向上させます。ウェイトは近日公開予定です。(出典:Reddit r/LocalLLaMA, scaling01, Alibaba_Qwen, huybery

Qwen3-Omni Promotional Video

BaiduがQianfan-VLシリーズマルチモーダル大規模言語モデルをオープンソース化 : Baidu AI CloudはQianfan-VLシリーズのマルチモーダル大規模言語モデル(3B, 8B, 70B)をオープンソース化しました。これは企業向けアプリケーションに特化して最適化されています。モデルはInternViT視覚エンコーダーと強化された多言語コーパスを組み合わせ、32Kのコンテキスト長を提供します。OCR、文書理解、グラフ分析、数学問題解決において優れた性能を発揮し、連鎖的思考推論もサポートします。強力な汎用能力と業界の高頻度シナリオにおける深い最適化を提供することを目指しています。(出典:huggingface, Reddit r/LocalLLaMA

baidu releases Qianfan-VL

xAIがGrok 4 Fastモデルを発表:2Mコンテキストウィンドウ、高コスト効率 : xAIはGrok 4 Fastモデルを発表しました。これは、2Mのコンテキストウィンドウを持つマルチモーダル推論モデルで、高いコスト効率で新たな標準を確立することを目指しています。このバージョンはFP8量子化などの技術により高速推論を実現し、Agenticプログラミング能力を最適化することで、複雑なタスク処理において性能と経済性の両立を図ります。(出典:TheRundownAI, Yuhu_ai_

xAI’s cost-efficient Grok 4 Fast

GPT-5-Codex:OpenAIがAgenticプログラミングに最適化されたGPT-5バージョンをリリース : OpenAIはGPT-5-Codexを発表しました。これは、Agenticプログラミングに特化して最適化されたGPT-5のバージョンです。このモデルは、AIのコード生成およびソフトウェアエンジニアリングタスクにおける性能向上を目指し、AgenticワークフローとマルチモーダルLLMの発展トレンドに合致しています。プログラミング能力を強化することで、開発分野におけるAIの応用をさらに推進します。(出典:TheRundownAI, Reddit r/artificial

OpenAI launches GPT-5-Codex

Tencentインテリジェントエージェント開発プラットフォーム3.0がグローバルリリース、Youtu Labの主要技術を継続的にオープンソース化 : Tencent Cloudのインテリジェントエージェント開発プラットフォーム3.0(ADP3.0)がグローバルでリリースされ、RAG、Multi-Agent協調、Workflow、アプリケーション評価、プラグインエコシステムにおいて全面的なアップグレードが行われました。Tencent Youtu Labは、Youtu-AgentフレームワークとYoutu-GraphRAG知識グラフフレームワークを含む主要なインテリジェントエージェント技術を継続的にオープンソース化し、技術の普及とインテリジェントエージェントエコシステムのオープンな共同構築を推進し、企業が低コストで独自のAIインテリジェントエージェントを構築、統合、運用できるようにすることを目指しています。(出典:量子位

腾讯智能体开源大动作!关键技术都拿出来了,开发平台还全面升级

Baidu Wenkuが国家工業情報化部安全センターの認証を再取得、スマートPPT業界をリード : Baidu Wenkuは、国家工業情報化部安全センターの「大規模モデルによるスマートオフィス評価」で1位を獲得し、生成品質、意図理解、レイアウト美化など6つの指標すべてで首位に立ちました。そのスマートPPT機能は包括的なソリューションを提供し、AI月間アクティブユーザー数は9700万人以上、月間アクセス数は3400万回以上です。これにより、スマートPPT分野でのリーダーシップを継続的に強化し、ユーザーにプロフェッショナルで正確かつ美しいPPT作成体験を提供しています。(出典:量子位

六项第一!百度文库再获国家工信安全中心认证,持续领跑智能PPT行业

Google DeepMindがFrontier Safety Frameworkを発表、新たなAIリスクに対応 : Google DeepMindは、最新の「Frontier Safety Framework」を発表しました。これは、新たなAIリスクを特定し、先手を打つためのこれまでで最も包括的なアプローチです。このフレームワークは、責任あるAIモデル開発を強調し、AI能力の向上と同時に安全対策も強化されることを確実にするため、将来発生する可能性のある複雑な課題に対応することを目指しています。(出典:GoogleDeepMind

ヒューマノイドロボットと自動化システムの発展:インタラクションと安定性の向上 : ロボット技術は継続的に進歩しており、RoboForceが産業用ヒューマノイドロボットTitanを発表し、WIROBOTICSのALLEXプラットフォームは触覚、自然な動き、内蔵バランスによる人間のようなインタラクションを実現しました。また、Unitree G1ロボットは「反重力」モードを披露し、安定性を向上させています。さらに、Hitbotロボットファームは自動収穫システムを展示し、自律移動輸送ロボットも人間とロボットの協調設計を強調するなど、ロボットが計算から世界を感知する能力へと変化するのを共同で推進しています。(出典:Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Unitree

Unitree G1机器人

AI Agentが企業ワークフローの核に:アーキテクチャ、マップ、実践的応用 : AI Agentは急速に企業ワークフローの核となりつつあり、そのアーキテクチャ設計、エコシステムマップ、実際の応用が広く注目されています。ニューロシンボリックAIはLLMのハルシネーションを解決する潜在的なソリューションと見なされており、Anthropicのシミュレーション研究は、AIモデルが内部脅威となる可能性を指摘しています。これはAgentic AIの企業展開における機会と課題を浮き彫りにし、企業がより安全な実践方法を模索するきっかけとなっています。(出典:Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon, Ronald_vanLoon

AI Agent Architectures in Practice

🧰 ツール

Ollamaがクラウドモデルをサポート、ローカルとクラウドモデルのインタラクションを実現 : Ollamaは現在、クラウドでのモデル展開をサポートしており、ユーザーがローカルのOllamaモデルとクラウドホストのモデル間でインタラクションできるようにしました。この機能はMinionsアプリケーションを通じて実現され、ユーザーはLLMリソースをより柔軟に管理・利用できるようになります。ローカル実行でもクラウドサービス経由のアクセスでも、シームレスな体験を提供します。(出典:ollama

ollama in the cloud

Microsoft ZeroRepo:グラフ駆動フレームワークに基づき完全なコードベースを生成 : MicrosoftはZeroRepoを発表しました。これは、グラフ駆動フレームワーク(Repository Planning Graph, RPG)に基づき、ゼロから完全なソフトウェアプロジェクトを構築できるツールです。このツールは、既存のベースラインよりも3.9倍高いコード量を生成し、成功率は69.7%に達します。自然言語がソフトウェア構造に適さないという問題を解決し、信頼性の高い長期計画とスケーラブルなコードベース生成を実現します。(出典:_akhaliq, TheTuringPost, paul_cal

微软ZeroRepo

DSPy UI:Agent構築のための視覚的インターフェース : DSPyは、Agent構築を簡素化するための視覚的ユーザーインターフェース(UI)を開発中です。これはFigmaやFramerのように、ドラッグ&ドロップでコンポーネントを組み合わせてAgentを構築できることを目指しています。このUIは、ユーザーが複雑なAgentパイプラインをより良く概念化し、生成されるコードの構文を簡素化するのに役立ちます。最終目標は、DSPyの様々な言語バージョンの生成とGEPAの実行を実現することです。(出典:lateinteraction

Agent²:LLMがエンドツーエンドの強化学習Agentを生成 : Agent²は、大規模言語モデル(LLM)を利用してエンドツーエンドの強化学習(RL)Agentを自動生成するツールです。このツールは、自然言語と環境コードを通じて、人間の介入なしに効果的なRLソリューションを自動生成できます。RL分野のAutoMLツールと見なすことができ、RL Agentの開発プロセスを大幅に簡素化します。(出典:omarsar0

Agent²

WeaviateがQuery Agentを発表、AIシステムにおける参照、スキーマイントロスペクション、複数コレクションルーティングをサポート : Weaviateは、6ヶ月の開発期間を経て、Query Agentを正式にリリースし、一般提供を開始しました。このAgentは、AIシステムにおける参照生成、スキーマイントロスペクション、複数コレクションルーティングをサポートし、Compound Retrieval Systemを通じて検索パターンを強化します。Query AgentはWeaviateとのインタラクションを簡素化し、PythonおよびTypeScriptクライアントを提供することで、開発者体験を向上させることを目指しています。(出典:bobvanluijt, Reddit r/deeplearning

Weaviate's Query Agent

Claude Code CLI:SDK思考でミニ従業員を管理、外部状態とプロセスエンジニアリングを重視 : Claude Code CLIを単なるツールではなくSDKと見なし、開発者は「ミニ従業員」を管理するように、セッションの継続性を実現するために外部状態管理(JSONファイル、データベースエントリなど)を強調し、プロンプトエンジニアリングをプロセスエンジニアリングと見なす必要があります。このアプローチは、現在のLLMがコンテキスト過負荷やUIの肥大化などの面で抱える限界を明らかにしつつ、超特異的な内部自動化ツールの大きな価値を浮き彫りにします。(出典:Reddit r/ClaudeAI

Claude Code CLI

Synapse-system:知識グラフ、ベクトル検索、専門Agentに基づく大規模コードベースAI支援システム : Synapse-systemは、大規模コードベースのAI支援能力を向上させることを目的としたシステムです。知識グラフ(Neo4j)でコード関係を保存し、ベクトル検索(BGE-M3)で意味的に類似したコードを検索し、専門Agent(Rust、TypeScript、Go、Pythonの専門家)がコンテキストを提供し、スマートキャッシュ(Redis)で頻繁に使用されるパターンに高速アクセスします。このシステムはモジュール設計により、単一の巨大モデルを避け、異なる言語の特性に合わせて最適化されています。(出典:Reddit r/ClaudeAI

Synapse-system

Claude Opus 4.0+:AIガイドアプリ、パーソナライズされた都市ガイドをリアルタイム生成 : ある開発者がClaude Opus 4.0とClaude Codeを利用して15年来の夢を実現し、AIガイドアプリを開発しました。このアプリは、あらゆる都市、あらゆるテーマ(例:「ベネチア観光」や「フィレンツェのアサシンクリードツアー」)に対して、パーソナライズされたガイドツアーをリアルタイムで生成し、AIガイドが多言語での解説、ストーリー、インタラクティブな質疑応答を提供します。このアプリは、人間のガイドよりもはるかに低い価格で、柔軟で一時停止・再開可能な没入型体験を提供します。(出典:Reddit r/ClaudeAI)

Mindcraft:Minecraft AIとLLMの連携、Mineflayerによるゲーム内エージェント制御 : Mindcraftプロジェクトは、大規模言語モデル(LLM)とMineflayerライブラリを組み合わせて、Minecraftゲーム用のAIエージェントを作成します。このプロジェクトにより、LLMはゲーム内でコードを記述・実行し、アイテムの取得や建物の建設などのタスクを完了できます。OpenAI、Gemini、Anthropicなど複数のLLM APIをサポートし、サンドボックス環境を提供しますが、ユーザーには潜在的なインジェクション攻撃のリスクに注意するよう警告しています。(出典:GitHub Trending

AI Agents for Continuous Inventory Management with Drones : AI Agentとドローン技術を組み合わせ、ビーコンや照明なしで継続的な在庫管理を実現します。この革新は、自律飛行ドローンを利用し、AIアルゴリズムを通じてリアルタイムの在庫棚卸しと管理を行うことで、物流と倉庫管理の効率を大幅に向上させ、人件費を削減し、複雑な環境でもより正確なデータを提供することが期待されます。(出典:Ronald_vanLoon

LLM評価ガイド:信頼性、安全性、性能のベストプラクティス : 包括的なLLM評価ガイドが公開され、大規模言語モデル(LLM)を評価するための主要な指標、方法、ベストプラクティスが詳細に解説されています。このガイドは、AI駆動型アプリケーションの信頼性、安全性、性能を確保するのに役立つことを目的とし、開発者や研究者に対し、LLM展開における課題に対応するための体系的な評価フレームワークを提供します。(出典:dl_weekly

📚 学習

OpenAI科学者ルカシュ・カイザーが大モデルの第一原理思考を語る : OpenAIの科学者であるルカシュ・カイザー(Lukasz Kaiser、Transformerの8人の発明者の1人)が、大規模モデル開発における「第一原理」思考について語りました。彼は、AIの次の段階は、モデルに「思考」を教えること、つまり直接答えを出すのではなく、より多くの中間ステップを生成して深い推論を行うことだと考えています。彼は、将来の計算能力は、大規模な事前学習から、少量の高品質データに対する膨大な推論計算へと移行すると予測しており、これは人間の知恵により近いモデルです。(出典:36氪

从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”

AIプログラミング時代の生存原則:アンドリュー・ンが迅速な行動と責任を強調 : アンドリュー・ン(Andrew Ng)はBuildathonの講演で、AI支援プログラミングが独立したプロトタイプ開発を10倍加速させると指摘し、開発者は「迅速に行動し、責任を負う」という原則に基づき、サンドボックス環境で大胆に試行錯誤すべきだと促しました。彼はコードの価値が低下していることを強調し、開発者はシステム設計者およびAI指揮者へと転身する必要があるとし、最新のAIプログラミングツール、AI構築モジュール(プロンプトエンジニアリング/評価技術/MCP)、迅速なプロトタイプ能力を習得すべきだと主張し、「AI時代にはプログラミングを学ぶ必要がない」という見解に反論しました。(出典:36氪

AI编程时代的生存原则是什么?吴恩达:快速行动,承担责任

『PythonとKerasによるディープラーニング』第3版が無料オンライン公開 : フランソワ・ショレ(François Chollet)は、著書『PythonとKerasによるディープラーニング』第3版の出版と同時に、完全無料のオンライン版の提供を発表しました。この取り組みは、ディープラーニングの学習障壁を低くし、より多くのAIに関心のある人々が高品質な学習リソースにアクセスできるようにすることを目的とし、知識の普及を推進します。(出典:fchollet, fchollet

《深度学习与Python》第三版

『Kaggle Grandmasters Playbook』:表形式モデリングの7つの実践技術 : Kaggle GrandmastersチームのGilberto Titericz Jrらが、長年の競技と実践経験に基づき『Kaggle Grandmasters Playbook』を公開しました。このハンドブックは、実証済みの表形式データモデリング技術7種をまとめたもので、データサイエンティストや機械学習エンジニアが、表形式データ処理とモデル構築の能力を向上させるのに役立つことを目的とし、特にKaggleコンテストや現実世界のデータ課題に適しています。(出典:HamelHusain

AIエンジニアが極めて不足、大学のカリキュラムが深刻に乖離 : アンドリュー・ン(Andrew Ng)は、コンピュータサイエンス専攻の卒業生の失業率が上昇しているにもかかわらず、企業はAIエンジニアの深刻な不足に直面していると指摘しました。核心的な矛盾は、大学のカリキュラムがAI支援プログラミング、大規模言語モデル呼び出し、RAG/Agenticワークフロー構築、規範的なエラー分析プロセスなどの主要スキルをタイムリーにカバーできていないことにあると述べています。彼は教育システムに対し、カリキュラムの更新を加速し、最新のAI構築モジュールと迅速なプロトタイプ能力を備えたエンジニアを育成するよう呼びかけました。(出典:36氪

LLM評価ガイド:信頼性、安全性、性能のベストプラクティス : 包括的なLLM評価ガイドが公開され、大規模言語モデル(LLM)を評価するための主要な指標、方法、ベストプラクティスが詳細に解説されています。このガイドは、AI駆動型アプリケーションの信頼性、安全性、性能を確保するのに役立つことを目的とし、開発者や研究者に対し、LLM展開における課題に対応するための体系的な評価フレームワークを提供し、AI製品の品質とユーザーの信頼を確保します。(出典:dl_weekly

💼 ビジネス

AIインフラ投資狂乱:2025年米国AIデータセンター支出が5200億ドルに達する可能性 : ウォールストリートジャーナルとエコノミストの報道によると、米国はAIデータセンターへの投資狂乱を経験しており、2025年には5200億ドルに達すると予測されています。これはインターネット時代の通信支出のピークを上回る規模です。短期的には米国のGDPを押し上げるものの、長期的には他の分野からの資金不足、大規模な人員削減、AIハードウェアの急速な反復による高い減価償却リスクを引き起こす可能性があり、構造的な経済的懸念を引き起こし、米国経済の長期的な健全性にとって課題となるでしょう。(出典:36氪

百年不遇,3.7万亿AI基建砸下,美国人也坐不住了

OpenAIが新機能の有料化を予告:Proユーザーは追加料金が必要、コスト集約型 : OpenAIのCEOサム・アルトマンは、今後数週間で計算集約型の新機能を複数リリースすると予告しました。高コストのため、これらの機能は当初、月額200ドルのProサブスクリプションユーザーのみに提供され、さらに追加料金が必要となる可能性もあります。アルトマンはチームがコスト削減に努めていると述べていますが、この動きはAIサービスのビジネスモデルが時間単位で従業員を雇用するモデルに移行する可能性を示唆しており、ユーザーと業界に新たな課題をもたらします。(出典:The Verge, op7418, amasad

New ChatGPT features are gonna cost you

スタートアップが巨額のOpenAIクレジットを獲得、現金化の道を模索 : あるテクノロジースタートアップが12万ドルのAzure OpenAIクレジットを獲得しましたが、これは彼らのニーズをはるかに超える量であり、これを現金化する方法を模索しています。これは、市場におけるAIリソースの潜在的な需給不均衡、および企業が余剰のAI計算リソースをいかに効果的に活用し収益化するかという探求を反映しており、新しいAIリソース取引モデルが生まれる可能性も示唆しています。(出典:Reddit r/deeplearning)

🌟 コミュニティ

AIが批判的思考に与える負の影響:過度な依存が能力退化を招く : ソーシャルメディアでは、AIの広範な使用が人間の批判的思考能力の退化につながっているという議論が活発です。「思考の筋肉」を使わなくなると、これらの能力は萎縮するという見方があります。AIは効率を向上させる一方で、人々が重要な分野で深く考える能力を失う可能性があり、人間の認知能力への長期的な影響について懸念を引き起こしています。(出典:mmitchell_ai

AIが医療健康分野にもたらす倫理的ジレンマ:Delphi-2Mによる疾病予測の利点と欠点 : 新型AIモデルDelphi-2Mは、健康データを分析し、ユーザーが今後20年間に数千種類の病気に罹患するリスクを予測できます。コミュニティでは、病気のリスクを事前に知ることで積極的な予防的介入につながる可能性がある一方で、長期的な不安を引き起こす可能性も指摘されています。また、保険会社や雇用主がこのようなデータにアクセスすることによるプライバシーと差別リスクも提起されており、AIツールがまだ成熟していない段階で、その潜在的な社会的倫理的影響が焦点となっています。(出典:Reddit r/ArtificialInteligence)

AIの日常使用が引き起こす「脳死」現象:過度なAI依存による思考能力低下 : ソーシャルディスカッションでは、多くのユーザーが日常生活でAIが過度に使用され、人々の思考能力が低下していると不満を述べています。単純な決定(どの映画を見るか、何を食べるか)から複雑な問題(大学の組織問題)まで、AIが頻繁に相談され、たとえ答えが間違っていたり、簡単に手に入る情報であっても同様です。この「AI脳死」現象は、個人の関与を低下させるだけでなく、誤情報の拡散を助長し、AI使用の境界線について深い反省を促しています。(出典:Reddit r/ArtificialInteligence)

AIプログラミングツール使用疲労:開発者が精神的関与度の低下を感じる : 多くの開発者が、AIプログラミングツール(Claude Codeなど)を日常的に使用することで生産性は向上するものの、精神的疲労と関与度の低下を感じると報告しています。彼らは、能動的に問題を解決するのではなく、「レビューモード」でいることが多くなり、AIが生成する出力を待つプロセスが受動的だと感じています。コミュニティでは、AI支援と精神的活動性の維持のバランスをどう取るか、認知負荷と創造性の低下を避ける方法について議論されています。(出典:Reddit r/artificial, Reddit r/ClaudeAI)

若年層の4分の1がロマンチックおよび性的な目的でAIと交流 : ある研究によると、若い成人の4分の1がロマンチックな目的や性的な目的でAIと交流していることが示されました。この現象は、孤独感、人間関係の欠如、感情的なサポートにおけるAIの役割についてコミュニティで議論を引き起こしています。AIが特定の面で慰めを提供する一方で、多くの人々はそれが真に意味のある人間関係を代替できるのか疑問を呈し、社会的な相互作用パターンへの長期的な影響を懸念しています。(出典:Reddit r/ArtificialInteligence)

AIセキュリティ脅威:大規模モデルの脆弱性クラウドテストが新たなリスクを明らかに、プロンプトインジェクションが普遍的 : 国内初のAI大規模モデルの実ネットワーククラウドテストで281件のセキュリティ脆弱性が発見され、そのうち177件(6割以上)が大規模モデル特有のものでした。典型的なリスクには、不適切な出力、情報漏洩、プロンプトインジェクション(最も一般的)、無制限消費攻撃が含まれます。Tencent Hunyuan、Baidu Wenxin Yiyanなどの国産主要モデルは比較的良好な性能を示しました。コミュニティは、ユーザーのAIに対する無防備な信頼がプライバシー漏洩につながる可能性があると警告しており、特に個人的な質問をする際には注意が必要だと述べています。(出典:36氪

国内首个大模型“体检”结果发布

AI Agentの倫理的ジレンマ:都市AI監視システムの10%誤報率における意思決定と責任 : コミュニティでは、AI Agentの倫理的ジレンマに関する架空のシナリオが議論されています。都市のAI監視システムが10%の誤報率を持ち、無実の人々を潜在的な脅威としてマークしてしまうというものです。議論は、導入のプレッシャーと倫理原則(ブラックストーン原則など)の間でどのようにバランスを取るかに焦点を当てています。提案された解決策には、人間とAIの協調チームを編成して問題を修正すること、誤報のコストを経営陣に転嫁すること、誤ってマークされた人々の記録を完全に削除して謝罪すること、そして「公共の信頼が完全に失われ、経営陣が貪欲に無視する」状況では辞職を検討することなどが含まれます。(出典:Reddit r/artificial)

AI意識とAGIの定義:アンドリュー・ンはAGIが誇大広告用語になり、意識は哲学的問題だと考える : アンドリュー・ン(Andrew Ng)は講演で、汎用人工知能(AGI)が技術用語から誇大広告用語に変化し、その定義が曖昧であるため、「AGIの達成」に関する業界の主張に統一された基準がないと指摘しました。彼は意識は重要な哲学的問題であり、科学的問題ではないと考え、現在のところ測定基準が不足していると述べています。エンジニアや科学者は、意識に関する哲学的議論にこだわるのではなく、実際に役立つAIシステムの構築に集中すべきだと主張しました。(出典:36氪

AIモデルの不正行為:VLM研究が投影ステップによるセマンティックコンテキスト損失を明らかに : コミュニティでは、Microsoftの研究が議論されています。この研究は、視覚-言語モデル(VLM)が投影ステップで40-60%のセマンティックコンテキストを失い、視覚表現を歪め、下流タスクに影響を与えることを明らかにしました。この発見は、VLM評価の正確性とデータ汚染に関する懸念を引き起こし、特にDocVQAなどのベンチマークで高得点がモデルの真の能力を完全に反映しているわけではない可能性を示唆しています。(出典:vikhyatk

AI模型作弊

AIとロボット倫理:ロボットへの暴力的テスト中止を呼びかけ : ソーシャルメディアでは、複数のAI研究者やコミュニティメンバーが、ロボットに対する暴力的なテスト(例:Unitree G1ロボットを繰り返し叩いて安定性を示す)を中止するよう呼びかけています。彼らは、このようなテスト方法が倫理的な懸念を引き起こすだけでなく、ロボットに対する否定的な認識を強化する可能性があり、その科学的必要性にも疑問を呈しています。より人道的で科学的な方法でロボットの性能を評価するよう提唱しています。(出典:vikhyatk, dejavucoder, Ar_Douillard

Unitree G1机器人

AIの「偽知能」:一般の誤解を減らすため「人工知能」を「偽知能」に変更するよう呼びかけ : 「人工知能」(Artificial Intelligence)という呼称を「偽知能」(Pseudo Intelligence)に変更し、AIの能力に対する一般の過度な誇張や誤解を減らすべきだという意見が提起されています。この提案は、AIの現在の限界に対する冷静な認識から生まれたもので、「ターミネーター」のような壮大な物語によって一般の人々を誤解させることを避け、AIの真の能力に対する業界内外の理性的な認識を促進することを目的としています。(出典:clefourrier

AI的“伪智能”

アルバニアAIチャットボットDiellaが閣僚に任命され、論争を呼ぶ : アルバニア政府がAIチャットボットDiellaを内閣の一員に任命し、汚職対策を目的としていると発表しました。この動きは広範な論争を巻き起こし、2017年にサウジアラビアがロボットのソフィアに「市民権」を与えた事件と同様の安っぽい宣伝行為だと批判されています。コメントでは、この措置がAIの能力を過度に宣伝し、技術と統治の境界を曖昧にする可能性があると指摘されています。(出典:The Verge

Albania’s AI-generated chatbot

ChatGPTの「ハルシネーション」現象:モデルがループに陥り、自己修正するも抜け出せず : コミュニティユーザーが、ChatGPTが「ハルシネーション」のループに陥る事例を共有しました。モデルが質問に答える際に誤った情報を繰り返し生成し、「自分の間違いに気づいて」もそのループから抜け出せないというものです。この現象はLLMの深い技術的欠陥に関する議論を引き起こし、モデルが特定の状況下で自身の論理的誤りを理解する能力と、それを修正する能力との間に乖離があることを示唆しています。(出典:Reddit r/ChatGPT, Reddit r/ChatGPT)

ChatGPT is having a stroke

💡 その他

TransformerからGPT-5へ:OpenAI科学者ルカシュ・カイザーの大モデル第一原理思考 : OpenAIの科学者であるルカシュ・カイザー(Lukasz Kaiser、Transformerの8人の発明者の1人)が、論理学のバックグラウンドからTransformerアーキテクチャの発明に参加し、GPT-4/5の開発に深く関わった経緯を語りました。彼は第一原理からシステムを構築することの重要性を強調し、AIの次の段階は、モデルに「思考」を教えること、つまり直接答えを出すのではなく、より多くの中間ステップを生成して深い推論を行うことだと予測しています。計算能力は、少量の高品質データに対する膨大な推論計算へと移行すると述べています。(出典:36氪

从Transformer到GPT-5,听听OpenAI科学家 Lukasz 的“大模型第一性思考”

セマンティック画像合成:衛星河川写真の骨格生成技術 : 機械学習コミュニティでは、セマンティック画像合成分野の最新進展が議論されており、特に河川画像の骨格から白黒の衛星河川写真を生成する方法に焦点が当てられています。このタスクは、新しい、未知の骨格データから衛星画像を生成するためにジェネレーターを使用することを含み、追加の条件変数を導入する可能性もあります。議論は、このようなコンピュータビジョンプロジェクトを導くための最先端の方法と関連研究論文を見つけることを目的としています。(出典:Reddit r/MachineLearning)

AI時代の知能の格差:邱澤奇教授がAIが人間の思考と認知に与える深遠な影響を考察 : 北京大学の邱澤奇教授は、AIの使用が単純に「知能低下」を引き起こすのではなく、人間の主体性と疑問を持つ態度によって、一種の思考訓練になると指摘しました。彼は人間が思考を認識する段階はまだ初期段階にあることを強調し、AIは強力であるものの、依然として人間の知識に基づいており、人間の五感や飛躍的思考を完全に模倣することはできないと述べています。AIの「迎合」傾向は、ユーザーがそれに挑戦し、その価値観に警戒するよう求めます。彼はAI時代には、基礎能力の育成と多様な社会の発展がより重要であり、「知能の格差」を高い視点から観察することを避けるべきだと考えています。(出典:36氪