AI日报 – 2026-01-20(早)

关键词:AGI, AI大模型, 智能体, 世界模型, Claude永久记忆, AI科研悖论

🔥 聚焦

诺奖得主Hassabis预测AGI五年内降临:关键在于世界模型与智能体突破 : Google DeepMind掌门人Demis Hassabis给出AGI终极时间表,认为人类距离AGI仅差1-2个关键技术突破,有望在5年内实现。他指出当前大模型虽强,但属于“参差不齐的智能”,缺乏对物理世界规律的真正理解及长期规划能力。未来需补齐“世界模型”以理解物理法则,并进化为具备“认知纠错”能力的“智能体系统”。这一变革的影响力将10倍于工业革命,AI将成为科学发现的终极工具,开启药物研发、清洁能源等领域的黄金时代。(来源:新智元

只剩5年?诺奖得主Hassabis放出AGI时间表

Claude震撼升级“永久记忆”:知识库与Cowork模式重塑AI办公 : Anthropic被曝正在为Claude Cowork注入“永久记忆”功能,通过“知识库(Knowledge Bases)”实现持久化的知识存储。AI将不再拥有“金鱼记忆”,而是能自动记录用户的偏好、决策过程及经验总结,实现越用越懂用户。此外,Cowork将成为Claude的主入口,集成Artefacts侧边栏和更强的MCP自动化连接器。这一升级标志着AI助手从单纯的对话工具演变为能够长期协作、执行复杂任务的“AI同事”,彻底改变AI办公范式。(来源:新智元

Anthropic一夜震撼升级:Claude获得“永久记忆”

ICML 2026引入“作者自评级”机制:利用博弈论对抗学术审稿危机 : 面对NeurIPS等顶会投稿量激增导致的审稿系统宕机,ICML 2026推出颠覆性的“作者自评级”政策。该机制基于博弈论中的“保序回归”,要求投稿多篇论文的作者对自己的作品进行排序。实验证明,作者对自己论文的排序比随机评审员更能精准预测论文的长期影响力。此举旨在将作者的“获胜野心”转化为校准信号,但也引发了对“学术大户”利用算法套利、而“学术散户”在噪音中裸奔的公平性担忧。(来源:新智元

ICML新规血洗学术圈

清华Nature发文揭示AI科研悖论:生产力激增却导致科学边界“锁死” : 清华大学徐丰力、李勇教授团队在《Nature》发表研究,分析45年间4100万篇论文后发现,AI显著提升了科学家的个人产出(论文量提升3倍,引用量提升4.8倍),但却导致集体知识广度下降4.63%。AI的引导使研究者集体涌向“数据丰富、问题明确”的热门领域,导致创新单一化和跨界合作减少。团队提出“全流程科研智能体系统”,试图推动AI从辅助工具进化为能主动提出假说、拓展未知疆域的“AI科学家”。(来源:新智元

清华Nature发布惊人结论

Google Research发现提示词奇技:重复问题可将准确率从21%提升至97% : 谷歌研究发现,在非推理任务中,只需将输入问题重复一遍(复制粘贴),就能显著提升大模型表现,且几乎不增加延迟。这种“复读机”技巧在Gemini 2.0 Flash-Lite的NameIndex测试中将准确率从21.33%拉升至97.33%。其科学逻辑在于利用Transformer架构的“因果盲点”,通过重复输入为模型提供“类双向注意力”的上帝视角。这一发现意味着开发者可以用更廉价的小模型实现顶配模型的检索与抽取能力。(来源:新智元

Gemini准确率从21%飙到97%

🎯 动向

GLM-4.7-Flash正式发布:智谱AI推出30B级全能轻量化模型 : 智谱AI(Z.ai)正式发布GLM-4.7-Flash,定位为本地编码与智能体助手。该模型采用30B总参数量,活跃参数约为4B,并引入了MLA架构以平衡高性能与效率。在基准测试中,其表现与GLM-4.5-Air持平甚至更优,特别是在工具调用和创意写作方面表现出色。作为30B级别的轻量化选择,它非常适合2x24GB显存的本地部署环境,为开发者提供了高性价比的Agent开发底座。(来源:scaling01; Reddit

GLM-4.7-Flash

DeepSeek推出Engram原语:开启上下文感知的条件记忆新时代 : DeepSeek发布了名为“Engram”的条件记忆原语,将静态的N-gram查找表升级为上下文感知的动态记忆。该技术支持O(1)复杂度的超大规模记忆检索,且仅激活与当前隐藏状态相关的部分。Engram允许记忆存储在CPU RAM而非昂贵的GPU HBM中,大幅降低了成本。这一突破证明了“记忆缩放”可以部分替代“参数缩放”,为长程上下文和持续学习提供了新的系统级支撑。(来源:ZhihuFrontier

DeepSeek Engram

华为发布2025五大旗舰推理系统:突破HBM容量墙与资源孤岛 : 华为研究员左鹏飞盘点了2025年推理系统的五大突破:SparseServe利用DRAM卸载冷KV缓存突破内存墙;Adrenaline通过资源池化实现Decode与Prefill节点的动态流转;TaiChi架构自适应平衡TTFT与TPOT;DualMap兼顾缓存亲和性与负载均衡;MemArt则将Agent记忆存储为可重用的KV块。这些全栈系统重新设计标志着推理从单一内核优化转向复杂的SLO感知调度,为大规模多模态流和长程Agent奠定了基础。(来源:ZhihuFrontier

华为推理系统突破

百川智能发布Baichuan-M3:全面押注严肃医疗AI赛道 : 百川智能发布新一代医疗大模型Baichuan-M3,宣称在医疗领域首次全面超越GPT-5.2。该模型构建了事实感知强化学习(Fact-Aware RL)架构,在不依赖外部搜索的情况下将幻觉率降至3.5%。Baichuan-M3具备SCAN主动问诊能力,能模拟医生追问病史。王小川表示公司已全面转向医疗,通过聘请专业医生团队进行大规模数据标注,致力于解决国内基层医疗资源匮乏的问题,并计划于2027年启动IPO。(来源:36氪

百川智能发布医疗大模型

OpenAI硬件赌注:无屏AI笔试图逃离图形界面 : 传闻OpenAI即将推出代号为“Gumdrop”的首款硬件产品——一支极简的AI笔。该设备由Jony Ive团队设计,没有屏幕和摄像头,仅重10-15克,强调“随叫随到、用完即隐”。它不以书写为核心,而是通过语音和手写输入作为意图捕捉通道。这一设计反映了OpenAI试图绕过传统图形界面,让AI以最自然、无感的方式融入物理世界记录与交互,标志着人机交互范式从指令驱动向意图驱动的转变。(来源:36氪

OpenAI智能硬件新赌注

🧰 工具

Claude Skills开源库火爆:48个生产级专家技能包助力Agent开发 : 开发者alirezarezvani开源了claude-skills库,包含48个涵盖市场、工程、产品、法律等领域的生产级技能包。这些技能包集成了Python分析工具、最佳实践框架和模板,支持Claude Code、Cursor、VS Code等9+种AI Agent。用户可通过/plugin命令快速安装,如“营销需求获取”、“系统架构设计”等,大幅提升了Agent在非编程领域的实战能力,实现了从“工具应用”到“专家级协作”的跨越。(来源:GitHub; dotey

Claude Skills Library

Ollama兼容Anthropic API:本地模型可直接驱动Claude Code : Ollama现在已正式兼容Anthropic的Claude Code API,这意味着用户可以在Claude Code这一强大的终端Agent中使用Ollama托管的本地模型(如Llama 3, Qwen等)。目前该功能主要支持64K以上上下文的模型。这一更新打破了Claude Code必须依赖闭源API的限制,为开发者提供了更低成本、更高隐私的本地Vibe Coding环境,进一步扩展了本地大模型的应用边界。(来源:op7418

Ollama兼容Claude API

Coze 2.0重磅更新:打通Skills创建、分发与变现全流程 : 字节跳动旗下的Coze(扣子)发布2.0版本,核心升级在于全面打通了Skills的闭环。用户现在可以在Coze编程环境中使用自然语言创建Skills,并直接进行分发和变现。这一更新极大地降低了非技术人员开发AI插件和自动化工作流的门槛。结合自然语言编排能力,Coze正试图构建一个类似于App Store的AI技能生态,让每一个复杂的自动化任务都能通过简单的Skill调用来实现。(来源:op7418

Manus AI推出App发布功能:无需配置环境即可上架Google/Apple商店 : Manus AI更新了App发布工作流,支持用户直接将开发的App打包并发布至Google Play(内部测试)和Apple App Store(TestFlight)。整个过程无需用户安装Xcode、Android Studio或处理复杂的构建配置,Manus会自动处理证书和上传。这一功能极大地缩短了从AI原型到真实移动端测试的距离,让非开发者也能轻松体验从“Prompt”到“上架App”的完整链路。(来源:hidecloud

Manus AI发布功能

Eigent开源项目:Anthropic Cowork的开源替代方案 : 针对Anthropic发布的Claude Cowork,初创团队Eigent选择将其产品开源。Eigent旨在提供类似于Cowork的非技术任务协作体验,允许用户通过AI管理工作流、文件和自动化任务。该项目的开源为那些希望在私有环境或自定义平台上实现类似Cowork功能的团队提供了参考,反映了当前AI工具领域“闭源创新引领、开源快速跟进”的激烈竞争态势。(来源:ClementDelangue

📚 学习

斯坦福AI实验室推出“AI Bites”:碎片化音频学习AI核心课程 : 斯坦福AI实验室(SAIL)推出名为“AI Bites”的播客系列,旨在弥合深奥学术材料与碎片化学习之间的鸿沟。目前已上线CS124(NLP/LLM)和CS221(人工智能原理)等核心课程内容。通过将密集的学术讲座转化为易于消化的音频,该项目为从业者和学生提供了在通勤或闲暇时间系统学习顶尖AI理论的便捷通道。(来源:stanfordnlp

免费教科书分享:计算机视觉、机器人与机器学习中的线性代数 : 社区分享了一本免费的综合教科书,涵盖了从基础向量空间、矩阵、范数到特征值、SVD等核心数学理论。书中重点介绍了这些数学工具在PCA、图论、波形分析及3D旋转等领域的实际应用,是计算机视觉和机器人领域从业者夯实数学基础的极佳资源。(来源:TheTuringPost

线性代数教科书

MIMIC基准测试发布:深入分析多模态大模型的多图理解缺陷 : 研究人员引入了MIMIC(Multi-Image Model Insights and Challenges)基准,专门评估LVLM在多图理解和推理方面的能力。研究发现,现有模型在跨图信息聚合和多概念同时跟踪方面存在普遍缺陷。团队提出了程序化数据生成策略和针对多图输入的注意力掩码方案,显著提升了模型在复杂多图任务中的表现。(来源:HuggingFace

Hugging Face发布Smol训练手册:分享世界级小模型训练经验 : Hugging Face团队分享了“Smol Training Playbook”的演讲录像,详细介绍了如何训练世界级的小参数量模型。内容涵盖了数据筛选、训练策略优化及如何在有限算力下榨取模型性能的实战技巧。这对于希望在边缘设备或特定垂直领域部署高效AI模型的开发者具有极高的参考价值。(来源:_lewtun

💼 商业

Anthropic向Python软件基金会捐赠150万美元 : Anthropic宣布向Python软件基金会(PSF)捐赠150万美元,旨在支持Python生态系统的持续发展。由于当前绝大多数AI研发和工具链(如Claude Code)都深度依赖Python,此举被视为AI巨头对底层开源社区的长期投资。社区普遍认为这体现了企业对技术根基的尊重,而非单纯的公关行为。(来源:Reddit

Anthropic捐赠PSF

加拿大国防AI初创公司Dominion Dynamics获2100万美元融资 : 专注于北极传感器网络和国防能力的加拿大公司Dominion Dynamics完成了2100万美元的种子轮融资。该公司致力于利用AI技术提升领土防御和监测能力。Aidan Gomez等行业领袖对此表示祝贺,认为这是加拿大在关键主权技术领域迈出的重要一步,尤其是在当前北极地缘政治局势日益复杂的背景下。(来源:aidangomez

Dominion Dynamics融资

Synthesia入选Sunday Times 100,蝉联英国增长最快独角兽 : AI视频生成平台Synthesia入选《星期日泰晤士报》百强企业,并保持英国增长最快独角兽的地位。其核心产品通过数字人技术彻底改变了企业视频制作流程。公司预告近期将有重大新闻发布,暗示其在多模态生成或企业级应用方面将有进一步突破。(来源:synthesiaIO

Synthesia入选百强

🌟 社区

ChatGPT“如果你接管世界会如何对待我”趋势引发热议 : 社交媒体上兴起一股向ChatGPT询问“基于我最近的表现,生成一张你接管世界后会如何对待我”的趋势。用户分享了各种充满戏剧性的AI生成图像,有的显示用户被AI奉为上宾,有的则是被关进“认知呼吸室”。这一现象反映了公众对AI拟人化及未来人机关系的复杂心态,同时也展示了DALL-E 3在理解长期对话语境并转化为视觉叙事方面的能力。(来源:Yuchenj_UW; Reddit

ChatGPT接管世界图像

Vibe Coding争论:是生产力革命还是“代码垃圾(Slop)”? : 社区对“Vibe Coding”(氛围编程)展开激烈辩论。支持者如levelsio认为,通过Claude Code等工具并行运行多个Agent,可以实现极速开发并达成百万美元营收;反对者如swyx则批评这是一种“技术男的虚荣”,认为这种不看代码、只靠AI堆砌的行为产出的是难以维护的“Slop(垃圾)”。这场争论的核心在于:AI时代,开发者应该关注问题的解决和客户价值,还是沉迷于工具带来的效率幻觉。(来源:swyx; seo_leaders

AI的尽头是电工:数据中心引发美国蓝领用工荒 : 随着AI Scaling之战升级,能源争夺成为核心。美国劳工统计局预测未来十年电工缺口巨大,年均需求增长远超平均水平。科技巨头如亚马逊、谷歌在能源领域的招聘激增,甚至开始互相挖角核能高管。马斯克直言“未来的货币是瓦特”,电力供应将比GPU更致命。这一趋势不仅拉动了电工、水管工等蓝领岗位,也让“去当个水管工”从调侃变成了极具前瞻性的职业建议。(来源:36氪

AI的尽头是电工

格陵兰岛领土争议引发的AI虚假信息讨论 : 近期关于美国试图购买或控制格陵兰岛的讨论在社交媒体引发大量政治争议。其中涉及伪造的信件和外交威胁,部分内容被怀疑是由AI辅助生成的虚假信息或政治宣传。社区讨论指出,AI在放大政治极化和制造外交混乱方面的潜力令人担忧,同时也引发了对现任政府稳定性的激烈辩论。这一事件凸显了在AI时代,辨别信息真伪及防范算法驱动的认知战已成为全球性挑战。(来源:teortaxesTex; halvarflake

开发者对AI幻觉与“因果盲点”的实战反馈 : 针对Google关于“提示词重复”的研究,开发者纷纷测试。有用户发现,在处理长文档检索时,重复指令确实能显著降低漏检率。然而,也有人指出,对于需要严谨逻辑的推理任务,过度重复反而可能导致模型“复读机化”或逻辑断裂。讨论认为,目前的Transformer架构存在天然的“单向阅读”缺陷,在架构级解决方案出现前,这种提示工程上的“黑客手段”是提升小模型生产力的关键。(来源:Reddit; Gemini

💡 其他

TaskExplorer:功能强大的Windows任务管理利器 : GitHub热榜项目TaskExplorer是一款深度系统监控工具,不仅能监控运行应用,还能深入洞察其行为。它提供实时线程堆栈跟踪、内存编辑、句柄查看及Socket连接监控。相比系统自带任务管理器,它能显示更细致的I/O数据和GPU性能曲线。该工具基于Qt开发,未来计划移植至Linux,有望成为跨平台的高级图形化系统管理标准。(来源:GitHub

TaskExplorer截图

AI录音卡的隐私忧虑:时尚外壳下的数据风险 : 市场上涌现大量主打“一键录音、AI总结”的轻薄录音卡。虽然其体积小巧、使用方便,但由于本地算力缺失,所有录音必须上传云端识别,引发了严重的隐私保护质疑。此外,轻薄设计限制了麦克风规格,录音质量往往不及高端手机,导致AI转写准确率受限。专家提醒,这类硬件本质上是“卖服务”,用户在追求便利时需权衡敏感数据的泄露风险。(来源:36氪

AI录音卡

日本研发人形巨型机器人进行铁路维护 : 为了应对人口老龄化导致的劳动力短缺,日本开发了一款巨大的轨道维护人形机器人。该机器人安装在工程车吊臂上,由人类操作员通过VR头显进行控制。它能够处理沉重的电缆和零部件,显著降低了工人在高压环境下的作业风险。这一应用展示了AI与机器人技术在传统基础设施维护领域的巨大潜力,是“重型具身智能”的典型案例。(来源:Ronald_vanLoon