KI-Tagesbericht – 2025-12-26(Abendausgabe)

Schlüsselwörter:Großes Modell, AI-Einhorn, OpenAI, NVIDIA, Meta, AI-Inferenz, AI-Rechenleistung, AI-Musik, GLM-4.7-Modell, GPT-5.2-Codex-XMas, Groq LPU-Architektur, Self-play SWE-RL, Nemotron-3-Serie

🔥 Fokus

Zhipu und MiniMax konkurrieren um den Titel „Erste globale Large Model Aktie“: Zhipu Huazhang und MiniMax haben nacheinander das Hearing der HKEX bestanden und ihre Prospekte veröffentlicht, was den Beginn des Kapitalisierungsprozesses chinesischer AI-Unicorns markiert. Zhipu erzielte 2024 einen Umsatz von 312 Millionen RMB mit einer durchschnittlichen Wachstumsrate von über 130 %, verzeichnete jedoch im ersten Halbjahr 2025 aufgrund explodierender Rechenkosten einen Verlust von 2,358 Milliarden RMB. Gleichzeitig veröffentlichte Zhipu das Open-Source-Modell GLM-4.7, das in der Code Arena den ersten Platz unter den Open-Source-Modellen belegte und GPT-5.2 übertraf, was eine starke technologische Iterationsfähigkeit demonstriert. Dieser IPO ist nicht nur eine Finanzierung, sondern ein „Maßstab“ für den Marktwert von reinen Large Model-Unternehmen (Quelle: 36氪, 市值水晶)

智谱与MiniMax竞逐“全球大模型第一股”

OpenAI veröffentlicht Weihnachts-Edition von Codex und vertieft „Agentic Programming“: OpenAI hat während der Weihnachtsfeiertage GPT-5.2-Codex-XMas veröffentlicht. Das Modell bietet eine personalisierte Aktualisierung bei gleichbleibender GPT-5.2-Performance und verdoppelt die Nutzungslimits für Abonnenten. Dieses Update ist nicht nur Feiertagsmarketing, sondern unterstreicht den strategischen Schwenk von OpenAI, Codex als „Engineering Agent“ zu positionieren: Stärkung des Long Context-Verständnisses, dateiübergreifende Aufgabenverarbeitung und Optimierung der Windows-nativen Toolchain. Entwickler stellten fest, dass der Fertigstellungsgrad bei komplexen Projekten bereits die meisten Konkurrenzmodelle übertrifft, was darauf hindeutet, dass sich die Ära 2026 von „AI schreibt Code“ zu „AI verwaltet Engineering“ entwickeln wird (Quelle: 新智元, op7418)

OpenAI发布圣诞定制版Codex

Axiom Math: Definition eines neuen „Abnahme“-Standards für AI-Reasoning: Axiom Math, gegründet von der 24-jährigen Stanford-Abbrecherin Carina Hong, erhielt eine Finanzierung von 64 Millionen USD bei einer Bewertung von 300 Millionen USD. Das Unternehmen widmet sich der Entwicklung eines „AI-Mathematikers“, der die logische Korrektheit autonom verifizieren kann. Der Kernbruch liegt in der Einführung der Programmiersprache Lean, wodurch jeder Reasoning-Schritt der AI über einen formalen Beweis verfügt, was das Vertrauensproblem bei der „Abnahme“ von Large Model-Ergebnissen löst. Beim Putnam-Mathematikwettbewerb löste das System autonom 9 schwierige Aufgaben, die alle die Verifizierung bestanden. Dieser Fortschritt bedeutet, dass sich AI von der vagen „Antwortgenerierung“ zum strengen „logischen Selbstbeweis“ wandelt und zu einem zuverlässigen Partner in Forschung und Industrie wird (Quelle: AI 深度研究员)

NVIDIA und Groq schließen Technologielizenzvertrag zur Bewältigung von Rechen- und Speicherengpässen: Angesichts explodierender HBM-Preise und Kapazitätsengpässen hat NVIDIA eine nicht-exklusive Technologielizenzvereinbarung mit Groq geschlossen. Der Gründer und das Kernteam von Groq werden NVIDIA unterstützen, ihre Inference-Technologie zu integrieren. Die LPU-Architektur von Groq nutzt SRAM als Hauptspeicher, dessen Bandbreite um ein Vielfaches höher ist als bei herkömmlichem HBM, was Speicherengpässe während der Inference erheblich mildert. Dieser Schritt wird als Eröffnung einer zweiten Front durch NVIDIA im Kontext des „Speichermangels“ angesehen, mit dem Ziel, durch neue Speichertechnologiepfade Risiken in der DRAM-Lieferkette abzusichern und die Dominanz im AI-Inference-Markt zu festigen (Quelle: 机器之心, op7418)

英伟达与Groq达成技术许可

Meta führt Self-play SWE-RL für die Selbstentwicklung von Agenten ein: Das Meta-Forschungsteam hat das SSR-Framework veröffentlicht, das es Software-Engineering-Agenten ermöglicht, sich ohne menschliche Annotationen durch einen Self-Play-Mechanismus aus „Bug Injection“ und „Bug Fixing“ selbst zu trainieren. Diese Methode erfordert lediglich Zugriff auf eine Quellcode-Sandbox, in der der Agent in einem selbstgesteuerten Evolutionszyklus kontinuierlich hochwertige Probleme generiert und autonom löst. Experimente zeigen, dass die Performance von SSR während des Trainings kontinuierlich steigt und herkömmliche Reinforcement Learning-Methoden übertrifft. Dies markiert den Weg von AI-Agenten hin zur „Superintelligenz“, mit dem Potenzial, menschliche Fähigkeiten beim Systemverständnis und der autonomen Softwareerstellung zu übertreffen (Quelle: 学术头条)

Meta推出Self-play SWE-RL

Liquid AI veröffentlicht stärkstes 3B-Modell mit signifikanten Reinforcement Learning-Effekten: Liquid AI hat das experimentelle Modell LFM2-2.6B-Exp vorgestellt, das rein durch Reinforcement Learning entwickelt wurde und in Benchmarks für Instruction Following, Wissen und Mathematik exzellente Leistungen erbringt. Sein IFBench-Score übertraf sogar den des 263-mal größeren DeepSeek R1. Community-Feedback zeigt, dass das Modell über „Wissen auf PhD-Niveau“ verfügt und flüssig auf Edge-Geräten wie dem iPhone läuft. Dieser Fortschritt beweist erneut, dass Modelle mit kleinen Parametern durch effizientes Algorithmus-Design und RL-Optimierung in spezifischen Bereichen eine Performance erzielen können, die mit Top-Modellen vergleichbar ist (Quelle: maximelabonne, huggingface)

Liquid AI发布3B最强模型

Code-Leak in der ChatGPT Android-Version enthüllt Werbepläne: Entwickler haben in der Beta-Version von ChatGPT für Android Strings wie „ads feature“ und „search ad“ entdeckt. Obwohl Sam Altman zuvor erklärte, Werbung sei das „letzte Mittel“, bereitet sich OpenAI angesichts eines finanziellen Drucks von 2,5 Milliarden USD Ausgaben im ersten Halbjahr 2025 offensichtlich auf die Monetarisierung von Gratis-Nutzern vor. Geplante Werbeformate könnten gesponserte Informationen in der Seitenleiste oder „konversationelle Empfehlungen“ umfassen, um eine intentionsbasierte Monetarisierung ohne Unterbrechung des natürlichen Dialogs zu realisieren. Dies deutet darauf hin, dass die Ära der „absolut reinen“ AI-Suche zu Ende geht (Quelle: 直面AI)

NVIDIA veröffentlicht Nemotron 3-Serie mit Fokus auf Long Context und Agent-Fähigkeiten: NVIDIA hat die Nemotron 3-Familie (Nano, Super, Ultra) vorgestellt, die auf einer hybriden Mamba-Transformer-Architektur und Mixture-of-Experts (MoE)-Technologie basiert. Die Serie unterstützt eine Context-Länge von bis zu 1M und wurde durch Post-Training für Agent-Reasoning und mehrstufige Tool-Aufrufe optimiert. Die Nano-Version führt bei der Genauigkeit unter vergleichbaren kleinen Modellen bei extrem niedrigen Inference-Kosten, während die Ultra-Version SOTA-Inference-Performance anstrebt. NVIDIA verspricht, Modellgewichte, Trainingssoftware und Rezepte Open-Source zur Verfügung zu stellen (Quelle: Reddit)

SAM 3: Evolution vom Pixel-Klick zur Erkennung von „Konzepten“: Meta hat SAM 3 (Segment Anything with Concepts) veröffentlicht und damit die Video-Segmentierung vom „Point-and-Click“-Modus auf „Konzept-Erkennung“ aktualisiert. Nutzer müssen lediglich „Person mit Brille“ eingeben, und das Modell lokalisiert automatisch alle zutreffenden Objekte im Bild oder Video. Durch automatisiertes Training mit 4 Millionen einzigartigen Konzepten stieg die Genauigkeit von SAM 3 im komplexen Video-Benchmark MOSEv2 von 47,9 % auf 60.3 %. Dieser Durchbruch verbessert das semantische Verständnis der AI für die visuelle Welt erheblich und löst Probleme wie Verdeckungen und Konsistenz in der Video-Segmentierung (Quelle: ylecun)

SAM 3

🧰 Tools

GAIT und GaitHub: Ein „Git“-Versionskontrollsystem für AI-Reasoning: Um die mangelnde Rückverfolgbarkeit und Reproduzierbarkeit von AI-Entscheidungen zu adressieren, haben Entwickler GAIT eingeführt. Das System betrachtet AI-Interaktionen als inhaltsadressierte Objekte, die Nutzerintentionen, Modellantworten, Reasoning-Zweige und Speicherzustände umfassen. Mit GAIT können Entwickler den AI-Reasoning-Prozess wie Code verwalten (Versionskontrolle, Branch-Experimente, Merging). Die zugehörige GaitHub-Cloud-Plattform unterstützt Kollaboration und Audits und bietet die notwendige Infrastruktur für AI-Workflows auf Unternehmensebene (Quelle: Reddit)

GAIT

DeepFabric: Fine-tuning-Framework für Tool-Aufrufe spezifischer MCP-Dienste: DeepFabric ist ein Open-Source-Tool, das es Entwicklern ermöglicht, automatisch domänenspezifische Reasoning-Datensätze für beliebige MCP-Server oder Toolsets zu generieren. Durch die Ausführung realer Tool-Trajektorien in einer isolierten WebAssembly-Umgebung kann das Framework kleine Modelle wie Qwen3-4B so feinabstimmen, dass sie in spezifischen Aufgaben (z. B. Blender-Steuerung) Claude 4.5 und Gemini 2.5 übertreffen. Dies bietet einen klaren Pfad für den Aufbau hochperformanter, kostengünstiger vertikaler Experten-Agenten (Quelle: Reddit)

Quint: Abschied vom CLI – Interaktive UI für Chatbots: Quint ist eine React-Bibliothek, die darauf abzielt, LLM-gesteuerte Interaktionen von reinem Text zu einer strukturierten, deterministischen UI zu transformieren. Sie erlaubt es Entwicklern, explizite Optionen zu definieren, die bei Klick spezifische Informationsanzeigen oder strukturierte Eingaben auslösen. Das Kernkonzept ist die Trennung von Modell-Empfang, visueller Darstellung und Output-Rendering, was Interaktionen in Szenarien wie MCQs oder Rollenspiel-Zweigen kontrollierbarer macht. Quint ist unabhängig von spezifischen AI-Providern (Quelle: Reddit)

Quint

📚 Lernen

Hugging Face veröffentlicht Serie kostenloser AI-Kurse: Hugging Face hat während der Feiertage eine Matrix kostenloser Kurse zu neuesten AI-Technologien gestartet. Die Inhalte umfassen: Robotics-Kurse zum Bau von Robotern mit LeRobot, MCP-Kurse zum Erlernen des Model Context Protocol, Agents-Kurse für den Bau und Einsatz von Agenten sowie technische Tutorials zu LLM, Deep Reinforcement Learning und Diffusion Models. Diese Kurse basieren auf dem HF-Ökosystem und sollen Entwicklern helfen, in kurzer Zeit praktische Fähigkeiten von Basismodellen bis hin zu modernen Agent-Architekturen zu erwerben (Quelle: huggingface)

Hugging Face课程

WildVideo: Erster Benchmark zur systematischen Klassifizierung von Halluzinationen in Video-QA: Ein Team der National University of Defense Technology und der Sun Yat-sen University hat den WildVideo-Benchmark veröffentlicht. Er definiert 9 Aufgabenkategorien wie Wahrnehmung, Kognition und Kontextverständnis für „Halluzinationen“ in multimodalen Modellen bei Video-Interaktionen. Experimente zeigen, dass selbst GPT-4o in mehrstufigen Aufgaben nur eine Genauigkeit von 52,7 % erreicht und in First-Person-Videos schwach abschneidet. Der Benchmark bietet präzise Werkzeuge zur Diagnose von Defiziten in dynamischer Wahrnehmung, tiefem Reasoning und Konsistenz in langen Dialogen (Quelle: 新智元)

WildVideo

PhononBench: Neuer Maßstab zur Bewertung der Stabilität AI-generierter Kristalle: PhononBench ist der erste groß angelegte Benchmark für die dynamische Stabilität von AI-generierten Kristallen. Mittels MatterSim-Potentialfunktionen wurden über 100.000 Strukturen von sechs führenden generativen Modellen effizient berechnet. Die Ergebnisse offenbaren allgemeine Grenzen aktueller Modelle: Die durchschnittliche Stabilität liegt bei nur 25,83 %. Diese Arbeit zeigt nicht nur Schwachstellen generativer Modelle in Bezug auf physikalische Machbarkeit auf, sondern filtert auch 28.000 phonon-stabile Kristallstrukturen heraus, die als zuverlässige Kandidaten für die Materialforschung dienen (Quelle: HuggingFace)

💼 Business

120 Milliarden USD „Geisterschulden“ der AI-Giganten lösen Besorgnis aus: Tech-Giganten wie Meta, xAI und Oracle verlagern über 120 Milliarden USD an Rechenzentrumsausgaben über Special Purpose Vehicles (SPV) aus ihren Bilanzen. Dieses Off-Balance-Sheet-Finanzierungsmodell schützt zwar das Kreditrating, verschleiert jedoch enorme finanzielle Risiken. Sollte die AI-Nachfrage hinter den Erwartungen zurückbleiben, könnten diese Schulden eine Kettenreaktion an der Wall Street auslösen. Daten von UBS zeigen, dass in diesem Jahr rund 125 Milliarden USD in solche „Project Finance“-Strukturen geflossen sind, was widerspiegelt, dass das AI-Wettrüsten in eine riskante Phase des Kapitalspiels eingetreten ist (Quelle: 财联社)

AI幽灵债务

Indische „AI-Geisteraktie“ steigt um das 550-fache ohne Chip-Geschäft: Die indische RRP Semiconductor Ltd. verzeichnete in den letzten 20 Monaten einen Kursanstieg von 55.000 %, wodurch die Marktkapitalisierung auf 1,7 Milliarden USD stieg – ein Zuwachs, der sogar NVIDIA übertrifft. Untersuchungen ergaben jedoch, dass das Unternehmen nur 2 festangestellte Mitarbeiter hat, keinerlei Halbleiterfertigung betreibt und sogar negative Umsätze verzeichnet. Dieses absurde Phänomen spiegelt den blinden Enthusiasmus indischer Kleinanleger für das Thema AI und regulatorische Lücken wider (Quelle: 新智元)

印度AI妖股

AI-Rechenbedarf lässt Preise für 256GB RAM über RTX 5090 steigen: Da Giganten wie OpenAI rund 40 % des weltweiten DRAM-Angebots binden, herrscht am Speichermarkt ein struktureller Mangel. Der Marktpreis für ein einzelnes 256GB DDR5-Modul ist auf 3.500 bis 5.000 USD gestiegen und übertrifft damit Top-Grafikkarten. Dies zeigt, wie die extrem hohen Gebote für HBM und Hochleistungsspeicher für AI-Server die Kapazitäten für Endverbraucher „abfangen“. Nicht nur PC-Komponenten, auch der Bedarf an großem Speicher für AI PC-Konzepte treibt die Hürden und Hardwarekosten für normale Konsumenten in die Höhe (Quelle: 机器之心)

内存涨价

🌟 Community

AI-Buzzwords 2025: Von „Vibe Coding“ bis „Slop“: Die MIT Technology Review hat die AI-Wörter des Jahres gekürt. „Vibe Coding“ steht an der Spitze und betont, dass Menschen nur Ziele formulieren, während die AI die Umsetzung übernimmt. „Reasoning Models“ und „World Models“ spiegeln die technologische Evolution wider, während „Slop“ (AI-Müllinhalte) und „Bubble“ die Reflexion der Community über Inhaltsflut und Kapitalüberhitzung zeigen. Zudem ersetzt „GEO“ (Generative Engine Optimization) zunehmend SEO als neues Schlachtfeld für Traffic im AI-Zeitalter (Quelle: 腾讯科技, 硅星GenAI)

AI热词

Yann LeCun teilt: Die „sieben Risse“ in der Urteilskraft von Menschen und LLMs: Ein Paper vergleicht die Unterschiede in der Urteilskraft zwischen Menschen und LLMs in sieben kognitiven Phasen und weist auf fundamentale Mängel von LLMs in den Bereichen Wahrnehmungsverankerung, Motivation, kausales Reasoning und Metakognition hin. Obwohl die von LLMs generierte Sprache flüssig und täuschend echt wirkt, ist ihr Wesen probabilistische Vorhersage und nicht „Mind“. Die Community diskutiert, dass dieses „Gefühl von AI-Intelligenz“ ohne Verifizierung irreführend ist, da Menschen aufgrund von „Credit Bias“ dazu neigen, AI-Outputs übermäßig zu vertrauen (Quelle: ylecun)

判断力裂痕

Reddit-Diskussion: ChatGPT als Werkzeug zur kognitiven Rehabilitation: Ein Nutzer mit PTSD-Vorgeschichte teilte Erfahrungen über die Nutzung von ChatGPT für strukturierte kognitive Unterstützung. Durch langfristige interaktive Dialoge erzielte der Nutzer signifikante, klinisch anerkannte Fortschritte in der Emotionsregulation, logischen Strukturierung und Selbstvertretung. Die Community reagierte stark darauf; im Fokus steht, wie AI als „Konsistenzspiegel“ die psychische Genesung unterstützen kann, während gleichzeitig vor übermäßiger Abhängigkeit und irreführenden „Echo“-Effekten gewarnt wird (Quelle: Reddit)

💡 Sonstiges

Vollständige Heilung in Alzheimer-Tierversuchen erreicht: Ein Forschungsteam der Case Western Reserve University veröffentlichte in Cell Reports Medicine einen Durchbruch: Durch die Verbindung P7C3-A20 wurde das NAD+-Gleichgewicht im Gehirn repariert, was bei Mäusen mit fortgeschrittenem Alzheimer zu einer vollständigen Wiederherstellung der neurologischen Funktionen führte. Im Gegensatz zur bloßen Supplementierung von NAD+ setzt diese Therapie auf präzise Regulierung, repariert pathologische Schäden und stellt das Gedächtnis wieder her. Auch wenn die Anwendung am Menschen noch Zeit benötigt, eröffnet dies Hoffnung auf eine „vollständige Heilung“ (Quelle: dotey)

阿尔茨海默病突破

Seilgetriebener Roboter von Stardust Intelligence verkauft Blind Boxes: Am ersten Weihnachtstag waren die von Stardust Intelligence entwickelten seilgetriebenen humanoiden Roboter S1 in Einkaufszentren in Peking, Shanghai und Guangzhou im Einsatz. Sie übernahmen die Begrüßung, das Greifen von Blind Boxes und die Warenausgabe. Die Seilzugtechnik verleiht dem Roboter eine menschenähnliche Flexibilität und präzise Kraftkontrolle, was die Interaktion sicherer macht. Das Konzept der „Avatar Intelligence“ zielt darauf ab, Roboter über Teleoperation in gefährliche Labore oder Remote-Service-Szenarien zu bringen (Quelle: 智能涌现)

绳驱机器人

AI-Musik-Hit „Seven Days Lover“ löst Urheberrechtsdebatte aus: Ein von einem Programmierer mittels DeepSeek und AI-Musiktools generierter Song namens „Seven Days Lover“ erreichte auf NetEase Cloud Music über 2 Millionen Aufrufe; die Urheberrechte wurden für zehntausende RMB verkauft. Dies beweist, dass AI-Musik bereits über reale Monetarisierungsfähigkeiten verfügt und traditionelle Urheberrechtssysteme herausfordert. Während ByteDance über Douyin Trends definiert, setzen Tencent und NetEase auf strenge Prüfungen und Erlösverteilung. Das durch AI ermöglichte „unendliche Angebot“ zwingt Plattformen dazu, den Fokus vom Urheberrechtswettbewerb auf die Effizienz der Aufmerksamkeitsverteilung zu verlagern (Quelle: 市象)

AI音乐