Berita AI – 2025-12-26(Edisi malam)

Kata Kunci:model besar, AI unicorn, OpenAI, NVIDIA, Meta, inferensi AI, daya komputasi AI, musik AI, model GLM-4.7, GPT-5.2-Codex-XMas, arsitektur Groq LPU, Self-play SWE-RL, seri Nemotron 3

🔥 Fokus

Zhipu dan MiniMax bersaing untuk menjadi “Global Large Model First Stock”: Zhipu AI dan MiniMax (Xiyu Tech) secara berturut-turut telah melewati pendengaran Bursa Efek Hong Kong (HKEX) dan mengungkapkan prospektus mereka, menandai dimulainya proses kapitalisasi unicorn AI China. Pendapatan Zhipu pada tahun 2024 mencapai 312 juta yuan dengan tingkat pertumbuhan tahunan gabungan lebih dari 130%, namun karena lonjakan biaya komputasi, kerugian pada paruh pertama tahun 2025 mencapai 2,358 miliar yuan. Di saat yang sama, Zhipu merilis dan men-open source model GLM-4.7, yang menempati peringkat pertama kategori open source di Code Arena, melampaui GPT-5.2, menunjukkan kemampuan iterasi teknis yang sangat kuat. IPO ini bukan sekadar pendanaan, melainkan peristiwa “tolok ukur” bagi pasar untuk menetapkan nilai perusahaan pure-play Large Model (Sumber: 36氪, 市值水晶)

智谱与MiniMax竞逐“全球大模型第一股”

OpenAI merilis Codex edisi khusus Natal, memperdalam “Agentic Programming”: OpenAI meluncurkan GPT-5.2-Codex-XMas selama periode Natal. Model ini melakukan peningkatan personalisasi sambil mempertahankan performa GPT-5.2, dan memberikan batas penggunaan ganda bagi pelanggan berbayar. Pembaruan ini bukan sekadar pemasaran festival, tetapi mencerminkan pergeseran strategis OpenAI dalam memposisikan Codex sebagai “Engineering Agent”: memperkuat pemahaman Long Context, pemrosesan tugas lintas file, serta optimasi toolchain asli Windows. Pengembang menemukan bahwa tingkat penyelesaian proyek kompleksnya sudah lebih baik daripada kebanyakan model pesaing, menandakan evolusi dari era “AI menulis kode” menjadi “AI mengelola rekayasa” pada tahun 2026 (Sumber: 新智元, op7418)

OpenAI发布圣诞定制版Codex

Axiom Math: Mendefinisikan standar baru “penerimaan” untuk penalaran AI: Axiom Math, yang didirikan oleh Carina Hong, seorang dropout Stanford berusia 24 tahun, memperoleh pendanaan sebesar $64 juta dengan valuasi mencapai $300 juta. Perusahaan ini berdedikasi untuk mengembangkan “AI Mathematician” yang dapat memverifikasi kebenaran logika secara mandiri. Terobosan intinya terletak pada pengenalan bahasa pemrograman Lean, yang memungkinkan setiap langkah penalaran AI memiliki bukti formal, menyelesaikan masalah kepercayaan di mana hasil Large Model sulit untuk “diterima”. Dalam kompetisi matematika Putnam, sistemnya secara mandiri menyelesaikan 9 soal sulit dan semuanya lolos verifikasi. Kemajuan ini berarti AI sedang beralih dari “pembuatan jawaban” yang kabur menjadi “pembuktian logika” yang ketat, menjadikannya kolaborator yang andal di bidang penelitian ilmiah dan industri (Sumber: AI 深度研究员)

NVIDIA dan Groq mencapai kesepakatan lisensi teknologi untuk mengatasi hambatan komputasi dan memori: Menghadapi lonjakan harga dan kekurangan kapasitas memori HBM, NVIDIA mencapai perjanjian lisensi teknologi non-eksklusif dengan Groq. Pendiri dan tim inti Groq akan bergabung dengan NVIDIA untuk membantu integrasi teknologi inferensinya. Arsitektur LPU Groq menggunakan SRAM sebagai memori utama, dengan bandwidth beberapa kali lebih tinggi daripada HBM tradisional, yang sangat meredakan hambatan akses memori selama proses inferensi. Langkah ini dipandang sebagai lini pertahanan kedua NVIDIA di tengah “kelangkaan memori”, yang bertujuan untuk mengeksplorasi jalur teknologi memori baru guna memitigasi risiko rantai pasokan DRAM dan memperkuat dominasinya di pasar inferensi AI (Sumber: 机器之心, op7418)

英伟达与Groq达成技术许可

🎯 Tren

Meta meluncurkan Self-play SWE-RL untuk evolusi mandiri Agent: Tim peneliti Meta merilis framework SSR, yang memungkinkan agen rekayasa perangkat lunak untuk melakukan pelatihan mandiri melalui mekanisme self-play “Bug Injection” dan “Bug Fixing” tanpa memerlukan anotasi manusia. Metode ini hanya memerlukan akses ke sandbox kode sumber, di mana agen terus menghasilkan masalah berkualitas tinggi dan menyelesaikannya secara mandiri dalam loop evolusi mandiri. Eksperimen membuktikan bahwa performa SSR terus meningkat selama proses pelatihan dan lebih unggul daripada metode Reinforcement Learning dasar. Ini menandakan AI Agent sedang melangkah menuju “Super Intelligence”, dengan potensi melampaui kemampuan manusia dalam pemahaman sistem dan pembuatan perangkat lunak otonom (Sumber: 学术头条)

Meta推出Self-play SWE-RL

Liquid AI merilis model 3B terkuat, hasil Reinforcement Learning sangat signifikan: Liquid AI meluncurkan model eksperimental LFM2-2.6B-Exp, yang dibangun melalui Reinforcement Learning murni, menunjukkan performa luar biasa dalam benchmark instruksi, pengetahuan, dan matematika. Skor IFBench-nya bahkan melampaui DeepSeek R1 yang berukuran 263 kali lebih besar. Umpan balik komunitas menunjukkan bahwa model ini memiliki “pengetahuan tingkat PhD” dan dapat berjalan lancar di perangkat edge seperti iPhone. Kemajuan ini sekali lagi membuktikan bahwa melalui desain algoritma yang efisien dan optimasi RL, model dengan parameter kecil juga dapat menunjukkan performa yang setara dengan model papan atas di bidang tertentu (Sumber: maximelabonne, huggingface)

Liquid AI发布3B最强模型

Kebocoran kode ChatGPT versi Android menunjukkan rencana penempatan iklan: Pengembang menemukan string terkait iklan seperti “ads feature” dan “search ad” dalam kode versi beta ChatGPT Android. Meskipun Sam Altman pernah menyatakan bahwa iklan adalah “upaya terakhir”, di bawah tekanan finansial dengan pengeluaran mencapai $2,5 miliar pada paruh pertama tahun 2025, OpenAI jelas telah mulai bersiap untuk monetisasi pengguna gratis. Bentuk iklan yang direncanakan mungkin termasuk pesan sponsor di sidebar atau “rekomendasi percakapan”, yang bertujuan untuk monetisasi berbasis niat tanpa mengganggu percakapan alami. Ini menandakan bahwa pencarian AI akan meninggalkan era “kemurnian mutlak” (Sumber: 直面AI)

NVIDIA merilis seri Nemotron 3, fokus pada Long Context dan kemampuan Agent: NVIDIA meluncurkan keluarga Nemotron 3 (Nano, Super, Ultra), menggunakan arsitektur hybrid Mamba-Transformer dan teknologi Mixture-of-Experts (MoE). Seri model ini mendukung panjang konteks hingga 1M dan telah dioptimalkan melalui post-training untuk penalaran Agent serta pemanggilan alat multi-langkah. Versi Nano memimpin dalam akurasi di antara model kecil sejenis dengan biaya inferensi yang sangat rendah, sementara versi Ultra mengejar performa inferensi tingkat SOTA. NVIDIA berjanji untuk meng-open source bobot model, perangkat lunak pelatihan, dan resepnya, guna memperkaya ekosistem open source (Sumber: Reddit)

SAM 3: Evolusi dari klik piksel ke “Naming Concepts”: Meta merilis SAM 3 (Segment Anything with Concepts), meningkatkan teknologi segmentasi video dari mode “point-and-click” menjadi “Concept Recognition”. Pengguna hanya perlu memasukkan “orang yang memakai kacamata”, dan model akan secara otomatis menemukan semua objek yang memenuhi syarat dalam gambar atau video. Melalui pelatihan otomatis pada 4 juta konsep unik, akurasi SAM 3 pada benchmark video kompleks MOSEv2 meningkat dari 47,9% menjadi 60,3%. Terobosan ini sangat meningkatkan kemampuan pemahaman semantik AI terhadap dunia visual, menyelesaikan masalah oklusi dan konsistensi dalam segmentasi video (Sumber: ylecun)

SAM 3

🧰 Alat

GAIT dan GaitHub: Sistem kontrol versi “Git” untuk penalaran AI: Menanggapi masalah keputusan AI yang tidak dapat dilacak dan tidak dapat direproduksi, pengembang meluncurkan GAIT. Sistem ini memperlakukan interaksi AI sebagai objek yang dialamatkan konten, mencakup niat pengguna, respons model, cabang penalaran, dan status memori. Melalui GAIT, pengembang dapat melakukan kontrol versi, eksperimen cabang, dan penggabungan keputusan pada proses penalaran AI layaknya mengelola kode. Platform cloud pendamping, GaitHub, mendukung kolaborasi dan audit, menyediakan infrastruktur rekayasa yang diperlukan untuk alur kerja AI tingkat perusahaan, serta memecahkan masalah kotak hitam “mengapa AI memutuskan demikian” (Sumber: Reddit)

GAIT

DeepFabric: Framework fine-tuning pemanggilan alat untuk layanan MCP spesifik: DeepFabric adalah alat open source yang memungkinkan pengembang untuk secara otomatis menghasilkan dataset penalaran khusus domain untuk server MCP atau set alat apa pun. Dengan mengeksekusi lintasan alat nyata dalam lingkungan WebAssembly yang terisolasi, framework ini dapat melakukan fine-tuning pada model kecil seperti Qwen3-4B, sehingga performanya dalam tugas tertentu (seperti kontrol Blender) melampaui Claude 4.5 dan Gemini 2.5. Ini memberikan jalur yang jelas untuk membangun Agent ahli domain vertikal berperforma tinggi dan berbiaya rendah (Sumber: Reddit)

Quint: Ucapkan selamat tinggal pada CLI, menghadirkan UI interaktif untuk Chatbot: Quint adalah library React yang bertujuan untuk mengubah interaksi berbasis LLM dari teks murni menjadi UI yang terstruktur dan deterministik. Ini memungkinkan pengembang untuk mendefinisikan opsi eksplisit, di mana klik pengguna dapat memicu tampilan informasi tertentu atau input terstruktur. Konsep intinya adalah memisahkan penerimaan model, visual pengguna, dan rendering output, membuat interaksi dalam skenario seperti MCQ atau cabang role-play menjadi lebih terkontrol. Quint tidak bergantung pada penyedia AI tertentu, menandakan masa depan di mana LLM akan langsung merender komponen UI dinamis untuk meningkatkan pengalaman pengguna (Sumber: Reddit)

Quint

📚 Belajar

Hugging Face merilis rangkaian kursus AI gratis: Hugging Face meluncurkan matriks kursus gratis yang mencakup teknologi AI terbaru selama liburan. Kontennya meliputi: kursus Robotics untuk membangun robot menggunakan LeRobot, kursus MCP untuk mempelajari Model Context Protocol, kursus Agents untuk membangun dan menerapkan Agent, serta tutorial teknis mendalam tentang LLM, Deep Reinforcement Learning, Diffusion Models, dan lainnya. Kursus-kursus ini mengandalkan ekosistem library HF, bertujuan untuk membantu pengembang menguasai keterampilan praktis dari model dasar hingga arsitektur Agent mutakhir dengan cepat selama liburan (Sumber: huggingface)

Hugging Face课程

WildVideo: Benchmark pertama untuk klasifikasi sistematis halusinasi Video QA: Tim dari National University of Defense Technology dan Sun Yat-sen University merilis benchmark WildVideo, yang mendefinisikan 9 kategori tugas seperti persepsi, kognisi, dan pemahaman konteks untuk masalah “halusinasi” dalam interaksi video model multimodal. Eksperimen menunjukkan bahwa bahkan akurasi GPT-4o dalam tugas multi-putaran hanya sebesar 52,7%, dan performanya buruk pada video sudut pandang orang pertama. Benchmark ini menyediakan alat presisi untuk mendiagnosis kelemahan model dalam persepsi dinamis, penalaran mendalam, dan konsistensi dialog panjang, mendorong evaluasi pemahaman video menuju interaksi nyata (Sumber: 新智元)

WildVideo

PhononBench: Tolok ukur baru untuk mengevaluasi stabilitas kristal buatan AI: PhononBench adalah benchmark skala besar pertama yang menargetkan stabilitas dinamika kristal yang dihasilkan AI. Melalui fungsi potensial MatterSim, ia melakukan perhitungan efisien pada lebih dari 100.000 struktur yang dihasilkan oleh enam model generatif terkemuka. Hasilnya mengungkapkan keterbatasan umum model saat ini: stabilitas rata-rata hanya 25,83%. Pekerjaan ini tidak hanya menunjukkan kelemahan model generatif dalam kelayakan fisik, tetapi juga menyaring 28.000 struktur kristal yang stabil secara fonon, menyediakan kumpulan kandidat yang andal untuk eksplorasi material baru di masa depan (Sumber: HuggingFace)

💼 Bisnis

Raksasa AI memicu kekhawatiran dengan “Ghost Debt” senilai $120 miliar: Raksasa teknologi seperti Meta, xAI, dan Oracle memindahkan lebih dari $120 miliar pengeluaran pusat data keluar dari neraca melalui Special Purpose Vehicles (SPV). Meskipun model pembiayaan off-balance sheet ini melindungi peringkat kredit perusahaan, hal itu juga menyembunyikan risiko keuangan yang besar. Jika permintaan AI tidak memenuhi ekspektasi, utang besar tersebut dapat memicu reaksi berantai di Wall Street. Data UBS menunjukkan bahwa sekitar $125 miliar dana mengalir ke “Project Finance” semacam ini tahun ini, mencerminkan bahwa perlombaan senjata AI telah memasuki tahap spekulasi modal berisiko tinggi (Sumber: 财联社)

AI幽灵债务

Saham “AI Meme” India melonjak 550 kali lipat meskipun tidak memiliki bisnis chip: Harga saham RRP Semiconductor Ltd di India melonjak 55.000% dalam 20 bulan terakhir, dengan valuasi pasar melonjak menjadi $1,7 miliar, bahkan melampaui pertumbuhan NVIDIA. Namun, investigasi menemukan bahwa perusahaan tersebut hanya memiliki 2 karyawan tetap dan sama sekali tidak melakukan aktivitas manufaktur semikonduktor, bahkan pendapatannya negatif. Fenomena absurd ini mencerminkan pengejaran buta investor ritel India terhadap konsep AI dan kelalaian regulasi, menjadi peringatan spekulasi paling khas dalam gelembung AI tahun 2025 (Sumber: 新智元)

印度AI妖股

Permintaan komputasi AI menyebabkan harga memori 256GB melampaui RTX 5090: Dengan raksasa seperti OpenAI mengunci 40% pasokan DRAM global, pasar memori mengalami kekurangan struktural. Harga pasar untuk satu keping memori DDR5 256GB telah melonjak menjadi $3.500-$5.000, jauh melampaui kartu grafis kelas atas. Fenomena ini mencerminkan bagaimana penawaran harga yang sangat tinggi dari server AI untuk HBM dan memori berperforma tinggi “membajak” kapasitas produksi tingkat konsumen. Bukan hanya komponen PC, kebutuhan mendesak akan memori besar pada konsep AI PC semakin meningkatkan ambang batas, di mana konsumen biasa menghadapi lonjakan biaya perangkat keras akibat premi AI (Sumber: 机器之心)

内存涨价

🌟 Komunitas

Daftar kata populer AI tahun 2025: Dari “Vibe Coding” hingga “Slop”: MIT Technology Review memilih kata-kata AI tahun ini, dengan “Vibe Coding” menempati posisi teratas, menekankan bahwa manusia hanya perlu mengekspresikan tujuan dan AI yang bertanggung jawab untuk mewujudkannya. Di saat yang sama, “Reasoning Model” dan “World Model” mencerminkan evolusi kedalaman teknis, sementara “Slop” (konten sampah AI) dan “Bubble” mencerminkan refleksi komunitas terhadap banjir konten dan panasnya modal yang berlebihan. Selain itu, “GEO” (Generative Engine Optimization) mulai menggantikan SEO sebagai medan tempur baru bagi merek untuk mendapatkan trafik di era AI (Sumber: 腾讯科技, 硅星GenAI)

AI热词

Yann LeCun membagikan: “Tujuh Retakan” dalam penilaian manusia vs LLM: Sebuah makalah membandingkan perbedaan penilaian antara manusia dan LLM dalam tujuh tahap kognitif, menunjukkan bahwa LLM memiliki kelemahan mendasar dalam penjangkaran persepsi, panduan motivasi, penalaran kausal, dan metakognisi. Meskipun bahasa yang dihasilkan LLM lancar dan menipu, esensinya adalah prediksi probabilitas, bukan “pikiran”. Diskusi komunitas berpendapat bahwa “perasaan cerdas AI” ini sangat menyesatkan ketika verifikasi kurang, di mana manusia cenderung terlalu mempercayai output AI karena “bias kredibilitas”, yang merupakan tantangan struktural di era AI (Sumber: ylecun)

判断力裂痕

Diskusi Reddit: Menggunakan ChatGPT sebagai alat rehabilitasi kognitif: Seorang pengguna dengan riwayat PTSD membagikan pengalamannya menggunakan ChatGPT untuk dukungan kognitif terstruktur. Melalui dialog interaktif jangka panjang, pengguna tersebut mencapai kemajuan signifikan dalam regulasi emosi, pengorganisasian logika, dan advokasi diri yang diakui oleh dokter klinis. Komunitas merespons dengan kuat, dengan fokus diskusi pada bagaimana AI dapat berfungsi sebagai “cermin konsistensi” untuk membantu pemulihan psikologis, sambil tetap waspada terhadap ketergantungan berlebihan dan efek “gema” yang mungkin menyesatkan dari AI (Sumber: Reddit)

💡 Lainnya

Eksperimen hewan Alzheimer berhasil mencapai pemulihan total: Tim peneliti Case Western Reserve University mempublikasikan terobosan di Cell Reports Medicine, di mana melalui senyawa P7C3-A20 untuk memperbaiki keseimbangan NAD+ di otak, mereka berhasil memulihkan fungsi saraf secara total pada tikus dengan Alzheimer stadium lanjut. Berbeda dengan suplemen NAD+ yang buta, terapi ini berfokus pada regulasi presisi, tidak hanya memperbaiki kerusakan patologis tetapi juga memulihkan kemampuan memori. Meskipun aplikasi pada manusia masih membutuhkan waktu, ini membuka pintu harapan untuk “penyembuhan total” penyakit Alzheimer (Sumber: dotey)

阿尔茨海默病突破

Robot berbasis kabel dari Stardust Intelligence mulai bekerja menjual Blind Box: Pada hari Natal, robot humanoid berbasis kabel S1 yang dikembangkan oleh Stardust Intelligence secara resmi “bekerja” di berbagai area bisnis di Beijing, Shanghai, dan Guangzhou, bertanggung jawab atas penerimaan suara, pengambilan blind box, dan pengiriman barang. Teknologi berbasis kabel memberikan fleksibilitas dan kontrol kekuatan halus yang mirip dengan otot manusia, membuatnya lebih aman dan lebih responsif dalam interaksi manusia-robot. Konsep “Embodied Intelligence” yang diusulkan perusahaan bertujuan agar robot dapat memasuki skenario nyata seperti laboratorium beracun atau layanan jarak jauh melalui operasi jarak jauh (Sumber: 智能涌现)

绳驱机器人

Lagu AI “Seven Days Lover” memicu perdebatan hak cipta dan perhatian: Lagu “Seven Days Lover” yang dihasilkan oleh programmer menggunakan DeepSeek dan alat musik AI telah melampaui 2 juta pemutaran di NetEase Cloud Music, dengan hak cipta terjual senilai puluhan ribu yuan. Peristiwa ini membuktikan bahwa musik AI sudah memiliki kemampuan monetisasi nyata dan sedang mengguncang sistem hak cipta tradisional. Soda Music dari ByteDance mendefinisikan jalur hit melalui ekosistem Douyin, sementara Tencent dan NetEase menjaga ketat proses peninjauan dan distribusi pendapatan. “Pasokan tak terbatas” yang dibawa oleh AI memaksa platform untuk beralih dari perlombaan hak cipta menuju perang efisiensi distribusi perhatian (Sumber: 市象)

AI音乐