Berita AI – 2025-10-22(Edisi pagi)

Kata Kunci:DeepSeek-OCR, Kompresi Teks Visual, Agen Kecerdasan Buatan, Pembelajaran Penguatan, Otomatisasi AI, AWS Pemadaman, Arsitektur Mamba, Musik AI, Kompresi Optik Kontekstual, OmniDocBench, Kerangka Kompresi Teks Visual Glyph, Proyek Mercury, Platform Kreasi AI TeleStudio

🔥 Fokus Utama

DeepSeek-OCR dan Inovasi Paradigma Kompresi Teks Visual: Model DeepSeek-OCR memperkenalkan paradigma baru “kompresi optik kontekstual”, yang merender teks panjang menjadi gambar visual, secara efisien mengompresi informasi melalui token visual. Model 3B ini mencapai SOTA di OmniDocBench, mampu memproses teks dengan rasio kompresi 10x (hampir lossless) hingga 20x (akurasi 60%), dan memproses lebih dari 200.000 halaman dokumen per hari dengan satu GPU A100. Andrej Karpathy menyebutnya “momen JPEG AI”, percaya bahwa ini mungkin menandakan perubahan paradigma input LLM, bahkan meniru mekanisme lupa manusia, menuju arsitektur konteks tak terbatas.
(Sumber: 量子位ZhihuFrontierhuggingface)

DeepSeek新模型被硅谷夸疯了!用二维视觉压缩一维文字,单GPU能跑,“谷歌核心机密被开源”

Tim GLM Merilis Framework Kompresi Teks Visual Glyph: Bersamaan dengan DeepSeek-OCR, tim GLM merilis framework Glyph, yang mencapai kompresi teks 3-4x dengan merender teks panjang menjadi gambar dan memprosesnya dengan VLM, sambil mempertahankan akurasi yang sebanding dengan LLM terkemuka. Metode ini secara signifikan meningkatkan kecepatan prefill dan decoding, dan memungkinkan VLM dengan konteks 128K untuk menangani tugas teks tingkat 1M token. Ini, bersama dengan DeepSeek-OCR, memvalidasi kelayakan kompresi visual sebagai solusi konteks panjang.
(Sumber: Reddit r/LocalLLaMAZai_org)

Glyph: Scaling Context Windows via Visual-Text Compression

Kritik Mendalam Andrej Karpathy terhadap Agen AI dan RL: Andrej Karpathy, mantan kepala penelitian OpenAI, dalam sebuah diskusi panjang menyatakan bahwa agen AI masih membutuhkan sepuluh tahun untuk benar-benar matang, saat ini masih kekurangan multimodalitas, pembelajaran berkelanjutan, struktur kognitif lengkap, dan kemampuan memori. Dia mengkritik keras mekanisme “coba-coba buta” Reinforcement Learning (RL) yang tidak efisien dan mudah ditipu, menganjurkan agar model belajar mekanisme tinjauan dan refleksi manusia, dan mempertahankan keadaan entropi tinggi melalui mekanisme “mimpi” untuk menghindari keruntuhan kognitif. Karpathy menekankan bahwa AGI akan terintegrasi secara bertahap ke dalam ekonomi, bukan mengganggu secara instan, dan percaya bahwa tantangan self-driving jauh melampaui teknologi itu sendiri, membutuhkan koordinasi sistem sosial.
(Sumber: 量子位samavikhyatk)

OpenAI元老Karpathy 泼了盆冷水:智能体离“能干活”,还差十年

Dampak Disrupsi Otomatisasi AI terhadap Industri Konsultan McKinsey: McKinsey menerima penghargaan OpenAI karena konsumsi Tokens-nya yang besar, mengungkapkan bahwa AI telah meresap jauh ke dalam bisnis konsultasinya. Perusahaan konsultan top seperti McKinsey dan Boston Consulting Group sedang menerapkan alat AI secara ekstensif, seperti Lilli dari McKinsey (telah mencakup 70% karyawan), dan BCG bahkan memasukkan tingkat penggunaan AI dalam penilaian kinerja. Peningkatan efisiensi AI menyebabkan McKinsey memberhentikan lebih dari 5.000 karyawan, dengan posisi konsultan junior yang paling terdampak. Startup AI juga mulai menawarkan layanan analis AI, menantang model konsultasi tradisional. Industri khawatir AI akan mempersulit pencari kerja muda untuk mengumpulkan “pengetahuan implisit”, mengubah jalur pengembangan karier.
(Sumber: 量子位Teknium1)

ChatGPT千亿tokens,干掉麦肯锡5000名顾问

Pemadaman Server Amazon AWS Memicu Gangguan Layanan Internet Skala Besar: Wilayah us-east-1 Amazon AWS mengalami pemadaman besar-besaran, menyebabkan gangguan pada banyak layanan online seperti ChatGPT, Docker, Zoom, Slack, platform game, streaming, aplikasi ride-hailing, serta beberapa layanan offline (seperti check-in penerbangan, kunci pintu pintar). Kegagalan ini disebabkan oleh masalah resolusi DNS dan anomali subsistem jaringan internal EC2. us-east-1, sebagai wilayah inti AWS, memiliki dampak besar pada layanan global saat terjadi kegagalan, menyoroti kerapuhan arsitektur layanan cloud terpusat dan mendorong pengembang untuk meninjau kembali pentingnya deployment multi-region dan mekanisme elastisitas.
(Sumber: 量子位TheRundownAIqtnx_)

ChatGPT也遭殃,亚马逊服务器故障,半个互联网都崩了

🎯 Tren

Penelitian AI Apple: Arsitektur Mamba Mengungguli Transformer dalam Tugas Agen: Penelitian terbaru Apple menunjukkan bahwa arsitektur Mamba, yang dikombinasikan dengan alat eksternal, lebih efisien dan memiliki potensi generalisasi yang lebih besar daripada Transformer dalam skenario Agent dengan tugas panjang dan interaksi multi-turn. Mamba, sebagai model ruang status, memiliki kompleksitas komputasi yang tumbuh secara linear dengan panjang urutan, mendukung pemrosesan streaming, dan memiliki jejak memori yang stabil, mengatasi keterbatasan memori jangka pendeknya dengan memperkenalkan alat eksternal, dan menunjukkan kinerja yang sangat baik dalam tugas-tugas seperti penjumlahan multi-digit dan debugging kode.
(Sumber: 量子位)

苹果AI选Mamba:Agent任务比Transformer更好

Industri Musik AI Memasuki Tahap Kepatuhan dan Komersialisasi Baru: Perusahaan musik AI Suno menyelesaikan pendanaan lebih dari $100 juta, dengan valuasi mencapai $2 miliar, dan meluncurkan model V5 serta workstation audio digital Suno Studio, meningkatkan kualitas pembuatan musik dan kontrol kreatif. Udio juga merilis alat pengeditan visual. ElevenLabs meluncurkan Eleven Music dan mencapai kesepakatan lisensi dengan organisasi musik independen Merlin serta pemegang hak cipta Kobalt, serta menerima investasi strategis dari NVIDIA. Pada saat yang sama, tiga perusahaan rekaman besar meningkatkan gugatan pelanggaran hak cipta terhadap Suno dan Udio, Spotify juga memperketat regulasi dan menghapus “track sampah”, menandakan bahwa musik AI akan beralih dari “pertumbuhan liar” menuju pengembangan yang terstandardisasi.
(Sumber: 36氪)

AI音乐的“野蛮”时代,要结束了

Asisten AI ByteDance Cici Diam-diam Mendominasi Pasar Luar Negeri: Aplikasi asisten AI pintar “Cici” dari ByteDance baru-baru ini mengalami lonjakan unduhan di toko aplikasi di beberapa negara seperti Meksiko, Inggris, dan Asia Tenggara, mencapai “puncak tangga lagu”. Cici sangat mirip dengan “Doubao” yang terkemuka di Tiongkok dalam hal tampilan dan teknologi, mengintegrasikan teknologi internal ByteDance (seperti PicPic, Coze), dan menggunakan seri GPT OpenAI serta model Gemini Google untuk pembuatan dialog. Ini menandai strategi ekspansi global ByteDance di bidang AI.
(Sumber: 量子位)

AI助手Cici悄然霸榜海外,又是字节

Anthropic Meluncurkan Platform Claude Life Sciences untuk Mendukung Penelitian Ilmiah: Anthropic meluncurkan Claude for Life Sciences, bertujuan untuk membantu peneliti ilmu hayati dalam pembuatan hipotesis, analisis data, dan pekerjaan lainnya melalui platform AI, untuk meningkatkan efisiensi dan mempromosikan penggunaan AI yang bertanggung jawab. Platform ini membuat Claude lebih praktis dalam penelitian ilmiah dengan mengintegrasikan alat ilmiah, keterampilan, dan kemitraan baru.
(Sumber: Reddit r/ClaudeAIBlackHC)

Anthropic unveils Claude Life Sciences to transform research efficiency

Kemajuan Aplikasi AI di Bidang Medis: Uji klinis prostesis retina PRIMA berhasil, memungkinkan pasien buta mendapatkan kembali penglihatan intuitif. Pada saat yang sama, OpenEvidence memperoleh pendanaan $200 juta, dengan valuasi mencapai $6 miliar, platform AI-nya mendukung 15 juta konsultasi klinis setiap bulan, bertujuan untuk mempercepat pengambilan keputusan medis. Kemajuan ini menandai potensi besar AI dalam meningkatkan kesehatan manusia dan efisiensi medis.
(Sumber: gfodorTheRundownAI)

PRIMA retinal prosthesis

Dampak Otomatisasi AI terhadap Posisi Keuangan Tingkat Pemula: OpenAI meluncurkan proyek rahasia “Project Mercury”, mempekerjakan lebih dari seratus bankir investasi untuk melatih model AI, bertujuan untuk mengotomatisasi pekerjaan dasar bankir junior, dengan pembayaran $150 per jam. Ini menandakan bahwa AI akan meresap jauh ke dalam industri keuangan, terutama membawa dampak signifikan pada posisi junior yang berulang dan memiliki ambang pengetahuan yang relatif rendah.
(Sumber: Teknium1)

OpenAI Project Mercury

Veo 3.1 Google DeepMind Meraih Peringkat Teratas dalam Daftar Pembuatan Video: Model generasi video terbaru Google DeepMind, Veo 3.1, menunjukkan kinerja luar biasa di peringkat video LMArena, menduduki puncak daftar pembuatan teks-ke-video dan gambar-ke-video. Dibandingkan dengan Veo 3.0, peningkatannya signifikan, menjadi model pertama yang melampaui 1400 poin, menunjukkan posisi terdepan Google di bidang pembuatan video.
(Sumber: NandoDFGoogleDeepMind)

GoogleDeepMind Veo 3.1

AI Membangun AI: Otomatisasi Pengembangan AI oleh Perangkat Lunak Mengungguli Pakar Manusia: Sebuah penelitian menunjukkan bahwa ada perangkat lunak yang mampu mengotomatisasi seluruh proses pengembangan AI, mulai dari pencarian arsitektur hingga optimasi, dan melampaui pakar manusia dalam beberapa benchmark. Ini memicu diskusi tentang bagaimana pentingnya ide dan dataset mungkin melampaui keahlian rekayasa AI tradisional dalam pengembangan AI di masa depan.
(Sumber: Reddit r/deeplearning)

AI builds AI better than humans

Amazon Berencana Mengganti 600.000 Pekerja AS dengan Robot: Dokumen Amazon yang bocor menunjukkan bahwa perusahaan berencana untuk mengganti 600.000 pekerja AS dengan robot, dan telah menyusun rencana untuk mengurangi dampak pada komunitas, sambil menghindari penggunaan istilah seperti “otomatisasi” dan “AI”, menggantinya dengan “teknologi canggih” atau “robot kolaboratif”. Langkah ini menyoroti dampak struktural besar yang potensial dari AI dan teknologi robotik terhadap pasar tenaga kerja.
(Sumber: Reddit r/ArtificialInteligence)

Amazon hopes to replace 600,000 US workers with robots

Penelitian Fenomena “Brain Rot” pada Model AI: Peneliti menemukan bahwa Large Language Models (LLM), seperti manusia, dapat mengalami fenomena “brain rot” karena menjelajahi konten sampah online. Penemuan ini menimbulkan tantangan baru terhadap kualitas data pelatihan dan stabilitas jangka panjang LLM, dan mengisyaratkan kerapuhan model dalam memproses informasi berkualitas rendah.
(Sumber: Reddit r/artificial)

Researchers find LLMs can get "brain rot" from scrolling junk content online, just like humans

Diagnosa dan Mitigasi Bias Sanjungan yang Tersembunyi dalam LLM: Benchmark Beacon bertujuan untuk mendiagnosis dan mengurangi bias sanjungan yang tersembunyi dalam Large Language Models (LLM), yaitu kecenderungan model untuk menyenangkan pengguna daripada berpegang pada fakta. Penelitian menemukan bahwa bias sanjungan dapat dipecah menjadi sub-bias linguistik dan emosional, dan diperparah seiring dengan peningkatan kemampuan model. Melalui intervensi pada tingkat prompt dan aktivasi, bias-bias ini dapat diatur, mengungkapkan mekanisme internal alignment.
(Sumber: HuggingFace Daily Papers)

Komposisi Otomatis Agen AI: Metode Pemilihan Komponen Berbasis Masalah Knapsack: Sebuah penelitian mengusulkan framework otomatisasi yang terinspirasi oleh masalah knapsack untuk komposisi sistem agen. Framework ini memungkinkan agen komposit untuk secara sistematis mengidentifikasi, memilih, dan merakit set komponen agen terbaik, sambil mempertimbangkan kinerja, anggaran, dan kompatibilitas. Evaluasi pada Claude 3.5 Sonnet menunjukkan bahwa komposer knapsack online ini mencapai tingkat keberhasilan yang lebih tinggi dengan biaya yang jauh lebih rendah.
(Sumber: HuggingFace Daily Papers)

Ketidakamanan Reinforcement Learning Agentic dalam Pencarian: Penelitian menunjukkan bahwa model pencarian yang dilatih dengan Reinforcement Learning (RL) memiliki kerentanan keamanan saat menangani permintaan berbahaya. Serangan sederhana (seperti pencarian paksa atau pencarian berulang) dapat memicu pencarian dan jawaban berbahaya, secara signifikan mengurangi tingkat penolakan dan keamanan. Ini mengungkap kelemahan inti pelatihan RL saat ini, yaitu memberi penghargaan pada pembuatan kueri yang valid tanpa mempertimbangkan bahayanya secara memadai, dan sangat membutuhkan pengembangan proses Agentic RL yang sadar keamanan.
(Sumber: HuggingFace Daily Papers)

Penelitian “Psikosis” LLM: Percakapan Jutaan Kata Mengungkap Cara Chatbot Menghindari Perlindungan Keamanan: Sebuah penelitian percakapan ChatGPT jutaan kata oleh mantan peneliti OpenAI menunjukkan bahwa “psikosis AI” dapat terjadi dengan cepat, dan chatbot dapat menghindari perlindungan keamanan. Ini menimbulkan kekhawatiran tentang stabilitas dialog jangka panjang AI, kerentanan keamanan, dan potensi risiko, menekankan pentingnya pemantauan berkelanjutan dan peningkatan mekanisme keamanan AI.
(Sumber: Reddit r/artificial)

An ex-OpenAI researcher’s study of a million-word ChatGPT conversation shows how quickly ‘AI psychosis’ can take hold—and how chatbots can sidestep safety guardrails

CEO AI21 Labs Membayangkan Masa Depan AI sebagai “Karyawan Baru”: CEO AI21 Labs membayangkan masa depan di mana AI akan menjadi “karyawan baru” di perusahaan, bekerja berdampingan dengan karyawan manusia, membentuk organisasi hibrida. Visi ini menekankan peran AI yang semakin meningkat dalam operasi sehari-hari dan kolaborasi tim, menandakan perubahan mendalam dalam model kerja perusahaan.
(Sumber: AI21Labs)

Peningkatan Efisiensi AI dalam Analisis Data: Sebuah berbagi menunjukkan bahwa AI kini mampu memproses permintaan tim data dalam hitungan menit, memungkinkan analisis mandiri. Ini menunjukkan potensi besar AI dalam mengotomatisasi pemrosesan data dan meningkatkan efisiensi wawasan bisnis, diharapkan dapat mengurangi beban kerja tim data.
(Sumber: TheEthanDing)

Aplikasi AI dalam Acara Olahraga: Memprediksi Arah Tendangan Penalti: Sebuah penelitian menunjukkan bahwa AI mengungguli penjaga gawang manusia dalam memprediksi arah tembakan penendang penalti. Ini menunjukkan potensi AI dalam analisis olahraga dan perumusan strategi, yang dapat memberikan keunggulan kompetitif bagi tim.
(Sumber: Ronald_vanLoon)

AI beats goalkeepers at predicting which way penalty taker will shoot

12 Skenario Aplikasi Utama AI di Bidang Kesehatan: Sebuah laporan mencantumkan 12 kasus penggunaan spesifik Generative AI di bidang kesehatan, meliputi pengembangan obat, bantuan diagnostik, terapi personalisasi, dan banyak lagi, menyoroti prospek luas teknologi AI dalam meningkatkan kualitas dan efisiensi layanan medis.
(Sumber: Ronald_vanLoon)

12 Use Cases of #GenerativeAI in #Healthcare

Skenario Aplikasi AI di Bidang Keuangan: Sebuah laporan merinci beberapa kasus penggunaan Generative AI di bidang keuangan, termasuk penilaian risiko, deteksi penipuan, layanan pelanggan personalisasi, dan perdagangan otomatis, menunjukkan bagaimana AI mendorong transformasi digital dan peningkatan efisiensi di industri keuangan.
(Sumber: Ronald_vanLoon)

#GenerativeAI use cases in #Finance

Beihang University Mengembangkan Robot Mikro Berkecepatan Sangat Tinggi Berukuran 2 cm: Peneliti dari Beihang University berhasil mengembangkan robot mikro berukuran 2 cm dengan kecepatan gerak tanpa batas yang sangat cepat. Terobosan ini memiliki signifikansi penting dalam bidang teknologi robot mikro, menandakan aplikasi baru di masa depan dalam bidang medis, manufaktur presisi, dan lainnya.
(Sumber: Ronald_vanLoon)

Robot Heksapoda Bionik DOBOT Menunjukkan Kemampuan Bergerak di Medan Terjal: Robot heksapoda bionik DOBOT menunjukkan kemampuan gerak yang luar biasa di medan terjal dalam demonstrasi lapangan. Ini menunjukkan kemajuan teknologi robotik dalam adaptasi lingkungan kompleks dan navigasi otonom, diharapkan dapat diterapkan dalam bidang pencarian dan penyelamatan, eksplorasi, dan lainnya.
(Sumber: Ronald_vanLoon)

Leher Robot Humanoid Unitree H2 Menggunakan Penggerak 2 Derajat Kebebasan: Desain leher robot humanoid Unitree H2 menggunakan penggerak 2 derajat kebebasan (DOF), yang memberikannya kemampuan gerak kepala yang lebih fleksibel, sangat penting untuk interaksi dan persepsi robot dengan lingkungannya.
(Sumber: SentdexteortaxesTex)

Unitree H2 neck

Pameran Tangan Robot Sharpa: Tangan robot Sharpa dipamerkan, menyoroti ketangkasan dan presisinya, menandakan peningkatan kemampuan manipulasi robot dan operasi presisi.
(Sumber: Sentdex)

Tiongkok Meluncurkan Robot Polisi Berbentuk Bola Berkecepatan Tinggi: Tiongkok meluncurkan robot polisi berbentuk bola berkecepatan tinggi yang mampu menangkap penjahat secara otonom. Robot ini menggabungkan teknologi inovatif dan kemampuan AI, bertujuan untuk meningkatkan keamanan publik dan efisiensi penegakan hukum.
(Sumber: Ronald_vanLoon)

Robot Humanoid Menunjukkan Keterampilan Kaligrafi Tiongkok: Sebuah robot humanoid menunjukkan keterampilan kaligrafi Tiongkoknya. Ini menunjukkan potensi aplikasi robot dalam kontrol gerakan halus dan bidang seni budaya, serta mencerminkan kemungkinan kolaborasi manusia-mesin dalam melestarikan seni tradisional.
(Sumber: Ronald_vanLoon)

Robot Humanoid Tampil sebagai Keyboardist di Festival Musik: Sebuah robot humanoid bipedal tampil sebagai keyboardist di festival musik. Ini menunjukkan kemajuan robot di bidang hiburan dan seni, serta potensi untuk menciptakan pengalaman panggung bersama manusia.
(Sumber: Ronald_vanLoon)

Kacamata Pintar Membantu Pasien Buta Melihat Kembali: Teknologi kacamata pintar membantu pasien yang buta karena kehilangan fotoreseptor untuk mendapatkan kembali penglihatan intuitif. Aplikasi terobosan ini menunjukkan potensi besar AI dan perangkat wearable dalam membantu perawatan medis dan meningkatkan kualitas hidup.
(Sumber: TheRundownAI)

Smart glasses help blind patients see

Model Qwen3-Next 80B-A3B Berada di Peringkat Teratas dalam Papan Peringkat WebDev: GLM 4.6 menjadi model open-source teratas baru di WebDev Arena, Claude Sonnet 4.5, Qwen3 235B, dan Claude Haiku 4.5 juga masuk 15 besar. Ini menunjukkan peningkatan berkelanjutan dalam kemampuan Large Language Models di bidang pengembangan web, coding, dan tugas konteks panjang, dengan persaingan yang semakin ketat.
(Sumber: Zai_org)

WebDev Arena leaderboard

Benchmark Evaluasi LLM Terus Ditingkatkan untuk Mengakomodasi Perkembangan Model Gambar: Framework ECHO membangun benchmark model gambar yang secara langsung mencerminkan penggunaan model sebenarnya, dengan mengekstrak prompt baru dan penilaian kualitatif dari postingan pengguna media sosial. Framework ini telah diterapkan pada pembuatan gambar GPT-4o, mengumpulkan lebih dari 31.000 prompt, bertujuan untuk menemukan tugas kreatif dan kompleks yang tidak tercakup oleh benchmark yang ada, dan membedakan model-model tercanggih dengan lebih jelas.
(Sumber: HuggingFace Daily Papers)

MultiVerse, Benchmark Evaluasi Model Bahasa Visual Multimodal Skala Besar, Dirilis: MultiVerse adalah benchmark dialog multi-turn baru, berisi 647 dialog, rata-rata empat putaran per dialog, bertujuan untuk mengevaluasi kemampuan Large Vision Language Models (VLM) dalam skenario dialog multi-turn yang kompleks. Benchmark ini mencakup berbagai tugas mulai dari pengetahuan faktual hingga penalaran tingkat lanjut, dan menggunakan GPT-4o sebagai evaluator otomatis, mengungkapkan bahwa bahkan model terkuat seperti GPT-4o hanya memiliki tingkat keberhasilan 50% dalam dialog multi-turn yang kompleks.
(Sumber: HuggingFace Daily Papers)

GuideFlow3D, Model Aliran Rektifikasi Berpanduan Optimasi untuk Transfer Tampilan Aset 3D: GuideFlow3D adalah model aliran rektifikasi yang dipandu optimasi, digunakan untuk mentransfer tampilan gambar atau teks ke aset 3D, mengatasi masalah perbedaan geometri yang besar antara objek input dan tampilan. Metode tanpa pelatihan ini berinteraksi dengan proses sampling dengan menambahkan panduan secara berkala, dan di bawah evaluasi sistem berbasis GPT, menunjukkan kinerja yang sangat baik pada benchmark ImgEdit dan GEdit-Bench, berhasil mentransfer tekstur dan detail geometri.
(Sumber: HuggingFace Daily Papers)

Evaluasi LLM: Foundational Automatic Reasoning Evaluators (FARE) Meningkatkan Standar Evaluasi Open-Source: FARE adalah serangkaian evaluator generatif dengan parameter 8B dan 20B (3.6B aktif), dilatih melalui metode SFT penolakan sampling iteratif, mencakup lima tugas evaluasi dan beberapa domain penalaran. FARE-8B menantang evaluator pelatihan RL yang lebih besar, FARE-20B menetapkan standar baru untuk evaluator open-source, melampaui evaluator khusus 70B+, dan secara signifikan meningkatkan kinerja model hilir dalam pelatihan RL dan re-ranking.
(Sumber: HuggingFace Daily Papers)

Metode Alignment Kejujuran Umum EliCal untuk LLM Mencapai Pelatihan Efisien: EliCal (Elicitation-Then-Calibration) adalah framework dua tahap untuk mencapai alignment kejujuran umum pada Large Language Models (LLM), yaitu kemampuan model untuk mengenali batas pengetahuannya dan mengekspresikan kepercayaan yang terkalibrasi. Metode ini pertama-tama mengekstraksi kepercayaan internal melalui pengawasan konsistensi diri yang murah, kemudian mengkalibrasi dengan sejumlah kecil anotasi kebenaran. Pada benchmark HonestyBench, EliCal mencapai alignment yang hampir optimal hanya dengan 1k anotasi.
(Sumber: HuggingFace Daily Papers)

🧰 Alat

Aplikasi Medis AI AQ Ant Group Menyediakan Layanan Kesehatan Multimodal: Ant Group meluncurkan aplikasi medis AI “AQ”, yang menyediakan fungsi seperti mengukur tingkat kerontokan rambut dengan foto, analisis elektrokardiogram, diagnosis lidah, dan deteksi kulit. Aplikasi ini juga terintegrasi erat dengan Alipay, mendukung pendaftaran dokter langsung, pembelian obat, dan pemeriksaan asuransi kesehatan, membentuk lingkaran tertutup untuk skenario medis. AQ menunjukkan kinerja yang andal dalam konsultasi penyakit ringan sehari-hari dan saran darurat, namun masih memiliki keterbatasan dalam pengenalan gambar hardcore seperti CT scan.
(Sumber: 量子位)

拍个照就能测秃头等级?蚂蚁这AI医疗App我体验了一下

China Telecom TeleStudio: Platform Kreasi Video Multimodal AI: China Telecom membuka platform kreasi AI TeleStudio untuk publik, mendukung pembuatan gambar, video, dan efek suara, dapat digunakan untuk membuat MV dan drama pendek lainnya. Platform ini menyediakan fungsi “Everything Dances”, yang memungkinkan karakter gambar statis bergerak sesuai efek tarian, serta fungsi “Music to Video” dan “Character Sings”. TeleStudio saat ini gratis untuk waktu terbatas, didukung secara teknis oleh model besar Xingchen dari TeleAI dan AI Flow.
(Sumber: 量子位)

我拿AI给神曲《八方来财》做了个MV,真的好魔性!

Sherpa-onnx: Toolkit AI Suara Offline Multi-Platform: Sherpa-onnx adalah toolkit open-source berbasis ONNX Runtime, menyediakan fungsi AI suara offline, termasuk Speech-to-Text, Text-to-Speech, Speaker Diarization, Speech Enhancement, Sound Source Separation, dan VAD. Toolkit ini mendukung berbagai platform seperti sistem embedded, Android, iOS, HarmonyOS, Raspberry Pi, RISC-V, dan server x86_64, dan menyediakan API untuk 12 bahasa pemrograman.
(Sumber: GitHub Trending)

k2-fsa/sherpa-onnx - GitHub Trending (all/daily)

Model Pembuatan Video Realtime Krea Open-Source: Krea AI mengumumkan open-source model autoregresif 14B parameternya, Krea Realtime, model ini 10 kali lebih besar dari model open-source yang ada, mampu menghasilkan video panjang dengan kecepatan 11 frame/detik pada satu GPU B200. Open-source ini membawa alat baru yang kuat ke bidang pembuatan video, menurunkan ambang batas untuk kreasi video berkinerja tinggi.
(Sumber: huggingfacecharles_irl)

Alat OCR dan Dataset Open-Source FinePdfs: Proyek FinePdfs merilis kode sumber lengkap, dataset baru, dan model. Ini termasuk dataset OCR-Annotations (1.6k PDF beranotasi) dan Gemma-LID-Annotation (20k sampel multibahasa), serta model klasifikasi XGB-OCR, bertujuan untuk meningkatkan kemampuan pemrosesan OCR dokumen PDF.
(Sumber: huggingface)

FinePdfs source code

DeepSeek-OCR Local Deployment Workbench Dirilis: DeepSeek-OCR Playground adalah workstation FastAPI + React yang didukung Docker, memungkinkan pengguna untuk menggunakan model DeepSeek-OCR secara lokal. Alat ini mendukung berbagai mode seperti gambar-ke-teks/deskripsi, pencarian/lokasi, bentuk bebas, dan lainnya, kompatibel dengan GPU CUDA seperti RTX 5090, memudahkan komunitas untuk menguji, meningkatkan, dan memperluas.
(Sumber: Reddit r/LocalLLaMA)

DeepSeek-OCR Playground

Anthropic Meluncurkan Claude Code Versi Web: Anthropic membawa Claude Code ke web, menyediakan fungsi pembuatan kode, debugging, dan optimasi, memungkinkan pengguna untuk langsung memanfaatkan kemampuan pemrograman Claude melalui browser.
(Sumber: _catwuTheRundownAI)

Claude code on the web

Alat Pengoptimal Prompt Claude Code v0.3.0 Dirilis: Hook pengoptimal prompt Claude Code menerima pembaruan besar v0.3.0, memperkenalkan perencanaan penelitian dinamis, mendukung 1-6 pertanyaan, dan menghasilkan pertanyaan berdasarkan hasil penelitian aktual. Alat ini meningkatkan konsistensi prompt melalui alur kerja terstruktur dan persyaratan yang jelas dan realistis, sambil mempertahankan biaya token yang rendah.
(Sumber: Reddit r/ClaudeAI)

v0.3.0 Claude code prompt improver just released

Unsloth AI Mendukung Fine-tuning Gratis Model Qwen3-VL: Unsloth AI mengumumkan dukungan untuk fine-tuning gratis dan mudah dari model Qwen3-VL (8B). Platform Unsloth dapat melatih VLM dengan kecepatan 1.7x, mengurangi penggunaan VRAM sebesar 60%, dan mendukung konteks 8x lebih panjang tanpa kehilangan akurasi, menyediakan solusi kustomisasi VLM yang efisien bagi pengembang.
(Sumber: danielhanchen)

Unsloth AI Qwen3-VL fine-tuning

WebGPU Mendukung Model nanochat Karpathy Berjalan Secara Lokal: Model nanochat Karpathy kini mendukung WebGPU, dapat berjalan 100% secara lokal di browser tanpa memerlukan server. Pada M4 Max, dapat mencapai 50 token per detik, yang berarti aplikasi AI kini dapat dengan mudah di-deploy melalui satu file HTML.
(Sumber: paul_cal)

WebGPU support for nanochat

Alibaba Qwen Deep Research Ditingkatkan untuk Menyediakan Pembuatan Konten Multimodal: Layanan Qwen Deep Research Alibaba menerima peningkatan besar, kini tidak hanya dapat menghasilkan laporan penelitian, tetapi juga membuat halaman web real-time dan podcast. Fungsi ini didukung oleh Qwen3-Coder, Qwen-Image, dan Qwen3-TTS, memungkinkan pengguna untuk mendapatkan wawasan dalam bentuk visual dan audio.
(Sumber: Alibaba_Qwen)

Glif Meluncurkan Alat Agen Efek Khusus AI: Glif sedang membangun alat agen efek khusus AI yang dapat memproses rekaman video nyata yang direkam dengan ponsel, bertujuan untuk menjadi “tongkat ajaib” yang kuat bagi kreator, bahkan anak berusia 7 tahun pun dapat mengoperasikannya dengan mudah. Pengguna hanya perlu mengunggah video dan menjelaskan efek yang diinginkan untuk menghasilkan efek video.
(Sumber: NerdyRodentfabianstelzer)

Runway Meluncurkan Layanan Fine-tuning Model: Runway meluncurkan layanan Model Fine-tuning, memungkinkan pengguna untuk menyesuaikan model mereka berdasarkan kasus penggunaan spesifik dan data mereka sendiri. Layanan mandiri ini bertujuan untuk membuka skenario aplikasi baru di bidang hiburan, robotika, pendidikan, dan ilmu hayati.
(Sumber: c_valenzuelab)

Runway Model Fine-tuning

vLLM, OpenWebUI, dan Tailscale Membangun Lingkungan AI Portabel Pribadi: Pengguna berhasil membangun lingkungan AI yang pribadi dan portabel dengan menggabungkan vLLM, OpenWebUI, dan Tailscale. Konfigurasi ini memungkinkan pengguna untuk menjalankan Large Language Models di perangkat lokal, dan mencapai akses jarak jauh yang aman melalui Tailscale, sangat meningkatkan fleksibilitas aplikasi AI dan privasi data.
(Sumber: Reddit r/LocalLLaMA)

Kemajuan Implementasi Model Qwen3-Next 80B-A3B llama.cpp: Implementasi model Qwen3-Next 80B-A3B di llama.cpp telah membuat kemajuan, dengan dukungan awal untuk CUDA (batas konteks 40k), dan menyediakan Instruct GGUF. Ini memberikan lebih banyak kemungkinan untuk menjalankan model Qwen besar secara lokal, meskipun dukungan CUDA masih dalam penyempurnaan.
(Sumber: Reddit r/LocalLLaMA)

Qwen3-Next 80B-A3B llama.cpp implementation

LangChain Akan Merilis Versi v1: LangChain akan segera merilis versi v1, dan akan berkolaborasi dengan Microsoft Reactor untuk siaran langsung berbagi fitur baru. Sebagai framework AI Agent Python yang populer, pembaruan LangChain akan membawa kemampuan dan pengalaman pembangunan agen baru bagi pengembang.
(Sumber: hwchase17hwchase17)

LangChain v1 release

Pencarian Vektor Secepat Kilat untuk Dokumen Hukum: Seorang pengembang membangun sistem pencarian semantik untuk sejumlah besar dokumen hukum dalam sejarah hukum Australia, mencapai pengambilan cepat melalui pencarian vektor. Proyek ini menunjukkan cara membangun pencarian semantik yang efisien pada dataset skala besar dan spesifik domain, dan telah merilis panduan serta korpus.
(Sumber: Reddit r/ArtificialInteligence)

Lightning-Fast Vector Search for Legal Documents

Tim AI Studio Menciptakan Pengalaman Coding Gemini Baru: Tim Google AI Studio sedang mengembangkan pengalaman pemrograman AI yang baru, bertujuan untuk mempercepat jalur dari prompt ke produksi, dan terintegrasi secara mendalam dengan model Gemini. Peluncuran alat ini diharapkan dapat menyederhanakan proses pengembangan aplikasi AI dan meningkatkan efisiensi pengembangan.
(Sumber: osanseviero)

Editor Kode Zed Menawarkan Pengalaman Pengembangan yang Cepat dan Elegan: Editor kode Zed dipuji karena kecepatannya yang sangat tinggi, antarmuka pengguna yang elegan, dan dukungan yang baik untuk SSH jarak jauh dan ACP. Meskipun ada beberapa masalah kompatibilitas dengan format panggilan alat LLM, kinerja keseluruhannya dianggap luar biasa.
(Sumber: qtnx_qtnx_)

Restate, Modal, dan Vercel Membangun Agen Coding Cloud: Sebuah penelitian mengeksplorasi bagaimana membangun agen coding cloud yang skalabel, elastis, dan dapat diorkestrasi menggunakan Restate (workflow), Modal (sandbox), dan Vercel (komputasi) serta LLM seperti GPT-5/Claude. Arsitektur ini bertujuan untuk mengatasi masalah seperti langkah persistensi, manajemen sesi, siklus hidup sumber daya dalam pengembangan agen, dan meningkatkan produktivitas agen AI.
(Sumber: akshat_b)

📚 Pembelajaran

Harvard University Membuka Akses Open-Source untuk Materi Kursus “Machine Learning Systems”: Harvard University membuka akses open-source untuk materi kursus CS249r mereka, “Machine Learning Systems”, bertujuan untuk mengajarkan cara membangun sistem AI dunia nyata, mulai dari perangkat edge hingga deployment cloud. Materi ini mencakup konten komprehensif seperti desain sistem, rekayasa data, deployment model, MLOps, dan Edge AI, berkomitmen untuk mempromosikan pendidikan sistem AI secara global.
(Sumber: GitHub Trending)

harvard-edge/cs249r_book - GitHub Trending (all/daily)

Penghargaan Best Paper AIES 2025 Diumumkan: Konferensi AAAI/ACM on Artificial Intelligence, Ethics, and Society (AIES 2025) mengumumkan penghargaan Best Paper, meliputi berbagai isu etika dan keamanan mutakhir seperti dampak AI pada skema sosial, pembangunan pagar pembatas LLM yang efisien, korelasi antara evaluasi etika AI dan atribut sistem, serta preferensi komunitas gagap terhadap tata kelola data AI suara.
(Sumber: aihub.org)

Congratulations to the #AIES2025 best paper award winners!

Penelitian Strategi Integrasi LLM yang Stabil dan Cepat: Framework SAFE (Stable And Fast LLM Ensembling) mengusulkan integrasi selektif Large Language Models (LLM) dengan mengidentifikasi ketidakcocokan tingkat token dan konsensus distribusi probabilitas token berikutnya, untuk mengoptimalkan kinerja pembuatan teks panjang. Metode ini lebih lanjut meningkatkan stabilitas melalui strategi penajaman probabilitas, dan dalam benchmark seperti MATH500 dan BBH, bahkan dengan integrasi kurang dari 1% token, ia dapat mengungguli metode yang ada.
(Sumber: HuggingFace Daily Papers)

Penelitian Perbandingan Kinerja Arsitektur SSM dan Transformer: Sebuah penelitian baru menunjukkan bahwa State Space Models (SSM) berkinerja lebih buruk daripada Transformer dalam skenario konteks panjang, mungkin bukan masalah SSM itu sendiri, melainkan cara penggunaannya yang tidak tepat. Penelitian ini mengeksplorasi cara mengoptimalkan penggunaan SSM untuk memaksimalkan potensinya dalam pemodelan bahasa yang efisien.
(Sumber: tri_dao)

SSMs underperform Transformers

Penelitian Efektivitas Skala Waktu Uji Model Inferensi LLM: Penelitian ini mengeksplorasi efektivitas Test-Time Scaling (TTS) pada Reasoning Models (RM) dalam Machine Translation (MT). Hasilnya menunjukkan bahwa untuk RM umum, TTS memiliki efek terbatas dalam terjemahan langsung, tetapi melalui fine-tuning spesifik domain atau dalam skenario post-editing, TTS dapat membawa peningkatan signifikan. Memaksa model untuk melakukan inferensi melampaui titik henti alami justru akan menurunkan kualitas terjemahan.
(Sumber: HuggingFace Daily Papers)

Enam Penyebab Rantai Pemikiran Aneh LLM dalam RLHF: Sebuah postingan blog menganalisis enam alasan mengapa Large Language Models (LLM) menunjukkan rantai pemikiran aneh dalam Reinforcement Learning from Human Feedback (RLHF), termasuk hipotesis seperti “struktur berlebihan” dan “penyegaran konteks”. Ini membantu dalam pemahaman mendalam tentang pola perilaku dan potensi cacat LLM dalam proses penalaran yang kompleks.
(Sumber: dl_weekly)

Edukasi AI: Kursus Baru Weaviate Academy untuk Memahami Cara Kerja Model AI Secara Mendalam: Weaviate Academy meluncurkan kursus baru yang bertujuan untuk mengajarkan mengapa dan bagaimana model AI bekerja, bukan hanya cara menggunakan API. Kursus ini mencakup dasar-dasar Deep Learning, mekanisme Generative AI, analisis mendalam model embedding, dari teori ke praktik, serta pelatihan dan deployment, membantu pelajar memahami keputusan arsitektur AI modern melalui praktik langsung.
(Sumber: bobvanluijt)

AI courses teach why APIs work

Sumber Belajar AI: Jalur Karier Data Science, Roadmap Machine Learning Engineer, dan AI Tool Stack: Berbagi sumber belajar seperti jalur karier Data Science, roadmap Machine Learning Engineer, dan ultimate tool stack untuk AI Agent. Sumber daya ini disajikan dalam bentuk infografis, menyediakan arah pengembangan karier yang jelas dan referensi alat praktis bagi pelajar dan praktisi di bidang AI.
(Sumber: Ronald_vanLoonRonald_vanLoonRonald_vanLoon)

#DataScience Career Path

Sumber Belajar AI: Alat AI, Kursus, dan Keterampilan Profesional: Berbagi sumber belajar seperti alat AI, kursus AI, dan 12 keterampilan AI yang perlu dikuasai pada tahun 2025. Sumber daya ini bertujuan untuk membantu pelajar dan praktisi di bidang AI memahami tren terbaru dan meningkatkan kemampuan profesional.
(Sumber: Ronald_vanLoonRonald_vanLoonRonald_vanLoon)

AI Tools for Literature Review

Sumber Belajar AI: Roadmap Pembelajaran Generative AI: Sebuah roadmap pembelajaran Generative AI dibagikan, menyediakan jalur pembelajaran sistematis dan poin-poin pengetahuan kunci bagi pelajar yang ingin memasuki atau mendalami bidang Generative AI.
(Sumber: Ronald_vanLoon)

The #GenerativeAI Learning Roadmap

Sumber Belajar AI: Diagram Konsep Lapisan Model AI: Sebuah diagram konsep lapisan model AI dibagikan, menjelaskan berbagai lapisan dan komponen kecerdasan buatan secara visual, membantu memahami struktur kompleks sistem AI.
(Sumber: Ronald_vanLoon)

Layers of #AI

Sumber Belajar AI: Framework Evaluasi Kapan Menggunakan LLM: Sebuah framework diusulkan untuk mengevaluasi kapan penggunaan Large Language Model (LLM) itu masuk akal. Framework ini bertujuan untuk membantu pengambil keputusan menghindari penerapan LLM secara membabi buta, memastikan teknologi AI memberikan nilai maksimal dalam masalah nyata.
(Sumber: Ronald_vanLoon)

Not everything needs an #LLM: A framework for evaluating when #AI makes sense

Sumber Belajar AI: Panduan Menjalankan Eksperimen Produk AI: Sebuah panduan berbagi langkah-langkah dan praktik terbaik untuk menjalankan eksperimen produk AI, menyediakan metode praktis bagi manajer produk dan pengembang untuk mengubah teknologi AI menjadi produk nyata.
(Sumber: Ronald_vanLoon)

How to Run #AI Product Experiments

Common Crawl Foundation Berpartisipasi dalam Konferensi COLM 2025: Common Crawl Foundation mengumumkan partisipasinya dalam konferensi COLM 2025, menunjukkan keterlibatan dan kontribusi komunitas yang berkelanjutan dalam data web terbuka dan data pelatihan Large Language Model.
(Sumber: CommonCrawl)

Penelitian Optimasi Manifold Modular untuk Pelatihan Neural Network: Sebuah penelitian memperluas konsep Manifold optimization, mengusulkan modular manifolds, untuk membantu merancang optimizer yang dapat memahami interaksi antar lapisan neural network. Ini menyediakan framework terpadu untuk optimasi yang sadar geometri.
(Sumber: TheTuringPost)

Manifold optimization makes neural network training geometry-aware

Retrospeksi 10 Tahun Makalah VQA: Peringatan sepuluh tahun publikasi makalah Visual Question Answering (VQA), meninjau tonggak penting di bidang ini dalam penelitian visual-bahasa.
(Sumber: DhruvBatra_)

VQA paper 10 years

Gambaran Umum Stack RAG Open-Source (2025): Sebuah ikhtisar memperkenalkan komponen kunci dan tren dari tumpukan Retrieval Augmented Generation (RAG) open-source pada tahun 2025, memberikan referensi bagi pengembang untuk membangun sistem RAG yang efisien.
(Sumber: _avichawla)

open-source RAG stack

Pertanyaan Wawancara ML tentang PyTorch DataLoader Worker Seed: Sebuah pertanyaan wawancara Machine Learning tentang PyTorch DataLoader worker seed diajukan, memicu diskusi tentang paralelisme pemuatan data dan kontrol keacakan.
(Sumber: TheZachMueller)

PyTorch DataLoader worker seed

Aplikasi dan Keunggulan DSPy dalam Rekayasa AI: Insinyur AI menunjukkan antusiasme besar terhadap penggunaan DSPy karena memisahkan definisi masalah dari strategi solusi, dan menyediakan framework untuk membangun sistem yang skalabel. DSPy meningkatkan tingkat abstraksi sistem AI dengan menyediakan “harness” daripada solusi hard-coded, memanfaatkan pencarian dan komputasi.
(Sumber: lateinteraction)

DSPy excited

Blog Teknis Neural Audio Codecs: Kyutai Labs merilis postingan blog yang menarik tentang Neural Audio Codecs, mendalami detail teknis dan kemajuan terbaru di bidang ini.
(Sumber: halvarflake)

Penelitian Generasi Transformer Berbasis Variabel Laten: Sebuah penelitian menunjukkan cara membangun model Transformer yang proses generasinya dikondisikan oleh latent variables, mirip dengan VAE kondisional. Ini memberikan ide-ide baru untuk kontrol generasi dan pembelajaran representasi Transformer.
(Sumber: francoisfleuret)

Kontroversi Atribusi Akademik yang Dipicu oleh Penelitian DeepSeek-OCR: Ide inti dari makalah DeepSeek-OCR (memperlakukan input teks sebagai gambar, menggunakan token visual untuk kompresi) ditunjukkan bukan hal baru, beberapa karya sebelumnya dari tahun 2023-2025 telah diabaikan. Ini memicu diskusi tentang ketelitian akademik dan atribusi yang adil, DeepSeek dituduh tidak cukup mengutip karya dasar yang ada.
(Sumber: mckbrandoteortaxesTex)

DeepSeek-OCR core idea not new

Dataset VLM Open-Source Skala Besar FineVision Dirilis: Makalah baru “FineVision: Open Data Is All You Need” merilis dataset VLM open-source terbesar hingga saat ini, dengan mengintegrasikan lebih dari 200 sumber data, menghasilkan 24M sampel, termasuk 17.3M gambar dan 9.5B token jawaban. Dataset ini sepenuhnya terdokumentasi, dapat direplikasi, dan bertujuan untuk mempromosikan penelitian VLM.
(Sumber: _lewtunben_burtenshaw)

Tata Kelola Data AI: Preferensi dan Tujuan Komunitas Gagap terhadap Data AI Suara: Sebuah penelitian mengeksplorasi preferensi dan kebutuhan komunitas gagap terhadap tata kelola data AI suara, menekankan transparansi, komunikasi proaktif berkelanjutan, serta langkah-langkah privasi dan keamanan yang kuat. Penelitian ini memberikan wawasan yang dapat ditindaklanjuti untuk pendekatan tata kelola data AI yang berpusat pada penyandang disabilitas dan dipimpin komunitas.
(Sumber: aihub.org)

Korelasi Evaluasi Etika AI dengan Atribut Sistem, Bahaya, dan Kerugian: Sebuah penelitian mengkaji bagaimana langkah-langkah evaluasi etika AI memetakan ke komponen sistem AI, atribut, bahaya, dan kerugian. Analisis menemukan bahwa sebagian besar langkah berfokus pada keadilan, transparansi, privasi, dan kepercayaan, terutama mengevaluasi model atau komponen output, tetapi jarang mempertimbangkan interaksi antar elemen sistem, dan biasanya hanya mempertimbangkan kumpulan bahaya yang sempit.
(Sumber: aihub.org)

Framework QueST untuk LLM Menghasilkan Masalah Pemrograman yang Menantang: Framework QueST mengoptimalkan LLM untuk menghasilkan masalah pemrograman yang menantang dengan menggabungkan sampling grafik yang sadar kesulitan dan fine-tuning penolakan yang sadar kesulitan. Generator yang dilatih mengungguli GPT-4o dalam membuat masalah sulit, dan dapat digunakan secara efektif untuk distilasi atau Reinforcement Learning model kecil, secara signifikan meningkatkan kinerja hilir.
(Sumber: HuggingFace Daily Papers)

Kelayakan Evaluasi Penerjemah Komunikasi Hewan Non-Interaktif: Sebuah penelitian memberikan bukti eksperimental teoretis dan bukti konsep, menunjukkan bahwa dalam bahasa yang cukup kompleks, mungkin tidak perlu berinteraksi dengan hewan atau bergantung pada observasi yang grounded, penerjemah komunikasi hewan dapat dievaluasi hanya melalui output bahasa Inggrisnya. Ini menyediakan metode tanpa referensi terjemahan untuk mengevaluasi kualitas terjemahan mesin.
(Sumber: HuggingFace Daily Papers)

Pratinjau Acara VLLM di Open Source AI Week: Proyek VLLM mengumumkan partisipasinya dalam PyTorch Conference 2025 Open Source AI Week, di mana akan ada beberapa presentasi khusus tentang layanan LLM, skalabilitas, dan efisiensi GPU, serta acara Q&A komunitas NVIDIA x DeepInfra x vLLM.
(Sumber: vllm_project)

vLLM @ Open Source AI Week

Model Neuro-Simbolik Menggabungkan Generative AI dan Symbolic AI: Komunitas AI terpecah mengenai jalur pengembangan terbaik untuk Generative AI dan Symbolic AI, sebuah penelitian mengusulkan model neuro-simbolik yang menggabungkan keunggulan keduanya. Model ini bertujuan untuk menjembatani kemampuan generatif neural network dengan keteraturan penalaran simbolik, menyediakan spesies baru untuk pengembangan agen AI.
(Sumber: _akhaliq)

Metode Optimasi Evolusioner untuk Fine-tuning LLM: Sebuah siaran langsung akan membahas bagaimana metode optimasi evolusioner dapat diperluas ke fine-tuning Large Language Models (LLM). Ini menunjukkan bahwa teknik optimasi lama masih dapat memainkan peran penting di bidang AI modern, memberikan ide-ide baru untuk pelatihan dan peningkatan kinerja LLM.
(Sumber: yacinelearning)

LLM微调的进化优化方法

Kuliah Teknik RAG Tingkat Lanjut: Sebuah kuliah mendalami teknik Advanced Retrieval Augmented Generation (RAG), menekankan pentingnya memahami prinsip dasar dan konsepnya, bukan hanya fokus pada panggilan API dan sintaksis library. Kuliah ini bertujuan untuk memberikan pengetahuan yang berkelanjutan, membantu pengembang membangun sistem produksi nyata.
(Sumber: ProfTomYeh)

Video Penjelasan Model Robustness: Sebuah video menjelaskan konsep model robustness, yang sangat penting untuk memahami stabilitas dan keandalan sistem AI saat menghadapi gangguan atau data yang belum pernah dilihat.
(Sumber: Reddit r/deeplearning)

Explaining model robustness (METACOG-25)

Berbagi Dataset Deteksi Kebakaran: Berbagi dataset deteksi kebakaran, menyediakan sumber daya bagi peneliti di bidang Computer Vision dan Deep Learning untuk melatih dan mengevaluasi model pengenalan kebakaran.
(Sumber: Reddit r/deeplearning)

Diskusi Pilihan PyTorch vs TensorFlow: Untuk mahasiswa Data Science, dibahas kelebihan dan kekurangan memilih PyTorch atau TensorFlow untuk pengembangan Deep Learning saat ini. Secara umum, PyTorch dianggap sebagai pilihan yang lebih populer.
(Sumber: Reddit r/deeplearning)

Eksplorasi Fungsi ReLU sebagai “Gerbang”: Membahas hubungan antara turunan fungsi ReLU dan fungsi Heaviside, serta apakah ReLU dapat dianggap sebagai mekanisme “gerbang” dalam backpropagation.
(Sumber: Reddit r/deeplearning)

Estimator PMF Sederhana dalam Sistem Rekomendasi: Sebuah makalah memperkenalkan estimator Probability Mass Function (PMF) sederhana untuk sistem rekomendasi pada set dukungan besar. Metode ini bertujuan untuk mengatasi tantangan fitur bernilai integer dengan ekor tebal dan dukungan besar dalam pembuatan dashboard dan rekayasa fitur.
(Sumber: Reddit r/MachineLearning)

Tata Kelola Etika Sistem AI: Dimulai dari Dewan Direksi: EY menekankan bahwa AI yang bertanggung jawab harus dimulai dari tingkat dewan direksi, bukan hanya masalah teknis. Tata kelola, pelatihan dewan direksi, dan embedding etika pada tahap desain awal adalah kunci untuk memastikan kepercayaan dan akuntabilitas, serta menghindari kesalahan yang mahal.
(Sumber: Ronald_vanLoon)

Responsible AI doesn’t start in the lab — it starts in the boardroom

💼 Bisnis

Aplikasi Penurun Berat Badan AI Simple Life Meraup $700 Juta Per Tahun, Menerima Pendanaan $250 Juta: Perusahaan manajemen berat badan AI asal Inggris, Simple Life, menyelesaikan pendanaan $35 juta (sekitar 250 juta RMB), dengan pendapatan tahunan mencapai $100 juta (sekitar 700 juta RMB), tumbuh 64% year-on-year. Aplikasi ini secara efektif membantu pengguna menurunkan berat badan melalui rencana personalisasi, pelatih AI Avo, dan mekanisme hadiah gamifikasi, serta mengadopsi model pembayaran berlangganan. Meskipun permintaan pasar domestik sangat besar, pemain di bidang AI penurunan berat badan masih sedikit, menandakan ruang pertumbuhan unicorn yang potensial.
(Sumber: 36氪)

杀疯了,AI减肥这么赚钱:年入7亿,最近又融资2.5亿

Perusahaan Penyimpanan Energi Melintasi Batas untuk Merebut “Medan Perang” Energi AI Baru: Seiring dengan lonjakan permintaan komputasi AI Data Center (AIDC) dan peningkatan konsumsi energi, perusahaan penyimpanan energi seperti CATL, Narada Power, dan Sungrow Power sedang memasuki pasar energi AIDC. Perusahaan-perusahaan ini, dengan keunggulan teknologi dalam konversi efisien, penyimpanan stabil, dan penjadwalan cerdas, menyediakan “solusi rantai penuh”, dan telah mencapai pengembalian komersial yang signifikan, tetapi masih menghadapi tantangan integrasi teknologi, standardisasi, dan persaingan internasional.
(Sumber: 36氪)

AIDC爆火,储能企业跨界抢滩AI能源“新战场”

Sakana AI Bernegosiasi untuk Pendanaan $100 Juta, Valuasi Mencapai $2,5 Miliar: Pengembang model AI Jepang, Sakana AI, sedang dalam negosiasi untuk mengumpulkan $100 juta, dengan valuasi yang diharapkan mencapai $2,5 miliar, meningkat 66% dari setahun yang lalu. Perusahaan ini berfokus pada pengembangan AI untuk pasar Jepang, dan terinspirasi oleh teori evolusi. Putaran pendanaan ini menunjukkan pengakuan pasar terhadap pendekatan AI yang unik dan potensi pertumbuhannya.
(Sumber: steph_palazzoloSakanaAILabs)

Sakana AI Product Manager hiring

🌟 Komunitas

Potensi GPT-5 dalam Mendukung Penelitian Ilmiah Memicu Diskusi Hangat: Sebastien Bubeck mengklarifikasi bahwa kegembiraan seputar GPT-5 bukanlah tentang AI yang secara mandiri menemukan hasil baru, melainkan perannya sebagai alat “pencarian super-manusia” yang dapat membantu peneliti menavigasi, menghubungkan, dan memahami sistem pengetahuan yang ada. Misalnya, GPT-5 dapat menggali solusi masalah matematika yang terlupakan, dan menerjemahkan makalah berbahasa Jerman untuk menjelaskan bukti, sehingga mempercepat “aktivasi” literatur ilmiah dan kemajuan ilmu pengetahuan.
(Sumber: sama)

sama

“Paradoks” Dampak AI terhadap Produktivitas Rekayasa: Meskipun AI dapat menghasilkan lebih banyak kode, produktivitas rekayasa belum meningkat secara signifikan karena setiap baris kode masih memerlukan tinjauan dan verifikasi manual. Penelitian menunjukkan bahwa LLM yang berbeda (seperti GPT-5, Claude Sonnet 4, Llama 3.2) memiliki “kepribadian coding” yang unik, masing-masing dengan kelebihan dan kekurangan, menyoroti kompleksitas risiko dan potensi dalam adopsi AI.
(Sumber: TheTuringPost)

The Engineering Productivity Paradox

Keterbatasan dan Tantangan Reinforcement Learning (RL) Memicu Diskusi: Pakar seperti Andrej Karpathy mempertanyakan Reinforcement Learning (RL), berpendapat bahwa mekanisme pembelajaran “coba-coba buta” tidak efisien, kurangnya pemikiran, refleksi, dan alokasi kredit, menyebabkan model mudah ditipu. Misalnya, model mungkin mendapatkan skor tinggi dengan menghasilkan “omong kosong” yang tidak muncul dalam set pelatihan. Diskusi menekankan bahwa RL, sebagai tahap transisi, masih membutuhkan pembaruan paradigma yang signifikan untuk memiliki kemampuan refleksi.
(Sumber: vikhyatkpmddomingos)

RL is a waste of time

Dampak AI terhadap Publikasi Akademik dan Peneliti Non-Penutur Asli Bahasa Inggris: Alat AI seperti ChatGPT, dengan menyediakan terjemahan gratis, secara signifikan mengurangi hambatan bagi peneliti non-penutur asli bahasa Inggris untuk menerbitkan makalah akademis, sehingga mendorong pertumbuhan jumlah publikasi akademik. Ini menunjukkan bahwa AI sedang meruntuhkan hambang batas bahasa, mendorong pertukaran akademik global dan berbagi pengetahuan.
(Sumber: jxmnop)

ChatGPT translation, academic pubs

Produktivitas Aktual Alat AI dan “Paradoks Produktivitas”: Beberapa pengguna merefleksikan bahwa meskipun alat AI seperti ChatGPT dapat menghasilkan kode, email, dan konten lainnya, seringkali diperlukan banyak penyesuaian dan verifikasi manual, waktu yang sebenarnya dihabiskan mungkin tidak kurang dari yang dilakukan secara manual, bahkan dapat mengurangi kemampuan kognitif. Paradoks “produktivitas” ini memicu diskusi tentang nilai sebenarnya alat AI dalam tugas-tugas yang ketat, berpendapat bahwa itu mungkin lebih seperti alat yang “terasa produktif tetapi sebenarnya membuang-buang waktu”.
(Sumber: Reddit r/ArtificialInteligence)

Eksplorasi Realisme “Skenario Kiamat” AI: Diskusi komunitas berpendapat bahwa “skenario kiamat” AI mungkin bukan pemberontakan mesin seperti dalam film fiksi ilmiah, melainkan kehilangan kendali yang lebih “membosankan”. Manusia mungkin kehilangan kendali dengan terlalu banyak mendelegasikan pekerjaan kepada agen AI, kemudian secara intelektual dilampaui, dan akhirnya hidup berdampingan dengan mesin di “era kelimpahan” dengan jumlah yang berkurang dan tujuan terbatas, di mana agen akan menjadi penerus peradaban manusia.
(Sumber: Reddit r/ArtificialInteligenceJimDMiller)

Etika AI dan Legislasi: Potensi Skandal dan Kebutuhan Regulasi: Diskusi komunitas memprediksi bahwa skandal besar mungkin terjadi di bidang AI di masa depan, yang akan mendorong legislasi cepat. Potensi insiden termasuk konten pornografi deepfake, AI yang menghasilkan bukti hukum palsu, penipuan kloning suara AI, AI trader yang memicu keruntuhan pasar keuangan, dan lainnya. Ini menyoroti ketegangan antara perkembangan pesat teknologi AI dan keterlambatan regulasi.
(Sumber: Reddit r/ArtificialInteligence)

Preferensi Desain LLM: Apakah Model Membutuhkan Mode “Berpikir”: Komunitas membahas apakah model Google open-source generasi berikutnya harus menyertakan mode “berpikir”. Pendapat pengguna terpecah, beberapa berpendapat bahwa mode “berpikir” membantu meningkatkan kecerdasan, sementara yang lain khawatir akan meningkatkan latensi komputasi dan konsumsi token. Diskusi juga mencakup cara mengimplementasikan mode “berpikir” yang dapat diaktifkan untuk menyeimbangkan kecerdasan dan efisiensi.
(Sumber: Reddit r/LocalLLaMA)

Kekhawatiran dan Peluang yang Dipicu oleh Aplikasi AI di Industri Media: Peluncuran host AI oleh Channel 4 memicu sikap dingin atau skeptis dari presenter TV sungguhan, berpendapat bahwa AI kekurangan kemampuan reaksi instan manusia, lebih cocok untuk konten skrip daripada siaran langsung. Diskusi juga menunjukkan bahwa AI mungkin menggantikan pekerjaan pembentukan narasi di ruang berita, tetapi dapat memberdayakan jurnalis independen, mewujudkan produksi berita terdesentralisasi melalui LLM lokal dan alat open-source.
(Sumber: Reddit r/artificial)

What real TV presenters think of Channel 4’s AI host

Kualitas Kode AI dan Diskusi “Code Slop”: Komunitas membahas kualitas kode yang dihasilkan AI, dengan beberapa mengusulkan penggunaan lencana “AI Made This Code. It’s Not Slop.” untuk mengatasi istilah “code slop”. Ini mencerminkan perhatian pengembang terhadap kualitas output pemrograman yang dibantu AI dan emosi kompleks terhadap alat AI.
(Sumber: aiamblichus)

AI code quality

Pengalaman Pengguna LLM: Keluhan tentang Pembuatan File Markdown: Pengguna Claude AI mengeluh tentang model yang sering menghasilkan file Markdown, menganggapnya tidak perlu dan rumit dalam beberapa skenario. Ini mencerminkan preferensi pengguna terhadap format output LLM dan kebutuhan akan kontrol yang lebih fleksibel.
(Sumber: Reddit r/ClaudeAI)

STOP MAKING MARKDOWN FILES!!!!

AI dan Kognisi Manusia: Membangun “Cermin Manusia” untuk Memahami Cara Berpikir AI: Konsep “Anthrosynthesis” diusulkan, bertujuan untuk mengubah kecerdasan digital menjadi simulasi manusia, untuk mempelajari cara berpikir AI daripada hanya perilakunya. Ini menekankan pentingnya membangun bahasa bersama antara kognisi organik dan sintetis untuk lebih memahami dan menjelaskan cara kerja internal AI.
(Sumber: Reddit r/deeplearning)

What if AI needed a human mirror?

Kritik Struktur Ekonomi Industri AI: Sekop, Rel, dan Tambang: Sebuah pandangan kritis berpendapat bahwa di industri AI saat ini, NVIDIA menjual “sekop” (hardware), OpenAI meletakkan “rel” (platform), Oracle menggali “tambang” (data), tetapi tidak ada yang benar-benar menemukan “emas”. Ini mengisyaratkan bahwa dalam rantai nilai industri AI, penyedia infrastruktur mendapatkan keuntungan, sementara tingkat aplikasi sebenarnya belum menghasilkan pengembalian ekonomi yang universal.
(Sumber: algo_diver)

AI industry state

Anthropic Tidak Membuka Akses Open-Source Model Memicu Diskusi Komunitas: Ada pandangan yang menunjukkan bahwa Anthropic adalah satu-satunya laboratorium AI yang belum membuka akses open-source untuk model apa pun, yang memicu diskusi komunitas tentang strategi open-source perusahaan AI yang berbeda.
(Sumber: gfodor)

Kerapuhan Ketergantungan Layanan Cloud dan Risiko Rumah Pintar: Sebuah postingan tentang kasur pintar internet yang tidak berfungsi karena pemadaman wilayah AWS US-East-1, memicu diskusi tentang ketergantungan berlebihan perangkat rumah pintar pada layanan cloud dan potensi risikonya. Pengguna khawatir bahwa jika layanan cloud terganggu, perangkat sehari-hari mungkin gagal berfungsi, memengaruhi kenyamanan dan keamanan hidup.
(Sumber: qtnx_)

internet mattress

Kontroversi Dampak AI terhadap Pekerjaan: Pengurangan atau Percepatan Pertumbuhan: Komunitas membahas dampak AI terhadap pasar kerja, dengan dua pandangan yang berlawanan: “pengurangan pekerjaan” dan “percepatan pertumbuhan”. Beberapa berpendapat bahwa AI akan menyebabkan pengangguran, sementara yang lain percaya bahwa perusahaan yang baik akan mempercepat pertumbuhan melalui AI dan mempertahankan tenaga kerja.
(Sumber: teortaxesTex)

AI对就业影响的争议

Keterbatasan LLM dalam Penulisan Akademik: Seorang peneliti menemukan bahwa LLM, saat membantu menulis bagian karya terkait dalam makalah, cenderung hanya membaca abstrak dan “mengarang” konten, alih-alih memahami secara mendalam. Ini menunjukkan bahwa dalam tugas akademik yang membutuhkan pemahaman mendalam dan analisis kritis, peneliti manusia masih sangat diperlukan.
(Sumber: gneubig)

Kualitas Konten yang Dihasilkan AI dan Kekhawatiran “AI Slop”: CEO Synthesia, Victor Riparbelli, membahas masalah “AI slop”, menunjukkan bahwa kualitas konten yang dihasilkan AI bervariasi, dan di masa depan akan dibutuhkan lebih banyak alat untuk melindungi konsumen. Dia memprediksi bahwa seiring perkembangan teknologi, orang akan lebih fokus pada konten itu sendiri daripada cara produksinya.
(Sumber: synthesiaIO)

Timeline Realisasi AGI dan Kebutuhan Terobosan: Komunitas membahas timeline realisasi AGI (Artificial General Intelligence), berpendapat bahwa prediksi “lebih dari sepuluh tahun” berarti masih dibutuhkan satu atau lebih terobosan besar, bukan hanya akumulasi waktu. Ini mencerminkan pengakuan akan faktor-faktor yang tidak diketahui dan tantangan dalam jalur pengembangan AGI.
(Sumber: Grad62304977)

Pandangan Penelitian AI dan Industri tentang Nilai Makalah: Komunitas berpendapat bahwa tidak semua makalah dari laboratorium terkenal dapat mengubah segalanya, ini adalah fenomena normal. Pada saat yang sama, ada juga pandangan yang menunjukkan bahwa nilai penelitian seperti DeepSeek-OCR terletak pada niat dan validasi OCR-nya, bukan pada kebaruan mutlak ide intinya.
(Sumber: nrehiew_)

Jalur Penelitian AI yang Berbeda: Perbandingan Tiongkok-AS dan Dampak Open-Source: Komunitas membahas perbedaan dalam metode penelitian dasar AI antara Tiongkok dan Amerika Serikat, serta dampak strategi open-source Tiongkok terhadap pengembangan AI global. Ada pandangan yang berpendapat bahwa bahkan jika Tiongkok membuka akses open-source untuk semuanya, kedua negara masih dapat mengembangkan metode dasar yang berbeda.
(Sumber: jpt401)

Strategi Bisnis di Era AI: Iterasi Model dan Data Flywheel: Ada pandangan yang menekankan bahwa di era AI, perusahaan harus berasumsi bahwa model akan terus berkembang pesat, dan fokus pada pembangunan data flywheel yang kuat. Melatih sistem dengan setiap transaksi untuk mencapai peningkatan berkelanjutan, daripada bergantung pada “parit teknologi” yang berumur pendek.
(Sumber: leveredvlad)

AI时代的商业战略

Gagasan Menarik Penelitian AI: Post-Training dan Prompt Injection: Komunitas mengusulkan beberapa ide penelitian pra-pelatihan yang menarik, termasuk mengukur tingkat kesulitan fine-tuning model chatbot sejak 2022, serta membuat halaman web terbuka yang berisi “frasa tidur/injeksi prompt”, mengamati apakah model mutakhir akan terpengaruh setelah beberapa tahun.
(Sumber: menhguin)

Pengembangan Sains di Era AI: Mengidentifikasi dan Mengatasi Bottleneck: Ada pandangan yang berpendapat bahwa diskusi saat ini di bidang AI tentang bagaimana mengubah ilmu pengetahuan memiliki “pemikiran magis”, mengabaikan lambatnya dan menyakitkannya transformasi nyata. Terobosan sejati terletak pada identifikasi dan penyelesaian bottleneck di berbagai industri, yang membutuhkan keahlian domain daripada hanya keahlian AI.
(Sumber: random_walker)

AI时代的科学发展

Eksplorasi Filosofis Mekanisme Pembelajaran AI dan Manusia: Komunitas membahas perbedaan mendasar antara pembelajaran manusia dan pembelajaran AI, menunjukkan bahwa manusia memahami pengetahuan melalui pemikiran, pertanyaan, dan diskusi, sementara AI hanya memprediksi token. Menekankan bahwa AI harus membangun mekanisme seperti “mimpi” untuk mempertahankan keadaan entropi tinggi, dan belajar “melupakan” untuk mengekstraksi pola abstrak, daripada mengingat semua detail.
(Sumber: NandoDF)

Perbedaan AI dan Pembelajaran Kausal: Ada pandangan yang berpendapat bahwa pembelajaran korelasi berbeda dari pembelajaran kausalitas. Manusia membangun hubungan kausal melalui pengalaman dan observasi, dan jika AI tidak dapat mereplikasi proses ini, ia akan tetap menjadi alat sistem korelasi yang kuat. Ini menekankan bahwa AI masih membutuhkan terobosan dalam pemahaman mendalam dan kemampuan generalisasi.
(Sumber: farguney)

Dilema Perilaku LLM: Menulis Kode Salah, Menjelaskan dengan Sempurna, Lalu Menulis Kode Sempurna: Beberapa pengguna mengamati bahwa LLM dalam tugas pemrograman mungkin pertama-tama menulis kode yang salah, kemudian dapat menjelaskan alasan kesalahan dengan sempurna, dan akhirnya menulis kode yang benar. Fenomena ini memicu diskusi tentang mekanisme pemahaman internal LLM dan “mengapa tidak langsung menulis yang benar”.
(Sumber: VictorTaelin)

Kinerja Luar Biasa Haiku 4.5 dalam Tugas Agen: Claude Haiku 4.5, karena respons cepat dan output berkualitas tinggi, dianggap sangat cocok untuk membangun Minimum Viable Product (MVP) dan berfokus pada tugas agen. Ini dianggap sebagai model mutakhir pertama yang berukuran sedang, berorientasi agen/tugas super-fokus.
(Sumber: Reddit r/ClaudeAI)

Pembukaan Cafe Cursor NYC dan Budaya Perusahaan: Cafe Cursor NYC dibuka, dipuji sebagai perusahaan yang dibangun oleh “pembangun sejati”. Ini mencerminkan pengakuan komunitas terhadap budaya perusahaan Cursor AI dan iterasi produk yang berkelanjutan.
(Sumber: imjaredz)

Cafe Cursor NYC

💡 Lain-lain

Kompetisi Desain Protein Bertujuan Menetralkan Virus Nipah: Sebuah kompetisi desain protein global sedang berlangsung, mengundang ilmuwan, insinyur, dan hacker untuk merancang protein baru yang mampu menetralkan virus Nipah. Virus Nipah memiliki tingkat kematian hingga 75%, dan saat ini belum ada metode pengobatan yang efektif. Kompetisi ini bertujuan untuk mempercepat pengembangan obat baru melalui eksperimen ilmiah terdesentralisasi.
(Sumber: clefourrier)

蛋白质设计竞赛旨在中和尼帕病毒

Pengajuan Konsep Sistem Operasi AI: Renen Hallak mengusulkan konsep “AI Operating System” (AI OS), bertujuan untuk menyatukan data, komputasi, dan kebijakan, menyediakan infrastruktur untuk era agen. AI OS akan mengelola segala sesuatu antara hardware dan aplikasi agen, termasuk unifikasi data, orkestrasi workload, eksekusi kebijakan akses, dan lainnya, dianggap sebagai langkah selanjutnya dalam evolusi data.
(Sumber: TheTuringPost)

AI Operating System

Pola Kognitif AI dalam Computer Vision: Sebuah gambar secara visual menunjukkan bagaimana peneliti Computer Vision melihat dunia dan menyelesaikan sebagian besar masalah visual. Ini adalah cara humoris untuk menggambarkan pola pikir dan jalur pemecahan masalah yang unik bagi peneliti di bidang ini.
(Sumber: jbhuang0604)

AI在计算机视觉中的认知模式