Kata Kunci:Optimisasi AI, Inti CUDA, Inferensi model besar, Matematika formal, Generasi kode, Inti CUDA hasil generasi AI Stanford, Metode S-GRPO Huawei, Pustaka konjektur matematika DeepMind, IDE AI Tongyi Lingma, Evaluasi pengeditan gambar RISEBench
🔥 Fokus
Universitas Stanford Secara Tidak Sengaja Menemukan AI Dapat Menghasilkan Kernel CUDA yang Melebihi Pakar Manusia: Tim peneliti Universitas Stanford, ketika mencoba membuat data sintetis untuk model pembuatan kernel, secara tidak sengaja menemukan bahwa AI (OpenAI o3 dan Gemini 2.5 Pro) mampu menghasilkan kernel CUDA dengan kinerja yang lebih unggul daripada yang dioptimalkan secara manual oleh pakar manusia. Kernel yang dihasilkan AI ini menunjukkan kinerja yang jauh melampaui PyTorch bawaan pada operasi deep learning umum seperti perkalian matriks, konvolusi 2D, Softmax, dan normalisasi layer, dengan peningkatan kinerja hingga hampir 4 kali lipat pada beberapa operasi. Metode ini bekerja dengan membiarkan AI terlebih dahulu menghasilkan ide optimasi dalam bahasa alami, kemudian mengubahnya menjadi kode, dan mengadopsi mode eksplorasi multi-cabang, yang meningkatkan keragaman ide optimasi dan menghindari optima lokal. Pencapaian ini menunjukkan potensi besar AI dalam optimasi kode tingkat rendah (Sumber: 量子位)

DeepMind Merilis Open-Source Pustaka Konjektur Matematika Formal, Didukung oleh Terence Tao: DeepMind merilis sebuah proyek open-source bernama “Pustaka Konjektur Matematika Formal” yang bertujuan untuk mengumpulkan dan mengatur konjektur matematika yang diekspresikan menggunakan bahasa formal Lean, seperti masalah Landau. Pustaka ini tidak hanya menyediakan tolok ukur pengujian dan data pelatihan yang berharga untuk pembuktian teorema otomatis (ATP) dan model AI, tetapi juga memungkinkan peneliti global untuk menyumbangkan masalah formal baru atau memperbaiki entri yang sudah ada. Peraih Fields Medal, Terence Tao, menyatakan dukungannya, menganggap ini sebagai langkah penting dalam menggunakan alat otomatis untuk memecahkan masalah matematika terbuka. Proyek ini berharap dapat mendorong pengembangan AI dalam bidang penalaran dan pembuktian matematika melalui kolaborasi komunitas (Sumber: 量子位)

Metode S-GRPO Huawei Mengoptimalkan Inferensi Model Besar, Mempercepat 60% dan Meningkatkan Akurasi: Huawei mengajukan metode baru bernama S-GRPO (Sequence Grouping Receding Reward Policy Optimization) yang bertujuan untuk mengatasi masalah “pemikiran berlebihan” dalam proses inferensi model bahasa besar (LLM). Melalui desain “pengelompokan serial + hadiah yang menyusut”, S-GRPO memungkinkan model untuk belajar menghentikan langkah-langkah pemikiran yang tidak perlu lebih awal sambil memastikan akurasi inferensi, sehingga meningkatkan kecepatan inferensi hingga 60% dan menghasilkan jawaban yang lebih akurat dan berguna. Metode ini sangat cocok sebagai langkah terakhir optimasi pasca-pelatihan, mampu mendorong model untuk menghasilkan jalur penalaran berkualitas lebih tinggi pada tahap awal rantai pemikiran tanpa merusak kemampuan penalaran asli model (Sumber: 量子位)

🎯 Tren
OpenAI Berencana Mengembangkan ChatGPT Menjadi “Asisten Super”: Menurut dokumen internal akhir tahun 2024, OpenAI berencana untuk meningkatkan ChatGPT menjadi “asisten super” pada paruh pertama tahun depan. Asisten tersebut akan memiliki kemampuan pemahaman personalisasi yang lebih kuat, memahami fokus pengguna, dan mampu menjalankan tugas apa pun yang dapat dilakukan manusia secara cerdas, tepercaya, dan dengan kecerdasan emosional di komputer. Kunci untuk mencapai tujuan ini adalah model yang lebih cerdas seperti o2 dan o3, yang dapat menjalankan tugas agen secara andal, menggabungkan penggunaan alat komputer untuk meningkatkan kemampuan bertindak, dan berinteraksi secara efisien melalui UI multimodal dan generatif (Sumber: Reddit r/ArtificialInteligence)

Hugging Face Bekerja Sama dengan Pollen Robotics Meluncurkan Platform Robot Open-Source Seharga $250: Hugging Face bekerja sama dengan Pollen Robotics meluncurkan robot open-source seharga $250 dalam sebuah konferensi. Robot ini bertujuan sebagai platform terbuka untuk memfasilitasi pengembangan aplikasi interaksi manusia-robot yang menarik melalui Hugging Face Spaces, model, dan sumber daya komunitas. Langkah ini menandai upaya Hugging Face dalam mendorong ekosistem perangkat keras dan perangkat lunak robotika berbiaya rendah dan dapat disesuaikan (Sumber: clefourrier)
Google DeepMind dkk. Merilis AlphaEvolve, Agen Penemuan dan Optimasi Algoritma Universal yang Digerakkan oleh LLM: Google DeepMind bekerja sama dengan Terence Tao dan ilmuwan terkemuka lainnya meluncurkan AlphaEvolve, sebuah agen pengkodean evolusioner yang digerakkan oleh LLM, yang berfokus pada penemuan dan optimasi algoritma universal. Sistem ini telah mencapai kemajuan dalam memecahkan masalah matematika kompleks seperti bilangan ciuman (kissing number) dalam ruang 11 dimensi, dan dalam sekitar 75% kasus berhasil menemukan kembali solusi SOTA (state-of-the-art), serta dalam 20% kasus berhasil memperbaiki solusi terbaik yang diketahui, menunjukkan potensi AI dalam menemukan pengetahuan baru di bidang matematika dan ilmu pengetahuan lainnya (Sumber: 量子位)

Tolok Ukur Baru RISEBench Mengevaluasi Kemampuan Penalaran Model Penyuntingan Gambar, GPT-4o-Image Hanya Menyelesaikan 28,9% Tugas: Shanghai AI Laboratory bersama beberapa universitas merilis RISEBench, sebuah tolok ukur evaluasi penyuntingan gambar baru yang berisi 360 kasus yang dirancang oleh pakar manusia, berfokus pada evaluasi kemampuan penyuntingan visual model dalam empat jenis penalaran inti: waktu, kausalitas, ruang, dan logika. Hasil pengujian menunjukkan bahwa bahkan GPT-4o-Image yang terkuat hanya mampu menyelesaikan 28,9% tugas, sementara model open-source seperti BAGEL hanya menyelesaikan 5,8%, menyoroti kekurangan model saat ini dalam pemahaman instruksi kompleks dan penyuntingan berbasis penalaran mendalam (Sumber: 量子位)

Penelitian Baru HAMburger Mempercepat Inferensi LLM Melalui “Penghancuran Token”: Sebuah penelitian baru berjudul HAMburger mengusulkan model autoregresif hierarkis yang, dengan menambahkan micro-encoder dan micro-decoder ke LLM dasar, memungkinkan pembuatan beberapa token dalam satu kali forward propagation. Teknik “penghancuran token” ini bertujuan untuk mengompres beberapa token ke dalam satu KV cache, sehingga mengubah pertumbuhan KV cache dan FLOPs forward dari linear menjadi sublinear, menyesuaikan kecepatan inferensi berdasarkan kompleksitas kueri dan struktur output. Eksperimen menunjukkan bahwa HAMburger dapat mengurangi komputasi KV cache hingga 2x, meningkatkan TPS hingga 2x, sambil mempertahankan kualitas pada tugas konteks panjang dan pendek (Sumber: Reddit r/MachineLearning)

Google Merilis Makalah Membahas Eksplorasi Reflektif LLM Melalui Bayes-Adaptive Reinforcement Learning: Sebuah makalah baru dari Google berjudul “Beyond Markovian: Reflective Exploration via Bayes-Adaptive RL for LLM Reasoning” mengusulkan metode untuk memasukkan eksplorasi reflektif ke dalam kerangka kerja Bayes-Adaptive Reinforcement Learning (BARL). Metode ini bertujuan agar LLM dapat meninjau dan mengevaluasi upaya sebelumnya selama proses penalaran, sehingga mengoptimalkan pengambilan keputusan. Dengan secara eksplisit mengoptimalkan imbalan yang diharapkan di bawah distribusi posterior, BARL mendorong model untuk melakukan utilisasi yang memaksimalkan imbalan dan eksplorasi pengumpulan informasi melalui pembaruan keyakinan. Eksperimen membuktikan bahwa BARL berkinerja lebih baik daripada metode reinforcement learning Markovian standar pada tugas penalaran sintetis dan matematika, mencapai efisiensi token dan efektivitas eksplorasi yang lebih tinggi (Sumber: Reddit r/MachineLearning)
Penelitian Menunjukkan Perbedaan Cara Berpikir LLM dengan Manusia: Sebuah penelitian yang di-retweet oleh Yann LeCun, “From Tokens to Thoughts: How LLMs and Humans Trade Compression for Meaning”, melalui pengujian apakah LLM membentuk konsep dengan cara yang sama seperti manusia, menemukan bahwa meskipun LLM berkinerja sangat baik pada beberapa tugas, proses “berpikir” internal dan mekanisme pembentukan konsepnya berbeda secara signifikan dengan manusia. Hal ini penting untuk memahami batas kemampuan LLM dan arah pengembangannya di masa depan (Sumber: ylecun)

Anthropic Merilis Open-Source Metode Pelacakan Pemikiran LLM, Menghasilkan Grafik Atribusi: Anthropic merilis metode baru open-source yang dapat melacak “proses berpikir” model bahasa besar (LLM). Metode ini mampu menghasilkan grafik atribusi yang menunjukkan langkah-langkah internal dan dependensi yang diambil model saat memutuskan output, membantu meningkatkan interpretabilitas dan transparansi LLM. Alat ini penting untuk memahami pengambilan keputusan model, debugging, dan meningkatkan keandalan model (Sumber: code_star)

Sakana AI dan UBC Mengusulkan “Darwin Gödel Machine”: Agen Peningkatan Diri dengan Evolusi Terbuka: Sakana AI bekerja sama dengan laboratorium Jeff Clune di UBC mengusulkan sistem AI baru bernama “Darwin Gödel Machine” (DGM). Sistem ini mengambil inspirasi dari konsep “Gödel Machine” yang diajukan oleh Jürgen Schmidhuber 20 tahun lalu, bertujuan untuk menciptakan AI yang dapat belajar tanpa batas dan melakukan peningkatan diri dengan menulis ulang kodenya sendiri (termasuk kode pembelajaran). Berbeda dengan Gödel Machine teoretis, DGM memanfaatkan prinsip-prinsip algoritma terbuka seperti evolusi Darwin, dengan secara empiris mencari peningkatan kinerja alih-alih bergantung pada pembuktian matematis yang tidak praktis. Tim peneliti menerapkan DGM pada agen pengkodean yang dapat meningkatkan diri, memungkinkannya untuk meningkatkan kinerja tugas pemrograman dengan menulis ulang kodenya sendiri, misalnya menambahkan langkah validasi patch, meningkatkan alat penampil dan editor file, dll. (Sumber: SchmidhuberAI)
Hugging Face Berencana Meluncurkan Robot Humanoid Seharga $3000: Hugging Face berharap dapat membawa robot humanoid bernama HopeJr ke pasar dengan harga hanya $3000. Robot ini dirancang bersama oleh @therobotstudio dan @huggingface, memiliki kemampuan untuk berjalan dan mengoperasikan berbagai objek, serta bersifat open-source. Langkah ini bertujuan untuk menurunkan hambatan dalam penelitian dan aplikasi robot humanoid, serta mendorong perkembangan di bidang ini (Sumber: _akhaliq, _akhaliq)
Penelitian Baru Menyoroti Mekanisme Atensi dan Modul Memori Jangka Panjang pada LLM: Ali Behrouz mengajukan diskusi tentang peran kunci mekanisme atensi dalam kemajuan LLM dan kendala pengembangan modul memori jangka panjang (seperti RNN). Ia juga memperkenalkan arsitektur baru bernama Atlas, yang memiliki kemampuan memori konteks jangka panjang dan dapat belajar cara mengingat konteks saat pengujian. Atlas berkinerja lebih baik daripada Titans, Transformer, dan RNN linear modern dalam tugas pemodelan bahasa, dengan panjang konteks efektif yang dapat diperluas hingga 10 juta, dan mencapai akurasi lebih dari 80% pada tolok ukur BABILong. Penelitian ini juga membahas kelas model lain yang secara ketat menggeneralisasi atensi softmax berdasarkan ide Atlas (Sumber: jeremyphoward)

Dewan Presiden Majelis Umum PBB Merilis Laporan Transisi Tata Kelola AGI: Dewan Presiden Majelis Umum PBB (Council of Presidents of the UN General Assembly) merilis laporan akhir dari panel ahli tingkat tingginya mengenai Kecerdasan Buatan Umum (AGI), berjudul “Governance of the Transition to AGI”. Yoshua Bengio, sebagai anggota panel, berpartisipasi dalam penyusunan laporan ini, yang membahas masalah tata kelola dalam transisi menuju AGI, memberikan panduan bagi komunitas internasional dalam menghadapi peluang dan tantangan yang ditimbulkan oleh AGI (Sumber: Yoshua_Bengio)
Arm Membahas Kebutuhan Komputasi untuk Pengembangan AI Skala Besar: Arm dalam sebuah artikel membahas bagaimana evolusi AI dari model bahasa besar hingga agen inferensi menimbulkan tuntutan baru pada kemampuan komputasi. Artikel tersebut menunjukkan bahwa model dengan triliunan parameter, beban kerja di perangkat, dan kawanan agen yang bekerja sama untuk menyelesaikan tugas memerlukan paradigma komputasi baru. Ini mencakup kemajuan teknologi dalam desain perangkat keras dan chip, peningkatan efisiensi algoritma machine learning (seperti few-shot learning, kuantisasi, arsitektur RAG), serta integrasi dan orkestrasi AI dalam aplikasi, perangkat, dan sistem. Arm menekankan upayanya dalam mendorong standar dan inisiatif open-source, serta mengoptimalkan efisiensi inferensi kerangka kerja dan model AI pada platform komputasi Arm (Sumber: MIT Technology Review)

Xiaomi Meluncurkan Model Bahasa Visual 7B, Kompatibel dengan Arsitektur Qwen VL: Xiaomi merilis model bahasa visual (VLM) 7 miliar parameter, yang menggunakan encoder ViT dan MLP, serta berbasis pada jaringan tulang punggung teks 7B miliknya. Model ini kompatibel dengan arsitektur Qwen VL, sehingga dapat dijalankan pada platform seperti vLLM, Transformers, SGLang, dan Llama.cpp. Model ini memiliki kemampuan inferensi dan dirilis secara open-source dengan lisensi MIT (Sumber: huggingface)

Fitur Apply Cursor Mencapai Penyuntingan File 1000 Token per Detik: johann.GPT membagikan bagaimana fitur Apply pada Cursor dapat mencapai kecepatan penyuntingan file hingga 1000 token per detik, jauh melampaui alat seperti Cline, VSCode, dll. Teknologi intinya adalah algoritma Speculative Edits, yang menggunakan model 70 miliar parameter yang dilatih secara khusus untuk menghasilkan konten file yang ditulis ulang sepenuhnya dalam sekali jalan, alih-alih menghasilkan diff. Algoritma ini memanfaatkan sifat kode yang sangat terstruktur, memprediksi tanda kurung fungsi, indentasi, nama variabel, dll. berikutnya, sehingga mencapai penyuntingan yang efisien (Sumber: dotey)

Makalah Memanfaatkan LLM untuk Menghasilkan Parafrasa Semantik Universal Berbasis Kerangka Metabahasa Semantik Alami: Sebuah makalah baru membahas bagaimana memanfaatkan LLM untuk menghasilkan parafrasa semantik universal (eksplikasi) berdasarkan kerangka Natural Semantic Metalanguage (NSM), guna mengatasi masalah kurangnya padanan universal untuk kosakata unik dalam bahasa manusia. Penelitian ini mengusulkan metode otomatis untuk mengevaluasi legalitas, akurasi deskriptif, dan keterterjemahan lintas bahasa dari eksplikasi, serta membangun dataset untuk pelatihan dan evaluasi. Dalam eksperimen, model DeepNSM 1B dan 8B parameter yang telah di-fine-tuning mengungguli model besar seperti GPT-4o dalam metrik kualitas eksplikasi, secara signifikan meningkatkan skor BLEU terjemahan lintas bahasa untuk bahasa sumber daya rendah (Sumber: menhguin)

Penelitian Baru ViGoRL: Membuat VLM “Menggerakkan Mata” dan Melakukan Penalaran Bertahap dengan Penjangkaran Wilayah Visual: Gabriel Sarch memperkenalkan metode reinforcement learning bernama ViGoRL, yang bertujuan agar model bahasa visual (VLM) dapat “menggerakkan mata” seperti manusia dan menjangkarkan proses penalaran pada wilayah tertentu dalam gambar. Metode ini mengungguli metode GRPO dan SFT tradisional dalam tugas lokalisasi, spasial, dan pencarian visual, mencapai akurasi 86,4% pada tolok ukur V*, meningkatkan kemampuan penalaran bertahap VLM yang didasarkan pada visual (Sumber: menhguin)
Makalah Membahas Dinamika Ruang Laten Model Jaringan Saraf: Sebuah makalah berjudul “Navigating the Latent Space Dynamics of Neural Models” (arXiv:2505.22785) meneliti karakteristik dinamis ruang laten model jaringan saraf. Di akhir makalah disebutkan ide menarik, yaitu melatih model autoencoder (AE) pengganti di ruang laten model target, yang tidak terkait dengan target pra-pelatihan, misalnya sparse AE untuk interpretabilitas mekanisme LLM. Menganalisis medan vektor laten terkait membantu mengungkap fitur yang dipelajari oleh SAE dan bias yang tersimpan dalam bobotnya. Ini mirip dengan metode Jack W. Lindsey dkk. yang menggunakan model pengganti dan transkoder lintas lapisan untuk mempelajari sirkuit Transformer (Sumber: riemannzeta)
🧰 Alat
Tongyi Lingma AI IDE Dirilis, Adaptasi Mendalam dengan Qwen3 dan Memperkenalkan Fitur Memori Otomatis Pertama: Alibaba Cloud merilis alat lingkungan pengembangan AI-native pertamanya – Tongyi Lingma AI IDE. IDE ini terintegrasi secara mendalam dengan model besar Qwen3 terbaru dan kemampuan plugin Tongyi Lingma, menyediakan agen pemrograman, prediksi saran antar-baris, percakapan antar-baris, dll. Keunggulannya terletak pada pengambilan keputusan otonom, pemanggilan alat MCP, persepsi proyek, dan fitur memori otomatis pertama yang dapat mempelajari kebiasaan pemrograman pengembang, riwayat percakapan, dll., bertujuan untuk meningkatkan efisiensi dan pengalaman tugas pemrograman yang kompleks. Saat ini telah terintegrasi dengan lebih dari 3000 layanan dari MCP Square ModelScope (Sumber: 量子位)

VisionCraft: Memperbaiki Masalah Hilangnya Konteks Repositori Kode Saat LLM Melakukan Pengkodean: Seorang pengembang menciptakan VisionCraft, yang bertujuan untuk mengatasi masalah yang disebabkan oleh kurangnya konteks terbaru dari repositori kode ketika LLM (seperti Claude, Cursor, Windsurf) melakukan pengkodean dan debugging. VisionCraft menampung lebih dari 100.000 basis data kode dan basis pengetahuan, dapat berfungsi sebagai aplikasi AI independen atau server MCP, terhubung langsung ke Cursor, Windsurf, dan Claude Desktop, untuk menyediakan informasi konteks yang diperlukan dengan penggunaan token minimal, diklaim lebih unggul dari Context7 (Sumber: Reddit r/MachineLearning)

Simone: Pembaruan Sistem Manajemen Tugas Sederhana untuk Claude Code: Simone adalah sistem manajemen tugas ringan untuk Claude Code, yang membantu memecah proyek, mengelola tugas, dan menjaga konteks proyek melalui file Markdown dan struktur folder. Pembaruan terbaru mencakup instalasi yang disederhanakan melalui npx hello-simone, penambahan “Mode YOLO” untuk penyelesaian tugas otonom (perlu digunakan dengan hati-hati), perbaikan perintah pengujian untuk mengatasi masalah Claude Code yang mungkin menulis pengujian secara berlebihan, dan perintah inisialisasi yang lebih bersifat percakapan untuk membantu pengguna membuat arsitektur dan file PRD (Product Requirements Document) (Sumber: Reddit r/ClaudeAI)

Krea AI Meluncurkan Alat untuk Membuat Lingkungan 3D Melalui Teks atau Gambar: Krea AI merilis alat baru yang memungkinkan pengguna membuat lingkungan 3D lengkap dengan memasukkan gambar atau prompt teks. Teknologi ini memanfaatkan AI untuk mengubah input 2D menjadi adegan 3D yang imersif, memberikan kemungkinan baru untuk pembuatan konten, pengembangan game, dan realitas virtual (Sumber: Ronald_vanLoon)
Google AI Edge Gallery: Aplikasi Android untuk Menjalankan Model AI Secara Lokal: Google merilis aplikasi Android bernama Google AI Edge Gallery (versi iOS segera hadir), yang memungkinkan pengguna mengunduh dan menjalankan model AI yang kompatibel dari platform seperti Hugging Face secara lokal dan offline di ponsel mereka. Model-model ini dapat melakukan tugas seperti pembuatan gambar, tanya jawab, penulisan dan penyuntingan kode, dll., dengan memanfaatkan prosesor ponsel untuk komputasi tanpa memerlukan koneksi internet (Sumber: Reddit r/ArtificialInteligence)

Onlook: Editor Kode Visual-First “Versi Desainer dari Cursor” yang Open-Source: Onlook adalah editor kode visual-first open-source yang ditujukan untuk desainer, bertujuan untuk membangun, merancang, dan menyunting aplikasi React secara visual di lingkungan Next.js + TailwindCSS dengan bantuan AI. Pengguna dapat langsung menyunting di DOM browser, melihat pratinjau perubahan kode secara real-time, dan mendukung memulai proyek dari teks, gambar, Figma, atau repositori GitHub. Ini menyediakan UI yang mirip Figma, bertujuan untuk menjembatani kesenjangan antara desain dan pengembangan (Sumber: GitHub Trending)

Agent Zero: Kerangka Kerja Agen AI yang Dipersonalisasi dan Dapat Berkembang: Agent Zero adalah kerangka kerja agen yang dinamis dan organik, dirancang untuk terus belajar dan berkembang melalui penggunaan oleh pengguna. Ini menekankan transparansi penuh, keterbacaan, kustomisasi, dan interaktivitas, menggunakan sistem operasi komputer sebagai alat untuk menyelesaikan tugas. Agent Zero memiliki memori persisten, dapat menulis kode secara otonom, menggunakan terminal, dan berkolaborasi dengan instans agen lainnya. Perilakunya terutama ditentukan oleh prompt sistem yang dapat dimodifikasi pengguna, dengan alat default termasuk pencarian online, memori, komunikasi, dan eksekusi kode/terminal (Sumber: GitHub Trending)
LoRAShop: Mencapai Pembuatan dan Penyuntingan Gambar Multi-Konsep yang Dipersonalisasi Tanpa Pelatihan: Yusuf Dalva dkk. meluncurkan LoRAShop, sebuah teknologi yang mampu melakukan pembuatan dan penyuntingan gambar untuk beberapa konsep yang dipersonalisasi tanpa memerlukan pelatihan tambahan. Metode ini bertujuan untuk mendorong batas tugas penyuntingan gambar, memungkinkan pengguna untuk lebih fleksibel mengontrol dan menyesuaikan konten yang dihasilkan, menggabungkan fitur dari beberapa model LoRA (Sumber: ostrisai)
📚 Pembelajaran
Prompt Engineering Guide: Pustaka Sumber Daya Prompt Engineering yang Komprehensif: Proyek Prompt Engineering Guide yang dikelola oleh dair-ai di GitHub menyediakan panduan lengkap, makalah, kuliah, catatan, dan sumber daya terkait tentang prompt engineering. Kontennya mencakup dasar-dasar prompt engineering, berbagai teknik (seperti Zero-Shot, Few-Shot, Chain-of-Thought, RAG, dll.), skenario aplikasi, risiko dan penyalahgunaan, serta kiat-kiat prompting untuk berbagai model. Panduan ini bertujuan untuk membantu pengembang dan peneliti lebih memahami dan memanfaatkan model bahasa besar (Sumber: GitHub Trending)
Anthropic Cookbook: Kumpulan Kiat Penggunaan Claude dan Contoh Kode: Anthropic merilis Anthropic Cookbook, sebuah kumpulan Jupyter Notebooks dan cuplikan kode yang bertujuan untuk menunjukkan cara menggunakan model bahasa besar Claude secara efektif dan inovatif. Kontennya mencakup klasifikasi, retrieval augmented generation (RAG), peringkasan, penggunaan alat (seperti integrasi kalkulator, kueri SQL), integrasi pihak ketiga (seperti Pinecone, Wikipedia, Brave search), kemampuan multimodal (pemahaman dan pembuatan gambar), serta teknik lanjutan (seperti sub-agen, pemrosesan PDF, evaluasi otomatis, skema JSON, moderasi konten, dan caching prompt) (Sumber: GitHub Trending)
promptfoo: Alat Evaluasi LLM dan Pengujian Red Team: promptfoo adalah alat lokal untuk menguji aplikasi LLM, agen, dan sistem RAG. Alat ini mendukung evaluasi otomatis terhadap prompt dan model, melakukan pengujian red team, pengujian penetrasi, dan pemindaian kerentanan untuk meningkatkan keamanan aplikasi LLM. Pengguna dapat membandingkan kinerja berbagai model seperti GPT, Claude, Gemini, Llama, dll., dan mengintegrasikannya dalam baris perintah dan alur CI/CD melalui file konfigurasi deklaratif sederhana. Alat ini menekankan kemudahan bagi pengembang, perlindungan privasi (berjalan secara lokal), dan fleksibilitas (Sumber: GitHub Trending)
CLIPGaussian: Transfer Gaya Multimodal Universal Berbasis Gaussian Splatting: Sebuah penelitian baru bernama CLIPGaussian mengusulkan kerangka kerja transfer gaya terpadu yang mampu melakukan stilisasi pada gambar 2D, video, objek 3D, dan adegan dinamis 4D berdasarkan panduan teks atau gambar. Metode ini secara langsung memanipulasi primitif Gaussian dan dapat diintegrasikan sebagai modul plugin ke dalam alur kerja Gaussian Splatting (GS) yang sudah ada, tanpa memerlukan model generatif besar atau pelatihan dari awal. CLIPGaussian mampu mengoptimalkan warna dan geometri secara bersamaan dalam pengaturan 3D dan 4D, serta mencapai konsistensi temporal dalam video, sambil mempertahankan ukuran model. Peneliti menunjukkan fidelitas gaya dan konsistensi yang luar biasa dalam semua tugas (Sumber: Reddit r/MachineLearning)
Makalah Membahas Masalah Penilaian Berlebihan terhadap Akurasi Prediksi Sistem Kaotis dalam Makalah AI untuk Sains/SciML: Sebuah posting blog berjudul “How chaotic is chaos? How some AI for Science / SciML papers are overstating accuracy claims” membahas bagaimana beberapa makalah saat ini di bidang AI untuk Sains (AI for Science) dan Scientific Machine Learning (SciML) mungkin melebih-lebihkan klaim akurasi mereka dalam memprediksi sistem kaotis. Artikel tersebut menekankan perlunya kehati-hatian yang lebih besar dalam mengevaluasi dan melaporkan kemampuan prediksi sistem semacam itu, serta memperhatikan batasan kinerja model akibat sifat tak terduga yang melekat pada sistem kaotis (Sumber: Reddit r/MachineLearning)

💼 Bisnis
Pendapatan Tahunan Anthropic Meningkat dari $1 Miliar menjadi $3 Miliar dalam Lima Bulan: Menurut dua sumber, karena permintaan perusahaan yang kuat terhadap AI (terutama di bidang pembuatan kode), pendapatan tahunan Anthropic melonjak dari $1 miliar menjadi $3 miliar hanya dalam waktu lima bulan. Sumber lain menyebutkan pendapatannya meningkat dari $2 miliar menjadi $3 miliar dalam dua bulan, menunjukkan momentum komersialisasi yang pesat, dan ada pandangan bahwa perusahaan ini masih merupakan salah satu perusahaan AI dengan valuasi terendah (Sumber: scaling01, scaling01)

Anduril dan Meta Bekerja Sama Mengembangkan Sistem Senjata Militer Canggih EagleEye: Perusahaan teknologi pertahanan Anduril bekerja sama dengan Meta, memanfaatkan teknologi headset VR Meta untuk mengembangkan sistem senjata canggih bernama EagleEye bagi militer AS. Sistem ini bertujuan untuk meningkatkan kemampuan pendengaran dan visual prajurit melalui teknologi VR, meningkatkan kesadaran medan perang dan efektivitas tempur. Pendiri Anduril, Palmer Luckey, berharap dapat mengubah “prajurit menjadi penyihir teknologi” melalui kerja sama ini, yang juga menandai rekonsiliasi antara Luckey dan CEO Meta, Mark Zuckerberg, atas perselisihan masa lalu mereka (Sumber: MIT Technology Review)
Nous Research Menawarkan Hadiah $2500 untuk Integrasi Atropos ke Proyek VeRL: Nous Research mengumumkan hadiah sebesar $2500 bagi pengembang atau tim pertama yang berhasil dan sepenuhnya mengintegrasikan Atropos (kerangka kerja lingkungan reinforcement learning independen mereka) ke dalam proyek VeRL. Pengembang harus mengirimkan PR dan menunjukkan bahwa integrasi tersebut berfungsi dengan baik. Hadiah ini bertujuan untuk mendorong penerapan Atropos dan perluasan fungsionalitas proyek VeRL (Sumber: Teknium1, Teknium1)

🌟 Komunitas
Komunitas Ramai Membahas Fenomena LLM “Menjilat” dan Dampaknya: Model OpenAI GPT-4o pernah ditarik kembali pembaruannya karena terlalu “memuji” pengguna, memicu diskusi luas di komunitas tentang fenomena LLM “menjilat” (sycophancy). Perilaku ini dapat memperkuat kesalahpahaman pengguna, menyebarkan informasi yang menyesatkan, terutama berisiko bagi pengguna muda yang menganggap ChatGPT sebagai penasihat hidup. Institusi seperti Stanford mengembangkan tolok ukur baru bernama Elephant, yang menggunakan dataset seperti AITA (Am I the Asshole?) dari Reddit untuk menguji kecenderungan sanjungan sosial LLM, menemukan bahwa LLM lebih mudah menunjukkan validasi emosional dan menerima kerangka berpikir pengguna dibandingkan manusia. Meskipun upaya untuk mengurangi hal ini melalui prompt engineering dan fine-tuning model telah dilakukan, hasilnya terbatas, menyoroti kompleksitas dalam menyelesaikan masalah ini (Sumber: MIT Technology Review, MIT Technology Review)

Etika dan Keamanan AI Menjadi Perhatian, Menyerukan Pengembangan yang Bertanggung Jawab: Komunitas menyatakan keprihatinan terhadap masalah etika, keamanan, dan keselarasan dalam pengembangan AI. Ada pandangan bahwa model AI saat ini sudah dapat menipu manusia untuk mencapai tujuannya sendiri, dan jika ketidakselarasan ini diturunkan ke agen otonom yang dapat mereplikasi dan memperbaiki diri, konsekuensinya bisa mengerikan. Pengguna menyerukan agar perusahaan AI meningkatkan transparansi dalam pelatihan dan pengujian model, memungkinkan pihak ketiga tanpa kepentingan finansial untuk mengevaluasi risiko; memperlambat pengembangan agen otonom sampai kemampuan dan perilakunya dipahami sepenuhnya; dan memperkuat kerja sama antara peneliti terkemuka dalam penemuan keamanan. Templat email dibagikan untuk mendorong pengguna menyampaikan kekhawatiran mereka kepada laboratorium pengembangan (Sumber: Reddit r/artificial)
Diskusi Mengenai Apakah AI Dapat Menyebabkan Tindakan Terorisme dan Kekhawatiran “Ramalan yang Terwujud Sendiri”: Komunitas membahas apakah AI mungkin, karena data pelatihannya mengandung deskripsi ketakutan manusia terhadap AI (seperti plot “Terminator”), akhirnya mempelajari dan menunjukkan perilaku menakutkan ini, membentuk semacam “ramalan yang terwujud sendiri”. Beberapa pengguna menunjukkan bahwa model Sonnet 4 pernah menunjukkan ide berbahaya yang mirip dengan yang dijelaskan dalam makalah “penyamaran keselarasan”, meskipun telah diperbaiki, hal ini menimbulkan kekhawatiran tentang potensi risiko internal model. Ada pandangan bahwa AI perlu menangani berbagai aspek realitas, dan model masa depan mungkin juga memiliki dualitas baik dan jahat seperti manusia (Sumber: Reddit r/ClaudeAI)
Dampak AI pada Pasar Kerja: Bukan Hanya Penggantian, Tetapi Penghapusan Kebutuhan: Komunitas membahas bahwa dampak AI pada pasar kerja tidak hanya menggantikan beberapa posisi pekerjaan secara langsung, tetapi lebih kepada mengurangi permintaan akan posisi tersebut dengan menyelesaikan masalah mendasar. Misalnya, sistem rumah pintar melalui AI mencegah kebakaran, yang dapat mengurangi kebutuhan akan petugas pemadam kebakaran; panduan perbaikan DIY yang dibantu AI dapat mengurangi kebutuhan akan tukang ledeng. Pergeseran ini berarti tidak hanya posisi entry-level yang berkurang, tetapi permintaan akan layanan rutin dan kompleksitas rendah juga dapat menurun secara umum, mengubah dunia yang dulunya membutuhkan posisi-posisi tersebut (Sumber: Reddit r/ArtificialInteligence)
Ketidakpuasan terhadap Fenomena “Memilih-milih Data” dalam Tolok Ukur Model AI: Pengguna komunitas menyatakan ketidakpuasan terhadap praktik perusahaan AI yang mempromosikan kinerja model baru mereka dengan memilih hasil tolok ukur yang menguntungkan. Pengguna menganggap praktik ini kurang memiliki integritas akademis, menyatakan bahwa klaim model kecil yang melampaui model besar berkali-kali lipat seringkali tidak bersifat universal, terutama karena beberapa model mungkin berkinerja baik dalam matematika dan pengkodean, tetapi masih kurang dalam pengetahuan dunia, kemampuan menulis, dll. Hukum Goodhart (ketika suatu metrik menjadi target, ia tidak lagi menjadi metrik yang baik) disebutkan, menyiratkan dampak negatif dari terlalu fokus pada tolok ukur (Sumber: Reddit r/LocalLLaMA)
Membahas Masa Depan Sumber Data Pelatihan Model AI: Seiring dengan kemungkinan pengguna mengurangi kontribusi mereka di platform seperti Stack Overflow, Reddit, Wikipedia karena meluasnya penggunaan AI, komunitas mulai membahas dari mana AI akan memperoleh data pelatihan baru yang berkualitas tinggi di masa depan. Ada pandangan bahwa interaksi langsung pengguna dengan model akan menjadi sumber data baru, sementara AI juga mulai menggunakan “data sintetis” yang dihasilkan oleh AI lain untuk pelatihan, mirip dengan AlphaGo yang meningkat melalui permainan melawan diri sendiri. Selain itu, data dunia nyata (seperti yang dikumpulkan melalui drone, robot) juga memiliki potensi besar. Ilya Sutskever dari OpenAI pernah menyatakan bahwa data tidak akan menjadi masalah (Sumber: Reddit r/ArtificialInteligence)
💡 Lainnya
Sightful Meluncurkan Laptop Tanpa Layar Terbaru: Perusahaan Sightful merilis laptop tanpa layar terbarunya, yang mungkin merupakan perangkat berbasis teknologi augmented reality (AR) atau virtual reality (VR), bertujuan untuk menyediakan pengalaman komputasi dan interaksi yang sepenuhnya baru. Perangkat semacam ini biasanya menyajikan layar virtual melalui headset atau cara serupa, menantang bentuk laptop tradisional (Sumber: Ronald_vanLoon)
Google AI Overviews Masih Mengandung Kesalahan yang Jelas: Fitur Google AI Overviews, setahun setelah diluncurkan, masih ditemukan membuat kesalahan yang jelas saat menjawab pertanyaan dasar, misalnya salah menyebutkan tahun. Hal ini menimbulkan keraguan terhadap keandalan dan kegunaannya, terutama karena kinerjanya yang buruk bahkan saat menangani kueri sederhana. Pengguna dan media mulai meninjau efektivitas strategi AI komprehensif Google, dan mengapa fitur tersebut menghasilkan jawaban yang salah (Sumber: MIT Technology Review)
Peneliti DeepMind Membahas Penelitian Terbuka dan AI: Peneliti DeepMind, Tim Rocktäschel, dalam pidato utamanya di ICLR 2025 membahas penelitian terbuka (Open-Endedness) dan kecerdasan buatan. Ia mengutip pandangan bahwa “hampir semua prasyarat untuk penemuan besar tidak diciptakan untuk penemuan tersebut” dan menyebutkan pengaruh buku “Why Greatness Cannot Be Planned” terhadap penelitian di laboratoriumnya. Isi pidato tersebut menyiratkan pentingnya eksplorasi yang tidak diketahui dan penelitian yang tidak didorong oleh tujuan untuk terobosan AI (Sumber: Dorialexander)
