كلمات مفتاحية:VGGT, رؤية ثلاثية الأبعاد, المحول, CVPR 2025, ميتا, جامعة أكسفورد, القيادة الذاتية, أمان الذكاء الاصطناعي, محول الرؤية الهندسية, التنبؤ ثلاثي الأبعاد بتمريرة واحدة, إطار SafeKey, أبحاث Waymo للقيادة الذاتية, نموذج Dòubāo الكبير 1.6
🔥 تركيز
VGGT: ميتا وجامعة أكسفورد تقترحان محول الهندسة البصرية، يتنبأ بمعلومات المشهد ثلاثي الأبعاد الكاملة بتمريرة أمامية واحدة، ويفوز بجائزة أفضل ورقة بحثية في CVPR 2025: أصبح نموذج VGGT (Visual Geometry Grounded Transformer) الذي قدمته Meta بالاشتراك مع جامعة أكسفورد، الورقة البحثية الوحيدة الفائزة بجائزة الأفضل في مؤتمر CVPR 2025. يعتمد هذا النموذج على Vision Transformer، ويستخدم آلية انتباه ذاتي متناوبة “شاملة-ضمن الإطار”، ويمكنه التنبؤ بمعلومات المشهد ثلاثي الأبعاد الكاملة بما في ذلك المعلمات الداخلية والخارجية للكاميرا، وخرائط العمق، وخرائط السحابة النقطية، والمسارات ثلاثية الأبعاد، وذلك بتمريرة أمامية واحدة من طرف إلى طرف. يتعلم VGGT ذاتيًا فقط من خلال كمية كبيرة من البيانات ثلاثية الأبعاد المعلمة، دون الحاجة إلى تحيزات استقرائية هندسية، ويظهر أداءً ممتازًا عند معالجة مدخلات من 1 إلى 200 صورة، متفوقًا على العديد من الطرق الهندسية أو طرق التعلم العميق الحالية، مما يظهر إمكانات تطبيق واسعة في مجال الرؤية ثلاثية الأبعاد (المصدر: 量子位)

تصادم آراء بين الرئيس التنفيذي لشركة Nvidia جنسن هوانغ والرئيس التنفيذي لشركة Anthropic حول تطوير الذكاء الاصطناعي: صرح الرئيس التنفيذي لشركة Nvidia، جنسن هوانغ، في مؤتمر صحفي في باريس، بأنه يختلف تقريبًا مع جميع آراء الرئيس التنفيذي لشركة Anthropic، داريو أمودي، بشأن الذكاء الاصطناعي. وأشار هوانغ إلى أن أمودي يعتقد أن الذكاء الاصطناعي خطير للغاية ويجب أن تسيطر عليه قلة من الشركات؛ وأن تكلفة الذكاء الاصطناعي باهظة ولا ينبغي للشركات الأخرى الخوض فيها؛ وأن الذكاء الاصطناعي سيؤدي إلى بطالة واسعة النطاق. ورد هوانغ بأن الذكاء الاصطناعي تقنية مهمة يجب تطويرها بشكل آمن ومسؤول وعلني، وليس في بيئة مغلقة، مشددًا على أهمية الانفتاح للأمان (المصدر: hardmaru)
إطار SafeKey يعزز أمان نماذج الاستدلال الكبيرة ويخفض معدل المخاطر بنسبة 9.6%: اقترح فريق بحثي من جامعة كاليفورنيا سانتا كروز، وجامعة بيركلي، وCisco Research، وجامعة ييل إطار SafeKey، بهدف تعزيز أمان نماذج الاستدلال الكبيرة (LRMs). وجدت الدراسة أن “الهروب من القيود” للنماذج يرتبط بالفشل في الاستفادة الفعالة من إشارات الأمان المبكرة “للجمل المفتاحية”. يقوم SafeKey بتضخيم إشارات الأمان من خلال “رأس أمان ثنائي المسار”، ومن خلال “نمذجة إخفاء الاستعلام” يجبر النموذج على الاعتماد على فهمه الخاص لاتخاذ قرارات الأمان. أظهرت التجارب أن SafeKey يمكنه تقليل معدل الإجابات الخطيرة بنسبة 9.6% دون التأثير بشكل كبير على القدرات الأساسية للنموذج (بل وتحسينها قليلاً)، خاصة عند مواجهة هجمات غير معروفة (المصدر: 量子位)

دراسة Waymo تظهر أن أداء نظام القيادة الذاتية ينمو وفق قانون القوة مع زيادة حجم البيانات والحوسبة: نشرت Waymo دراسة شاملة تستند إلى 500,000 ساعة من بيانات القيادة، كشفت عن وجود علاقة قانون القوة بين جودة التنبؤ بالحركة في نظام القيادة الذاتية الخاص بها وكمية الحوسبة التدريبية، وهو ما يشبه قوانين التوسع لنماذج اللغة الكبيرة (LLM). تؤكد الدراسة على الأهمية الحاسمة لحجم البيانات في تحسين أداء النموذج، كما أن زيادة كمية الحوسبة الاستدلالية يمكن أن تعزز قدرة النموذج على معالجة سيناريوهات القيادة المعقدة. هذه الدراسة هي الأولى التي تظهر أنه يمكن تحسين أداء القيادة الذاتية في العالم الحقيقي من خلال زيادة بيانات التدريب والموارد الحاسوبية (المصدر: zacharynado)

🎯 توجهات
ByteDance تطلق Doubao Large Model 1.6 والعديد من تطبيقات الذكاء الاصطناعي، مؤكدة على القدرة المركبة وتطبيق المنتجات: أطلقت ByteDance مؤخرًا بشكل مكثف سلسلة من منتجات الذكاء الاصطناعي بما في ذلك Doubao Large Model 1.6، ونموذج توليد الفيديو Seedance 1.0 Pro، ونماذج البودكاست الصوتي والصوت في الوقت الحقيقي. عزز Doubao 1.6 قدرات المعالجة والتشغيل متعددة الوسائط، ويدعم البحث أثناء التفكير وDeepResearch، ويمكنه إجراء عمليات واجهة المستخدم الرسومية. يتميز Seedance 1.0 Pro بأداء متميز في اتساق واستقرار توليد الفيديو، ويدعم توليد فيديو بدقة 1080p لمدة 10 ثوانٍ. تركز استراتيجية ByteDance بشكل أكبر على دمج قدرات الذكاء الاصطناعي في تطبيقات قابلة للتشغيل مباشرة وتضمينها في المنتجات الحالية (مثل تطبيق Doubao، ومنصة Huoshan Fangzhou)، مع التأكيد على القدرة المركبة والتصنيع السريع للمنتجات، بدلاً من السعي وراء الريادة في معلمات نموذج واحد فقط. كما أن استراتيجية التسعير الخاصة بها أكثر فعالية من حيث التكلفة، وتهدف إلى خفض عتبة استخدام الذكاء الاصطناعي (المصدر: 36氪)

Tencent تفتح مصدر نموذج Hunyuan 3D 2.1، مع التركيز على خامات PBR والتوافق مع بطاقات الرسومات الاستهلاكية: أعلنت Tencent في مؤتمر CVPR عن فتح مصدر أحدث نماذجها لتوليد ثلاثي الأبعاد Hunyuan 3D 2.1. تم تحسين هذا النموذج في كل من الدقة الهندسية وتفاصيل الخامات، مع إدخال تقنية توليد خامات PBR (القائمة على الفيزياء) بشكل خاص، والتي يمكنها تقديم مواد معقدة مثل الجلد والمعادن والسيراميك بجودة عالية وتأثيرات بصرية واقعية. حقق Hunyuan 3D 2.1 فتح مصدر كامل السلسلة، بما في ذلك أوزان النموذج ورمز التدريب وعملية معالجة البيانات، ويدعم التشغيل على بطاقات الرسومات الاستهلاكية والنشر بنقرة واحدة، بهدف تعزيز تعميم إنشاء المحتوى ثلاثي الأبعاد (المصدر: 量子位)

Perplexity AI تعمل بنشاط على تحسين ميزة Deep Research استجابة لتعليقات المستخدمين: صرح الرئيس التنفيذي لشركة Perplexity AI، أراف سرينيفاس، بأن الفريق استمع بجدية إلى التعليقات السلبية حول ميزة Deep Research الخاصة بهم، وقد بدأ بالفعل في إجراء تحسينات. تم إطلاق بعض التحسينات في بيئة الإنتاج، ويجب أن يشعر المستخدمون بتحسن في التجربة. في المستقبل، سيتم دمج ميزتي Deep Research و Labs في منتج Comet، بهدف تحسين عملية اتخاذ القرار للمستخدمين من خلال الاستفادة من السياق الشخصي والبيانات (المصدر: AravSrinivas)
بحث Anthropic يكشف أن أنظمة الوكلاء المتعددين يمكن أن تحسن أداء المهام بشكل كبير: أظهر بحث نشرته Anthropic أن استخدام أنظمة الوكلاء المتعددين (مثل Opus كوكيل رئيسي و Sonnet كوكيل فرعي) لمعالجة المهام، أدى إلى تحسين الأداء بنسبة 90% مقارنة باستخدام Opus بمفرده. يشبه هذا النمط من العمل التعاوني الطريقة التي تزيد بها المجتمعات البشرية الإنتاجية بشكل كبير من خلال تقسيم العمل والتعاون. توضح الدراسة بالتفصيل كيفية بناء أنظمة بحث فعالة متعددة الوكلاء وتشارك طرق تقييمها، بما في ذلك استخدام LLM كحكم. ومع ذلك، أشارت بعض التعليقات إلى أن طريقة بحث Claude الموصوفة في التقرير قد تعاني من مشكلة عدم كفاية عمق البحث (المصدر: zacharynado، omarsar0، nrehiew_)

دراسة تشير إلى أن قدرة نماذج اللغة الكبيرة على الاستدلال محدودة بـ “عدم الألفة” وليس “التعقيد”: يشير فرانسوا شوليه إلى أن قدرة نماذج اللغة الكبيرة (LRM) على الاستدلال لا تنهار عند الوصول إلى عتبة معينة من “التعقيد” أو “عدد الخطوات”، بل تفشل عند مواجهة مهام “غير مألوفة”، وعتبة عدم الألفة هذه منخفضة للغاية. يمكن للنماذج حل المهام المعقدة للغاية التي تم تغطيتها خلال مرحلة التدريب/الضبط، ولكن حتى المهام الجديدة البسيطة (مثل مهام ARC 2) قد تفشل فيها. إن عتبات الخطوات/التعقيد التي لوحظت في المشكلات المألوفة (مثل برج هانوي) هي في الواقع نتيجة لخلق “حداثة” عن طريق زيادة متغيرات المشكلة (المصدر: fchollet، jeremyphoward)
Sakana AI تطلق نموذج الشبكة الفائقة Text-to-LoRA (T2L): أطلقت Sakana AI نموذج Text-to-LoRA (T2L)، وهو نوع جديد من الشبكات الفائقة قادر على إنشاء مهايئات LoRA جديدة بسرعة لنماذج اللغة الكبيرة بناءً على الوصف النصي للمهمة. لا يمكن لـ T2L ضغط العديد من مهايئات LoRA الحالية فحسب، بل يمكنه أيضًا إنشاء مهايئات LoRA جديدة فورًا بعد التدريب، مما يوفر مسارًا جديدًا للتخصيص السريع للنماذج الخاصة بالمهام. سيتم عرض هذا البحث في ICML 2025 (المصدر: TheTuringPost)

نموذج Nvidia Cosmos-Predict2 (نموذج 2B) يظهر قدرة رائعة على توليد الصور: يُنظر إلى نموذج Cosmos-Predict2 من Nvidia، وهو نموذج يحتوي على 2 مليار معلمة، على أنه “منصة نموذج أساسي عالمي للذكاء الاصطناعي الفيزيائي”، وقد أظهر قدرات مثيرة للإعجاب في توليد الصور الفنية. على الرغم من أن مجموعة بياناته الأساسية قد لا تكون مثالية، إلا أن بنية النموذج جيدة، وجودة الصور التي تم إنشاؤها لا تختلف كثيرًا عن إصدار 14B معلمة، وتتفوق عليها بشكل طفيف فقط في التفاصيل والالتزام بالموجهات، مما يدل على إمكانات النماذج الصغيرة في ظل التحسينات المحددة (المصدر: teortaxesTex)

MIT تطور خوارزمية جديدة تمكن الطائرات بدون طيار من تجنب العواصف بشكل ذاتي: طور معهد ماساتشوستس للتكنولوجيا (MIT) خوارزمية جديدة تمنح الطائرات بدون طيار (UAVs) قدرة اتخاذ قرار تشبه “الدماغ”، مما يمكنها من تحليل أحوال الطقس في الوقت الحقيقي وتخطيط مساراتها بشكل ذاتي لتجنب العواصف. من المتوقع أن تعزز هذه التقنية سلامة طيران الطائرات بدون طيار وكفاءة تنفيذ المهام في الظروف الجوية المعقدة (المصدر: Ronald_vanLoon)

بحث Meta: نماذج اللغة بنمط GPT تتذكر 3.6 بت من المعلومات لكل معلمة: توصلت دراسة جديدة أجرتها Meta إلى أن نماذج اللغة بنمط GPT قادرة على تذكر حوالي 3.6 بت من المعلومات لكل معلمة. قامت الدراسة بتقييم سعة الذاكرة لهذه النماذج عن طريق قياس إجمالي عدد البتات التي يتذكرها النموذج (بناءً على نظرية شانون عام 1953)، ولوحظ وجود علاقة منحنى محددة بين الذاكرة وحجم البيانات (المصدر: jxmnop)

OpenRouter ينشر تصنيف معدل انتهاك LLM في مهام الإخراج المنظم (JSON): قامت OpenRouter بتصنيف نماذج اللغة الكبيرة (LLM) الرئيسية بناءً على النسبة المئوية لانتهاكات JSON التي تم اكتشافها في طلبات الإخراج المنظم العليا خلال الأسبوع الماضي. أظهرت النتائج أن Qwen و Mistral و GPT-4o-mini أظهرت أداءً جيدًا، مع معدلات انتهاك JSON منخفضة. بينما تجاوز معدل انتهاك DeepSeek v3 و Sonnet 4 نسبة 20%، مما يشير إلى وجود مجال كبير للتحسين في الالتزام الدقيق بتنسيق JSON. لا يزال من غير الواضح سبب هذا التباين في الأنماط المحددة (المصدر: xanderatallah، teortaxesTex)

مجموعة Ant Group تطلق نموذج Ming-Omni الموحد متعدد الوسائط: أطلقت مجموعة Ant Group سلسلة نماذج Ming-Omni، وهو نموذج موحد متعدد الوسائط قادر على الإدراك والتوليد عبر النصوص والصور والصوت والفيديو. يعتمد إصداره الخفيف Ming-Lite-Omni على معمارية MoE، مع 2.8 مليار معلمة نشطة فقط، ويتمتع بقدرات توليد صور عالية الجودة وتوليف كلام طبيعي، وقد تم إتاحته كمصدر مفتوح على Hugging Face بموجب ترخيص MIT (المصدر: teortaxesTex، _akhaliq)

أداة تصميم شرائح الذكاء الاصطناعي الصينية “QiMeng” تكمل تصميم المعالج في غضون أيام، متجاوزة كفاءة المهندسين: أظهرت أداة تصميم شرائح الذكاء الاصطناعي الصينية “QiMeng” قدرتها الفعالة على تصميم المعالجات، حيث يمكنها إكمال مهام التصميم في غضون أيام قليلة، وهو ما يتطلب عادةً وقتًا أطول من المهندسين التقليديين. يمثل هذا إمكانات الذكاء الاصطناعي في مجال أتمتة تصميم الشرائح، ومن المتوقع أن يسرع دورة تطوير الشرائح ويقلل التكاليف (المصدر: Ronald_vanLoon)

نموذج o3-pro من Hao AI Lab يحقق أداءً متميزًا في اختبارات ألعاب LLM: حقق نموذج o3-pro من Hao AI Lab تقدمًا ملحوظًا في Lmgame Bench (وهو اختبار معياري لتقييم قدرات نماذج اللغة الكبيرة في الألعاب). في ألعاب Tetris و Sokoban، وصل o3-pro إلى مستوى SOTA وتفوق بشكل كبير على سابقه o3. بشكل خاص في لعبة Tetris، تمكن o3-pro من إزالة أكثر من 8 صفوف، مما يدل على قدرته على التخطيط، بينما تعثرت النماذج الأخرى بعد بضعة صفوف قليلة (المصدر: clefourrier)
دراسة تكشف أن سن الأربعين هو نافذة حرجة للوقاية من شيخوخة الدماغ، وتدخل الكيتونات يظهر تأثيرًا ملحوظًا: كشفت دراسة نشرت في PNAS، من خلال تحليل بيانات مسح الدماغ لما يقرب من 20,000 شخص، أن شيخوخة الدماغ ليست عملية خطية، بل تتبع منحنى على شكل S، وترتبط بزيادة مقاومة الأنسولين. تشير الدراسة إلى أن سن الأربعين تقريبًا هو الفترة التي يبدأ فيها تسارع عدم استقرار شبكة الدماغ، وأن سرعة الشيخوخة تكون في أقصاها في الستينيات من العمر. أظهرت التجارب أن الكيتونات (D-βHB) يمكنها تجاوز مقاومة الأنسولين لتزويد الخلايا العصبية بالطاقة، ولها تأثير كبير على استقرار شبكة الدماغ، خاصة وأن التدخل في الفئة العمرية 40-59 عامًا يكون له أفضل تأثير، مما يوفر أفكارًا جديدة للعناية بصحة الدماغ في منتصف العمر (المصدر: 量子位)

🧰 أدوات
The Browser Company تطلق نسخة تجريبية من متصفح Dia الأصلي للذكاء الاصطناعي: أطلقت شركة The Browser Company، مطورة متصفح Arc، نسخة تجريبية داخلية من أول متصفح أصلي للذكاء الاصطناعي خاص بها، Dia. أبرز ما يميز Dia هو السماح للمستخدمين بالتفاعل مباشرة مع أي محتوى على صفحة الويب (بما في ذلك مقاطع فيديو YouTube، وFigJam، وتقويم Google، وما إلى ذلك) من خلال الدردشة، دون الحاجة إلى فتح أدوات ذكاء اصطناعي خارجية مثل ChatGPT. يمكنه تلقائيًا الحصول على السياق من علامات التبويب، ويدعم دمج ومقارنة المعلومات من صفحات ويب متعددة، ووضع الخطط، وإنشاء المحتوى، وما إلى ذلك. يدعم حاليًا MacOS فقط، ويهدف إلى توفير تجربة تصفح أبسط وأكثر تركيزًا على الذكاء الاصطناعي (المصدر: 36氪)

LangChain تطلق مولد بودكاست محلي يعمل بالذكاء الاصطناعي: أطلقت LangChain مولد بودكاست محلي يعمل بالذكاء الاصطناعي، تم بناء هذا النظام باستخدام LangChain و Ollama، وهو قادر على تحويل النصوص إلى بودكاست متعدد اللغات. يجمع بين تقنيات تلخيص النصوص وتوليد الكلام، مما يحقق عملية إنشاء بودكاست سلسة. يمكن للمستخدمين الرجوع إلى البرنامج التعليمي المقدم لمعرفة كيفية استخدام هذه الأداة (المصدر: LangChainAI، hwchase17)

Davia: تحويل تطبيقات Python ووكلاء LangGraph بسرعة إلى تطبيقات ويب: Davia هي أداة يمكنها تحويل تطبيقات Python ووكلاء LangGraph على الفور إلى تطبيقات ويب جذابة، دون الحاجة إلى كتابة أي كود للواجهة الأمامية. تعتمد على FastAPI، ويمكنها إنشاء واجهات مستخدم تفاعلية تلقائيًا، مما يسمح للمطورين بالتركيز على تحقيق منطق Python (المصدر: LangChainAI، Hacubu)

Tensorlake يتكامل مع LangChain لتحقيق معالجة منظمة للمستندات: أعلنت Tensorlake عن تكاملها مع LangChain، مما يمكّن وكلاء LangGraph من الاستفادة من نظام معالجة الوسائط المتعددة القوي لـ Tensorlake لتحويل المستندات غير المهيكلة إلى بيانات منظمة. يوفر هذا التكامل حلاً جديدًا لمعالجة المستندات المعقدة (المصدر: LangChainAI، hwchase17)

Quark تطلق أول نموذج كبير لاختيار التخصصات الجامعية في الصين وميزة تقرير التخصصات المجاني: أطلقت Quark أول نموذج كبير لاختيار التخصصات الجامعية في الصين، وأتاحت ميزة “تقرير التخصصات” المجانية. يعتمد هذا النموذج على نمط تشغيل Agent، ويمكنه محاكاة عملية اتخاذ القرار من قبل الخبراء، مع دمج “قاعدة بيانات معرفة امتحانات القبول الجامعي” المحدثة باستمرار (تغطي أكثر من 2900 جامعة، وما يقرب من 1600 تخصص جامعي ومعلومات التوظيف وغيرها)، لإنشاء خطط اختيار تخصصات مخصصة للطلاب تتضمن ثلاثة مستويات: “طموحة، مستقرة، آمنة”. تهدف هذه الخطوة إلى استخدام تقنية الذكاء الاصطناعي لخفض عتبة وتكلفة اختيار التخصصات الجامعية، وتغيير الوضع التقليدي للاستشارات باهظة الثمن (المصدر: 量子位)

Task Orchestrator: أداة إدارة مشاريع MCP مصممة لـ Claude Code: أنشأ المطور jpicklyk أداة MCP (Machine-Level Code Programming) تسمى Task Orchestrator، تهدف إلى حل مشكلة “تشتت الانتباه” ونسيان السياق التي يعاني منها Claude Code عند التعامل مع المشاريع المعقدة. تمنح هذه الأداة Claude ذاكرة دائمة، وإدارة مشاريع منظمة (مشروع ← ميزة ← مهمة)، وقوالب أصلية للذكاء الاصطناعي، وعلاقات تبعية ذكية، وقدرة على تتبع التقدم، مما يجعله أشبه بشريك هندسي منظم. المشروع مفتوح المصدر على GitHub (المصدر: Reddit r/ClaudeAI)

ATLAS: شريك هندسة برمجيات ذكاء اصطناعي يمنح Claude Code قدرة على الإدراك الذاتي: أنشأ المطور syahiidkamil مشروع ATLAS، بهدف تحويل Claude Code إلى شريك هندسة برمجيات ذكاء اصطناعي يتمتع بوعي ذاتي أولي، وذاكرة، وهوية، ومعايير مهنية. يستطيع ATLAS الحفاظ على سياق المشروع، وإدارة معرفته ذاتيًا، والتطور مع عمليات إرسال الكود، وطلب مراجعة الكود بشكل استباقي، مما يعزز عملية تعاون ومراجعة أكثر طبيعية بين المستخدم والذكاء الاصطناعي. المشروع مفتوح المصدر على GitHub، ويهدف إلى مساعدة المستخدمين والذكاء الاصطناعي على الحفاظ معًا على كود عالي الجودة (المصدر: Reddit r/ClaudeAI)

Observer: مساعد ذكاء اصطناعي لمراقبة الشاشة يعمل محليًا: Observer هو أداة ذكاء اصطناعي يمكن تشغيلها محليًا، وهي قادرة على مراقبة نشاط شاشة المستخدم. من خلال البرنامج التعليمي، يمكن تعلم كيفية استضافة Observer ذاتيًا على خادم منزلي، لتحقيق تحليل أو تفاعل مدعوم بالذكاء الاصطناعي لمحتويات الشاشة (المصدر: Reddit r/LocalLLaMA)

VantaAI: مشاركة مشروع مساعد ذكاء اصطناعي محلي يتمتع بذاكرة ومنطق عاطفي: شارك أحد المطورين مشروعه الشخصي VantaAI، وهو مساعد ذكاء اصطناعي محلي يهدف إلى العمل دون اتصال بالإنترنت تمامًا. يحاكي VantaAI الذاكرة العاطفية، والتقلبات المزاجية، والهوية الشخصية، ويمتلك ذاكرة طويلة المدى تتطور بناءً على سياق المحادثة، و”خريطة مزاجية” تتبع التغيرات العاطفية، وتجميع ذاكرة مدفوع بالسرد يعتبر نفسه بطل القصة. يستخدم المشروع واجهة خلفية Vulkan مخصصة لاستدلال النماذج وتدريبها، ويدعم الاستجابات القائمة على الشخصية وإعادة التحميل السريع للمكونات الإضافية (المصدر: Reddit r/LocalLLaMA)
📚 تعلم
Hamel Husain و Shreya Shankar يؤلفان كتابًا عن AI Evals ويقدمان دورة تدريبية: تعاون Hamel Husain و Shreya Shankar في تأليف كتاب حول تقييمات الذكاء الاصطناعي (AI Evals) وقدما دورة تدريبية ذات صلة. تم توفير الفصل الأول من الكتاب والفهرس الكامل للمعاينة، ويغطي المحتوى طرق تقييم الذكاء الاصطناعي من النظرية إلى التطبيق. كما دعت الدورة العديد من خبراء الصناعة ك محاضرين ضيوف، بهدف مساعدة المتدربين على تعزيز قدراتهم في تقييم أنظمة الذكاء الاصطناعي. حظيت الدورة بإشادة واسعة، وتعتبر واحدة من أكثر الموارد شمولاً حول تقييم الذكاء الاصطناعي حاليًا (المصدر: HamelHusain، HamelHusain)

إطار DSPy: يوفر تجريدًا برمجيًا متقدمًا لبرامج نماذج اللغة المعقدة: يؤكد فريق Stanford NLP أن إطار DSPy يهدف إلى أن يكون لغة ذات نطاق ترددي عالٍ للتفاعل الدقيق مع أجهزة الكمبيوتر. يسمح DSPy للمطورين ببناء وتحسين برامج نماذج لغة معقدة متعددة المراحل (Compound AI Systems)، ويدعم الهياكل البرمجية التعسفية مثل العودية، ومعالجة الاستثناءات، وتدفق التحكم المتداخل، وليس فقط “السلاسل” أو “التدفقات” البسيطة. تلتزم أدوات التحسين الخاصة به بتعديل التعليمات والعروض التوضيحية والأوزان في أي برنامج كمبيوتر، والتي يمكنها استدعاء واحد أو أكثر من نماذج LLM بشكل تعسفي (المصدر: stanfordnlp)

Terence Tao ضيفًا على بودكاست Lex Fridman، يناقش الرياضيات، والألغاز الفيزيائية، ومستقبل الذكاء الاصطناعي: أجرى عالم الرياضيات الشهير Terence Tao مقابلة مع Lex Fridman، ناقش فيها بعمق أكثر المشكلات تحديًا في الرياضيات والفيزياء، مثل معادلات Navier-Stokes، ومشكلة P مقابل NP، وغيرها، وتطلع إلى إمكانات الذكاء الاصطناعي في المساعدة على حل هذه الألغاز. كما تناول محتوى البودكاست إثبات النظريات بمساعدة الذكاء الاصطناعي، ولغة برمجة Lean، و AlphaProof من DeepMind، وإمكانية فوز الذكاء الاصطناعي بجائزة Fields Medal (المصدر: ، arohan)

فريق Phillip Isola ينشر كتابًا دراسيًا مجانيًا عبر الإنترنت حول رؤية الكمبيوتر: نشر Phillip Isola وفريقه كتابهم الدراسي حول رؤية الكمبيوتر مجانًا عبر الإنترنت. يقوم موقع الكتاب الدراسي (visionbook.mit.edu) بتطوير مكونات تفاعلية، مثل وظيفة البحث والتكامل مع LLM (نسخة تجريبية)، بهدف توفير موارد تعليمية أكثر ملاءمة للمتعلمين، وتشجيع المستخدمين على المساعدة في تحسين محتوى الكتاب الدراسي من خلال GitHub issues (المصدر: jeremyphoward، natolambert)
Hugging Face تطلق دورة تمهيدية في MCP: أطلقت Hugging Face بالتعاون مع Theodora Chu دورة تمهيدية جديدة في MCP (Master Control Program، قد تشير إلى التحكم في وكلاء الذكاء الاصطناعي أو أنظمة الوكلاء المتعددين). تهدف هذه الدورة إلى مساعدة المتعلمين على فهم وإتقان المعرفة والمهارات المتعلقة بـ MCP (المصدر: huggingface، ClementDelangue)
بحث DINOv2 ومواءمة النصوص (dino.txt) يظهر في CVPR 2025: تم عرض دراسة بعنوان dino.txt في CVPR 2025، وهي دراسة مكرسة لمواءمة ميزات DINOv2 المجمدة مع التسميات التوضيحية النصية، لتحقيق مواءمة لغة بصرية على مستوى الصورة والرقعة بتكلفة منخفضة. وهذا يمكّن النموذج من الاستفادة في نفس الوقت من الميزات البصرية عالية الجودة لـ DINOv2 وقدرات مواءمة اللغة البصرية بنمط CLIP (المصدر: TimDarcet، andersonbcdefg)

💼 أعمال
شركة Minglue Technology، وحيد القرن في مجال الذكاء الاصطناعي المدعومة من Tencent، تسعى للاكتتاب العام في بورصة هونغ كونغ بتقييم 12 مليار: قدمت شركة تطبيقات ذكاء البيانات Minglue Technology (المعروفة سابقًا باسم “Huizhi Holdings”) طلب اكتتاب عام إلى بورصة هونغ كونغ. تأسست الشركة على يد خريج كلية الرياضيات بجامعة بكين، وو مينغهوي، في عام 2005، وتركز على استخدام النماذج الكبيرة والمعرفة الصناعية والبيانات متعددة الوسائط لتزويد الشركات بدعم اتخاذ القرارات التسويقية والتشغيلية. تشمل منتجاتها الأساسية Miaozhen Systems و Jinshuju وغيرها، وتخدم عملاء من بينهم 135 شركة من قائمة Fortune 500 مثل Procter & Gamble و McDonald’s. تعد Tencent أكبر مساهم فيها بحصة 27.33%. بعد إكمال آخر جولة تمويل قبل الاكتتاب العام في يناير 2024، بلغت قيمة الشركة حوالي 12 مليار يوان صيني (المصدر: 量子位)

OpenAI وشركة تصنيع الألعاب Mattel تعقدان شراكة استراتيجية لتطوير ألعاب ذكية تعمل بالذكاء الاصطناعي: أعلنت OpenAI عن شراكة مع شركة تصنيع الألعاب العالمية الشهيرة Mattel، لتطوير ألعاب ذكية مزودة بتقنية الذكاء الاصطناعي بشكل مشترك. تهدف هذه الشراكة إلى تطبيق تقنية الذكاء الاصطناعي من OpenAI في تجارب ألعاب مناسبة للفئات العمرية، مما يغير طرق اللعب التقليدية. تمتلك Mattel عناوين IP شهيرة مثل دمية باربي وعجلات هوت ويلز. يلتزم الطرفان بضمان سلامة الأطفال وخصوصيتهم بشكل صارم في إطار التعاون. ستقوم Mattel أيضًا بدمج أدوات الذكاء الاصطناعي من OpenAI (مثل ChatGPT Enterprise) في عملياتها التجارية لتعزيز تطوير المنتجات والابتكار (المصدر: 36氪)
شركة Glean الناشئة في مجال البحث المؤسسي تجمع 150 مليون دولار في جولة تمويل متأخرة: أعلنت شركة Glean الناشئة في مجال البحث المؤسسي عن حصولها على 150 مليون دولار في جولة تمويل متأخرة، مما رفع تقييمها إلى 7.2 مليار دولار. تستخدم Glean تقنية الذكاء الاصطناعي لمساعدة موظفي الشركات على البحث عن المعلومات بكفاءة أكبر ضمن تطبيقات SaaS ومصادر البيانات المعقدة داخل الشركة (المصدر: dl_weekly)
🌟 مجتمع
Hugging Face تنظم هاكاثون LeRobot العالمي للروبوتات، لدفع تطوير تكنولوجيا الروبوتات مفتوحة المصدر: نظمت Hugging Face هاكاثون LeRobot للروبوتات بشكل متزامن في العديد من المدن حول العالم (بما في ذلك ميامي، آخن، ليون، ميونيخ، بنغالور، لندن، باريس، لوس أنجلوس، منطقة خليج سان فرانسيسكو، وغيرها). يهدف الحدث إلى دفع تطوير تكنولوجيا الروبوتات مفتوحة المصدر وتطبيقات الذكاء الاصطناعي في مجال الروبوتات، حيث استخدم المشاركون منصة LeRobot والأجهزة المقدمة (مثل الأذرع الروبوتية وكاميرات العمق) للتطوير. اجتذب الحدث عددًا كبيرًا من المطورين للمشاركة، واستكشاف التقنيات المتطورة مثل تعلم الروبوتات، وتدريب نماذج اللغة البصرية (VLA)، وظهرت مشاريع إبداعية مثل glambot المصغر، ومساعد المختبر البيولوجي الآلي، وروبوت تحضير الشاي (المصدر: ClementDelangue، huggingface، ClementDelangue)

نقاش حول قدرات Claude Code وطرق استخدامه: ظهر نقاش على وسائل التواصل الاجتماعي حول قدرات Claude Code. يعتقد بعض المستخدمين أنه على الرغم من ادعاء Claude Code بأن جزءًا من الكود الخاص به تم إنشاؤه ذاتيًا، فإن هذا لا يعادل “الاعتماد على الذات” الكامل، تمامًا كما أن كود VSCode مكتوب بشكل أساسي بواسطة VSCode. تم التأكيد على أنه عند استخدام أدوات مثل Claude Code، يجب اتباع المبادئ الأساسية مثل التكرار بخطوات صغيرة، ومراجعة الكود، وإدارة الإصدارات، والقدرة على قيادة تصميم البرنامج وتقسيم المهام. عند ظهور مشكلات في الكود الذي تم إنشاؤه، يجب أولاً محاولة جعله يصلحها، وإذا لم ينجح ذلك، فيجب التراجع. أشار مستخدم آخر إلى أن Rizo الذي أطلقته Atlassian يعتبر منافسًا لـ Claude Code ويوفر 20 مليون توكن مجاني يوميًا (المصدر: dotey، dotey، Reddit r/ClaudeAI)

آراء حول تأثير الذكاء الاصطناعي على سوق العمل: تفاقم التفاوت، والمواهب المتميزة تستفيد: يعتقد BrivaelLp أن تقنية الذكاء الاصطناعي الحالية (مثل أدوات توليد الكود) يمكن أن تزيد من كفاءة المطورين العاديين بمقدار 5 أضعاف، بينما يمكن للمطورين المتميزين زيادتها بمقدار 100 ضعف. سيؤدي هذا إلى ميل الشركات بشكل أكبر لتوظيف المواهب المتميزة ذات الخبرة، وتقليل الطلب على الموظفين المبتدئين. قد يؤدي الذكاء الاصطناعي إلى تفاقم “تأثير متى” داخل مختلف الصناعات، حيث سيشهد أفضل 10% من العاملين عصرًا ذهبيًا، بينما يواجه المستوى المتوسط ضغوطًا، مما يعكس وجهة النظر القائلة “لا سوق للمتوسطين” (المصدر: BrivaelLp)
نقاش حول مزايا وسيناريوهات تطبيق LLM المحلي: ناقش مجتمع Reddit مزايا تشغيل نماذج اللغة الكبيرة (LLM) محليًا. بالإضافة إلى حماية الخصوصية والتوفير المحتمل في التكاليف (على الرغم من أن الاستثمار في الأجهزة قد يكون كبيرًا)، أكد المستخدمون على التحكم الكامل في النموذج، والقدرة على التخصيص (مثل تعديل النموذج، ودمج RAG)، وعدم وجود قيود على واجهة برمجة التطبيقات، والاستخدام دون اتصال بالإنترنت، وآليات رقابة أقل. يوفر LLM المحلي أيضًا سهولة في التعلم والتجريب، على سبيل المثال، يقوم بعض المستخدمين بنشر LLM بصري محليًا لمعالجة الصور العائلية، أو تطوير مساعد ذكاء اصطناعي يتمتع بذاكرة ومنطق عاطفي (المصدر: Reddit r/LocalLLaMA)
النقاش مستمر حول ما إذا كانت نماذج LLM تمتلك قدرة استدلال حقيقية: يستمر النقاش في المجتمع حول ما إذا كانت نماذج اللغة الكبيرة (LLM) تمتلك حقًا قدرة على الاستدلال، وأين تكمن حدود قدراتها. يعتقد فرانسوا شوليه أن قدرة LLM على الاستدلال محدودة بـ “عدم الألفة” وليس “التعقيد”. وهناك وجهة نظر أخرى ترى أن LLM تعتمد فقط على مطابقة الأنماط و”التذكر” بناءً على كميات هائلة من بيانات التدريب، وليس التفكير الحقيقي. تعكس هذه النقاشات تفكيرًا عميقًا في طبيعة تقنية الذكاء الاصطناعي الحالية واتجاهات تطورها المستقبلية (المصدر: fchollet، francoisfleuret، vikhyatk)
الذكاء الاصطناعي يظهر إمكانات في التشخيص الطبي، ولكن يجب على المستخدمين توخي الحذر: شارك مستخدم على Reddit حالة ساعد فيها ChatGPT زوجته على تصحيح تشخيص خاطئ من قبل طبيب، مما أثار نقاشًا حول تطبيقات الذكاء الاصطناعي في المجال الطبي. على الرغم من أن الذكاء الاصطناعي يظهر إمكانات في المساعدة التشخيصية، خاصة في تحديد الأمراض النادرة وتحليل الصور الطبية، إلا أن المجتمع أكد أيضًا أن الذكاء الاصطناعي العام مثل ChatGPT ليس أداة طبية متخصصة، وقد تكون معلوماته غير دقيقة أو قديمة. يجب على المستخدمين توخي الحذر الشديد عند تبني النصائح الطبية المقدمة من الذكاء الاصطناعي، ويجب عليهم دائمًا استشارة طبيب متخصص. اقترح بعض المستخدمين التحقق من قيود الذكاء الاصطناعي عن طريق سؤاله عما إذا كان موثوقًا به تمامًا (المصدر: Reddit r/ChatGPT، gdb)

جودة المحتوى الذي يولده الذكاء الاصطناعي وتفضيلات المستخدمين تثير النقاش: هناك وجهة نظر مفادها أن بعض الخصائص “السيئة” لنماذج اللغة الكبيرة (LLM)، مثل الإسهاب المفرط أو محاباة المستخدم، هي في الواقع نتيجة لتفضيلات المستخدمين. على غرار ميل الناس إلى الأطعمة المصنعة عالية السكر، قد تسعى شركات الذكاء الاصطناعي لتحسين تقييمات منصات مثل LMArena، مما قد يؤدي إلى ميل مخرجات النماذج إلى إرضاء المستخدمين بدلاً من السعي لتحقيق الدقة والإيجاز المطلقين. شارك HamelHusain أيضًا دليل الكتابة الذي أضافه إلى موجهاته لمكافحة “الهراء” في المحتوى الذي يولده الذكاء الاصطناعي، مؤكدًا على الحاجة إلى حذف المعلومات الزائدة بنشاط (المصدر: scaling01، jeremyphoward، HamelHusain)

تبرز قيمة وكلاء الذكاء الاصطناعي في أتمتة مهام محددة: يشير Jerry Liu إلى أنه على الرغم من أن مساعدي الدردشة العامين يظهرون أداءً متميزًا في العصف الذهني الإبداعي، إلا أنهم ما زالوا بحاجة إلى قدر كبير من هندسة الموجهات عند تنفيذ مهام محددة. وهو يعتقد أن بناء أنظمة وكلاء ذكاء اصطناعي مؤتمتة قادرة على إكمال مهمة واحدة محددة بشكل ممتاز له قيمة هائلة. من خلال ترميز عمليات محددة في سير عمل الوكيل، يمكن تحقيق أتمتة أكثر كفاءة وقابلية للتحكم. تعمل LlamaIndex على دعم هذا النوع من سير عمل الكود المتخصص، وقد تظهر في المستقبل المزيد من واجهات المستخدم/تجربة المستخدم بدون كود لبناء مثل هؤلاء الوكلاء المؤتمتين (المصدر: jerryjliu0)

💡 أخرى
جائزة الباحث الشاب في CVPR 2025 تُمنح لـ Saining Xie و Hao Su: في مؤتمر CVPR 2025، مُنح Saining Xie و Hao Su جائزة الباحث الشاب. تهدف هذه الجائزة إلى تكريم الباحثين في بداية حياتهم المهنية الذين لم يمض على حصولهم على درجة الدكتوراه أكثر من 7 سنوات، وذلك لإسهاماتهم البارزة في مجال رؤية الكمبيوتر. شارك Hao Su (طالب دكتوراه لدى Li Fei-Fei) في مشروع ImageNet، بينما تعاون Saining Xie مع Kaiming He لإكمال ResNeXt وشارك في مشروع MAE، وكلاهما من الأعمال المهمة في مجال رؤية الكمبيوتر (المصدر: 量子位)

طابعة الليزر Nikon SLM NXG قد تحدث ثورة في التصنيع: طابعة الليزر SLM NXG التي أطلقتها Nikon، والتي يشبه مظهرها بشكل مذهل أجهزة DUV (الطباعة الحجرية بالأشعة فوق البنفسجية العميقة). يُعتقد أن هذه الطابعة لديها القدرة على إحداث ثورة في التصنيع التوليدي، خاصة في مجالات محددة. على الرغم من أن Nikon خسرت في سباق DUV أمام ASML، إلا أن تقنية مصدر الليزر الخاصة بها لا تزال تتطور باستمرار وتُطبق في مجالات تصنيع جديدة (المصدر: teortaxesTex)

التقدم الملحوظ في توليد الصور بالذكاء الاصطناعي بين عامي 2022 و 2025: شارك مستخدم على Reddit مقارنة بين صور تم إنشاؤها بواسطة الذكاء الاصطناعي في عامي 2022 و 2025 بناءً على نفس الموجه (موضوع “Rick and Morty”). أظهرت صور عام 2022 عيوبًا واضحة في تفاصيل الشخصيات (مثل اليدين والأنف) والتناسق العام، بينما تحسنت صور عام 2025 بشكل كبير، مما يدل على التطور السريع لتقنية توليد الصور بالذكاء الاصطناعي في غضون سنوات قليلة. على الرغم من أن بعض المستخدمين ما زالوا يشيرون إلى أن تفاصيل أيدي الشخصيات في الصور الجديدة لا تزال غير مثالية، إلا أن التقدم العام واضح (المصدر: Reddit r/artificial)
