أخبارنا المغربية - وكالات
أعلنت شركة DeepSeek عن إطلاق الجيل الأول من نماذج DeepSeek-R1 وDeepSeek-R1-Zero، التي صُممت لمعالجة المهام المعقدة في مجال الاستدلال. ويعد نموذج DeepSeek-R1-Zero الأول من نوعه الذي يعتمد حصرياً على التعلم التعزيزي واسع النطاق (RL) دون استخدام الضبط الدقيق الخاضع للإشراف (SFT) في مراحله الأولية.
وفقاً لشركة DeepSeek، أدى هذا النهج المبتكر إلى ظهور قدرات استدلال طبيعية مثل التحقق الذاتي، التأمل، وتوليد سلاسل التفكير الواسعة النطاق (CoT). وأكد الباحثون أن النموذج أثبت قدرته على استيعاب مهام معقدة مثل تلك التي يواجهها طلاب الماجستير في القانون، معتمدين على التعلم التعزيزي فقط.
رغم هذه الإنجازات، يواجه DeepSeek-R1-Zero تحديات مثل التكرار اللانهائي، ضعف قابلية القراءة، وخلط اللغات، ما قد يحد من استخدامه في التطبيقات العملية. لمعالجة هذه المشكلات، طورت الشركة نموذج DeepSeek-R1، الذي أضاف خطوة تدريب مسبق باستخدام بيانات البداية الباردة، مما حسّن من قدراته الاستدلالية وعالج القيود التي واجهها النموذج السابق.
تفوق DeepSeek-R1 في المهام الاستدلالية
حقق DeepSeek-R1 أداءً مماثلاً لنظام o1 من OpenAI في مهام مثل الرياضيات، الترميز، والمنطق العام، مما يعزز مكانته كأحد النماذج الرائدة في الذكاء الاصطناعي الاستدلالي. كما أظهر نموذج DeepSeek-R1-Distill-Qwen-32B أداءً استثنائياً، متفوقاً على o1-mini عبر معايير متعددة.
اتخذت DeepSeek خطوة جريئة بإتاحة نماذجها بما في ذلك DeepSeek-R1 وDeepSeek-R1-Zero كمصدر مفتوح تحت ترخيص MIT، مما يسمح بالاستخدام التجاري وتطوير الأعمال المشتقة، مثل تدريب نماذج لغوية كبيرة جديدة.