كتبت أميرة شحاتة
السبت، 25 يناير 2025 12:00 مكشفت شركة DeepSeek عن الجيل الأول من نماذج DeepSeek-R1 وDeepSeek-R1-Zero المصممة لمعالجة مهام الاستدلال المعقدة، ويتم تدريب DeepSeek-R1-Zero فقط من خلال التعلم التعزيزي واسع النطاق (RL) دون الاعتماد على الضبط الدقيق الخاضع للإشراف (SFT) كخطوة أولية.
وفقًا لشركة DeepSeek، أدى هذا النهج إلى ظهور طبيعي لـ "العديد من سلوكيات الاستدلال القوية"، بما في ذلك التحقق الذاتي والتأمل وتوليد سلاسل فكرية واسعة النطاق (CoT).
وشرح باحثو DeepSeek: "أن [DeepSeek-R1-Zero] هو أول بحث مفتوح يثبت أن قدرات الاستدلال لدى طلاب الماجستير في القانون يمكن تحفيزها من خلال التعلم التعزيزي فقط، دون الحاجة إلى الضبط الدقيق الخاضع للإشراف".
لا يؤكد هذا الإنجاز على الأسس المبتكرة للنموذج فحسب، بل يمهد الطريق أيضًا للتقدم الذي يركز على التعلم التعزيزي في مجال الذكاء الاصطناعي الاستدلالي.
ومع ذلك، فإن قدرات DeepSeek-R1-Zero تأتي مع بعض القيود، وتتضمن التحديات الرئيسية "التكرار اللانهائي، وضعف قابلية القراءة، وخلط اللغات"، والتي قد تشكل عقبات كبيرة في التطبيقات في العالم الحقيقي، ولمعالجة هذه العيوب، طورت DeepSeek نموذجها الرائد: DeepSeek-R1.
نماذج التفكير DeepSeek-R1يعتمد DeepSeek-R1 على سابقه من خلال دمج بيانات البداية الباردة قبل تدريب التعلم المعزز، وتعمل خطوة التدريب المسبق الإضافية هذه على تعزيز قدرات التفكير في النموذج وحل العديد من القيود المذكورة في DeepSeek-R1-Zero.
كما أن DeepSeek-R1 يحقق أداءً مماثلاً لنظام o1 الذي نال استحسانًا كبيرًا من OpenAI عبر مهام الرياضيات والترميز والمنطق العام، مما يعزز مكانته كمنافس رائد.
اختار DeepSeek إتاحة كل من DeepSeek-R1-Zero وDeepSeek-R1 كمصدر مفتوح إلى جانب ستة نماذج أصغر حجمًا.
ومن بين هذه النماذج، أظهر DeepSeek-R1-Distill-Qwen-32B نتائج استثنائية، حتى أنه تفوق على o1-mini من OpenAI عبر معايير متعددة.
شاركت DeepSeek رؤى حول خط تطوير نموذج التفكير، والذي يدمج مزيجًا من الضبط الدقيق الخاضع للإشراف والتعلم التعزيزي.
وفقًا للشركة، تتضمن العملية مرحلتين من SFT لإنشاء القدرات الأساسية للعقلانية وغير العقلية، بالإضافة إلى مرحلتين من التعلم التعزيزي مصممتين لاكتشاف أنماط التفكير المتقدمة ومواءمة هذه القدرات مع التفضيلات البشرية.
تبنت DeepSeek ترخيص MIT لمستودعها وأوزانها، مما يوسع الأذونات للاستخدام التجاري والتعديلات اللاحقة.
ويُسمح بالأعمال المشتقة، مثل استخدام DeepSeek-R1 لتدريب نماذج لغة كبيرة أخرى (LLMs).
ملحوظة: مضمون هذا الخبر تم كتابته بواسطة اليوم السابع ولا يعبر عن وجهة نظر مصر اليوم وانما تم نقله بمحتواه كما هو من اليوم السابع ونحن غير مسئولين عن محتوى الخبر والعهدة علي المصدر السابق ذكرة.