كتب : أحمد خيري
لم نكن من قبل نتصور أنه سوف يأتي يوم يمكن للذكاء الاصطناعي أن يغير العالم بهذه السرعة؟. فجأة وبدون سابق إنذار اهتزت صناعة الذكاء الاصطناعي على عروشها، مع ظهور نماذج "DeepSeek" لتدخل في منافسة شرسة غير مسبوقة، في تحليلها للبيانات الضخمة، أو قمة التطور في فهم الأنماط المعقدة، أو الابتكار المستمر، وتقديم حلول مخصصة للعملاء، في قطاعات مختلفة مثل الأدوية الجديدة، أو تحسين عمليات التصنيع، وتقديم توصيات مخصصة للمستخدمين، مما يغير جذريا طريقة عيشنا وتفاعلنا مع العالم من حولنا.
هل ستتمكن هذه النماذج من الحفاظ على مكانتها الطاغية في ظل التحديات المتزايدة والمنافسة الشديدة؟ أم أننا على أعتاب عصر جديد من التطورات التي ستقلب الموازين مجددا؟ "نماذج "DeepSeek" أثبتت أن المستحيل ليس كذلك. بفضل قدرتها على تحليل كميات هائلة من البيانات وتقديم حلول مبتكرة، أصبحت هذه النماذج قوة دافعة وراء ثورة تكنولوجية جديدة.
ما هي شركة "ديب سيك" "DeepSeek" الصينية؟ ولماذا تقلق عمالقة الذكاء الاصطناعي؟
"ديب سيك" "DeepSeek"، شركة ذكاء اصطناعي صينية ناشئة، أثارت قلق وخوف "وادي السيليكون الأمريكي" بنموذجها المتطور للذكاء الاصطناعي الذي قدم أداء يضاهي أفضل روبوتات المحادثة في العالم مقابل تكلفة أقل بكثير، رغم أنها حديثة العهد، تأسست في 2023 على يد ليانج ونفنج، رئيس صندوق التحوط الكمي، والحاصل على شهادتي البكالوريوس والماجستير في هندسة الإلكترونيات والمعلومات من جامعة تشيجيانج. تمكن من تأسيس شركته برأس مال مرخص يبلغ 1.4 مليون دولار.
وأصبحت الشركة الصينية غير المعروفة للذكاء الاصطناعي حتى وقت قريب، حديث صناعة التكنولوجيا العالمي بعد أن طرحت سلسلة من نماذج اللغة الكبيرة التي تفوقت على العديد من أفضل مطوري الذكاء الاصطناعي في العالم.
أصدرت DeepSeek نموذج اللغة الكبير الأكثر رواجا "R1" في 20 يناير الماضي، ووصل مساعد الذكاء الاصطناعي إلى المركز الأول على متجر تطبيقات Apple في الأيام الأخيرة، دافعا ChatGPT الذي كان يهيمن منذ فترة طويلة من OpenAI إلى المركز الثاني.
أدى هيمنتها المفاجئة، وقدرتها على التفوق على أفضل النماذج الأمريكية عبر مجموعة متنوعة من المعايير، إلى جنون وادي السيليكون، خاصة وأن الشركة الصينية تروج لأن نموذجها تم تطويره بتكلفة زهيدة.
لقد أشعلت الصدمة داخل الدوائر التقنية الأمريكية شرارة الحساب في الصناعة، مما يدل على أن مطوري الذكاء الاصطناعي ربما لا يحتاجون إلى مبالغ باهظة من المال والموارد من أجل تحسين نماذجهم، ويدرك الباحثون أنه قد يكون من الممكن جعل هذه العمليات فعالة، سواء من حيث التكلفة أو استهلاك الطاقة، دون المساس بالقدرة.
جاء نموذج الذكاء R1 في أعقاب نموذج سابق للشركة كانت قد أطلقت عليه V3، وتم إطلاقه في أواخر ديسمبر الماضي، وأصدرت الشركة مؤخرا نموذج ذكاء اصطناعي عالي الأداء تحت اسم Janus-Pro-7B، وهو متعدد الوسائط، حيث يمكنه معالجة أنواع مختلفة من الوسائط.
رغم النجاح السريع يري مؤسسة الشركة أن المشكلة التي تقف أمام تحقيق مزيد من التقدم لا تكمن في جمع تمويل أكبر، بل في القيود الأمريكية على الوصول إلى الرقائق الأفضل أداء، وأشار إلى أن معظم كبار الباحثين في الشركة كانوا حديثي التخرج من أكبر الجامعات الصينية.
الميزات التي تجعل نماذج اللغة فريدة من نوعها
1 - الحجم
على الرغم من تطويره بواسطة فريق صغير بتمويل أقل بشكل كبير من عمالقة التكنولوجيا الأمريكية الكبرى، فإن DeepSeek تغلبت علي مشكلة الحجم الكبير بنموذج مبتكر وقوي ويعمل بنفس القدر من الكفاءة على موارد أقل.
وذلك من خلال اعتماد مساعد الذكاء الاصطناعي على تقسيم نموذجه الكبير إلى العديد من النماذج الفرعية الصغيرة، حيث يتخصص كل منها في التعامل مع نوع معين من المهام أو البيانات، وعلى النقيض من النهج التقليدي، الذي يستخدم كل جزء من النموذج لكل إدخال، يتم تنشيط كل نموذج فرعي فقط عندما تكون معرفته الخاصة ذات صلة.
لذا على الرغم من أن V3 يحتوي على إجمالي 671 مليار مَعْلمة، والمَعْلمات هي القيم العددية التي تحدد وظيفة الشبكة العصبية في معالجة بيانات الإدخال وتوليد بيانات الإخراج- أو إعدادات داخل نموذج الذكاء الاصطناعي الذي يضبطه أثناء التعلم، إلا أنه في الواقع يستخدم 37 مليارا فقط في المرة الواحدة، وفقا لتقرير فني نشره مطوروه.
كما طورت الشركة استراتيجية فريدة لتحمل العبء لضمان عدم تحميل أي خبير بالعمل بشكل زائد أو ناقص، من خلال استخدام تعديلات أكثر ديناميكية، مما أتاح لـ DeepSeek توظيف فريق قوي من "الخبراء" والاستمرار في إضافة المزيد، دون إبطاء النموذج بأكمله.
2 - رسومات البيانات
يستخدم تقنية تسمى قياس الحوسبة في وقت الاستدلال، والتي تسمح للنموذج بتعديل جهده الحسابي لأعلى أو لأسفل حسب المهمة المطروحة، بدلا من التشغيل دائما بكامل طاقته، على سبيل المثال، قد يتطلب السؤال المباشر بضع أجزاء من النموذج، في حين أن طلب تحليل أكثر تعقيدا قد يستخدم النموذج الكامل، مما يجعل من السهل استخدام مثل هذا النموذج الكبير بطريقة أكثر كفاءة من ذي قبل.
3 - تكلفة التدريب
يجعل تصميم DeepSeek نماذجها أرخص وأسرع في التدريب من نماذج منافسيها، حتى مع استمرار شركات التكنولوجيا في الولايات المتحدة في إنفاق مليارات الدولارات سنويا على الذكاء الاصطناعي. حيث أشارت الشركة إلى أن نموذجها V3 - الذي كان بمثابة الأساس لتطوير R1 – تكلف 6 ملايين دولار واستغرق شهرين فقط للبناء، وكانت المشكلة بسبب القيود المفروضة على التصدير في الولايات المتحدة، والتي حدت من الوصول إلى أفضل شرائح الحوسبة للذكاء الاصطناعي، وهي شرائح H100 من إنفيديا، مما اضطرت شركة DeepSeek إلى بناء نماذجها باستخدام شرائح H800 الأقل قوة من نيفيديا.
ومن أكبر الإنجازات التي حققتها الشركة تطوير إطار عمل "الدقة المختلطة"، والذي يستخدم مزيجا من الأرقام ذات الدقة الكاملة 32 بت والأرقام ذات الدقة المنخفضة 8 بت، يستخدم ذاكرة أقل ويكون أسرع في المعالجة، ولكن يمكن أن يكون أقل دقة أيضا. وبدلا من الاعتماد على أحدهما فقط، توفر DeepSeek الذاكرة والوقت والمال باستخدام FP8 لمعظم الحسابات، والتحول إلى FP32 لبضع عمليات رئيسية حيث تكون الدقة في غاية الأهمية.
4 - الأداء
على الرغم من إمكانياته المتواضعة نسبيا، فإن درجات DeepSeek في المعايير تواكب أحدث النماذج المتطورة من كبار مطوري الذكاء الاصطناعي في الولايات المتحدة.
R1 يكاد يكون متقاربا مع نموذج o1 من OpenAI في مؤشر جودة التحليل الاصطناعي، وهو تصنيف مستقل لتحليل الذكاء الاصطناعي، ولكن يتفوق R1 بالفعل على مجموعة من النماذج الأخرى بما في ذلك Gemini 2.0 Flash من Google و Claude 3.5 Sonnet من Anthropic و Llama 3.3-70B من Meta و GPT-4o من OpenAI.
تتمثل إحدى ميزاته الأساسية في قدرته على شرح تفكيره من خلال التفكير المتسلسل، والذي يهدف إلى تقسيم المهام المعقدة إلى خطوات أصغر. وتمكن هذه الطريقة النموذج من الرجوع إلى الوراء ومراجعة الخطوات السابقة - محاكاة التفكير البشري - مع السماح للمستخدمين باتباع منطقه.
وكان أداء V3 على قدم المساواة مع Claude 3.5 Sonnet عند إصداره الشهر الماضي. وقد تفوق النموذج الذي سبق R1 على GPT-4o وLlama 3.3-70B وQwen2.5-72B من Alibaba، وهو نموذج الذكاء الاصطناعي الرائد السابق في الصين.
وفي الوقت نفسه، تزعم DeepSeek أن أحدث طراز Janus-Pro-7B الخاص بها تفوق على DALL-E من OpenAI و3 Medium من Stable Diffusion في العديد من المعايير.
مستوى أداء "DeepSeeek R1" مقارنة بـ"OpenAI" و" Meta
يتميز تطبيق "DeepSeeek R1" عن بقية روبوتات المحادثة، مثل "تشات جي تي" الذي طورته شركة "OpenAI"، من خلال توضيحه لمنطقه قبل تقديم الردود. وتؤكد الشركة أن الإصدار "R1" يقدم أداء يماثل أحدث إصدارات "أوبن إيه آي". كما وفرت الشركة للأشخاص المهتمين بتطوير روبوتات المحادثة إمكانية الوصول إلى التكنولوجيا اللازمة لذلك.
رغم الحجب الجزئي للتفاصيل تشير التقديرات إلى أن تكاليف تدريب وتطوير نموذج DeepSeek R1 أقل بكثير من نظرائه في OpenAI وMeta Platforms، هذه الكفاءة العالية في التكلفة تثير تساؤلات حول جدوى الإنفاق الضخم على أحدث معالجات الذكاء الاصطناعي من شركات مثل Nvidia، مما يفتح الباب أمام إمكانية تطوير نماذج قوية بأقل تكلفة.
يشكل نجاح " DeepSeek" تحديا مباشرا للسياسات الأمريكية التي تسعى إلى إبطاء التقدم التكنولوجي في الصين، مما يدفع واشنطن إلى فرض قيود أشد على تصدير أشباه الموصلات المتقدمة.
قدم نموذج R1 أداء متميزا ومتعدد الأوجه، حيث يتفوق في مهام متنوعة مثل حل المسائل الرياضية المعقدة "AIME 2024"، والفهم الشامل للمعلومات العامة "MMLU"، والتفاعل اللغوي الطبيعي "AlpacaEval 2.0"، وهذا الأداء الاستثنائي جعله واحدا من أفضل النماذج في تصنيف Chatbot Arena.
حقائق حول DeepSeek
- التسعير: سعره رخيص جدا مقارنة بـ OpenAI، فهو أقل بنحو 30 مرة، فبدلا من دفع 60 دولارا مع OpenAI، يمكنك الحصول على نفس الخدمة تقريبا بسعر 2.19 دولار فقط باستخدام هذا النموذج الجديد.
- متجر التطبيقات: في منافسة شرسة، استطاع أن يحقق المركز الأول في متجر آب ستور بتاريخ 27 يناير الماضي، متجاوزا عملاق الدردشة الآلية ChatGPT.
- تنزيلات التطبيق: بلغ إجمالي التنزيلات 2.6 مليون تنزيل بحلول 28 يناير الماضي.
- العمر: 20 شهرا فقط "تأسس في مايو 2023 في الصين".
- حجم الفريق: على الرغم من أن OpenAI يضم فريقا ضخما يزيد عن 3500 موظف، فإن Deepseek حققت نجاحا ملحوظا بفريق أصغر بكثير، حيث يبلغ عدد موظفيها نحو 200 فقط.
- مقياس النموذج: مع 671 مليار مَعْلمة، يعتبر DeepSeek-V3 واحدا من أكبر النماذج اللغوية في العالم.
- تكاليف التدريب: يتميز النموذج بكفاءة عالية في التدريب، حيث تبلغ تكلفته نحو 10 % من تكلفة النماذج الغربية المماثلة، وفقا لدراسة لما نشرته مجلة Wired في يناير الجاري.
- الترخيص المفتوح: على غرار العديد من مشروعات الذكاء الاصطناعي المفتوحة المصدر، ترخص معظم هذه النماذج بموجب ترخيص MIT "Business Standard"، مما يشجع على التعاون والتطوير المشترك.
- التأثير التكنولوجي: شهد سوق التكنولوجيا تحولا جذريا بعد إطلاق نموذج DeepSeek الجديد، حيث تسبب في خسارة تريليون دولار من القيمة السوقية للشركات المتضررة، كما ذكرت بلومبرج في يناير.
- الاعتراف العالمي: أحدث إطلاق النموذج في يناير صدمة في سوق التكنولوجيا العالمية، مما أدى إلى انخفاض أسهم Nvidia بنسبة 13 %.
- مرتبة Chatbot Arena: حصل النموذج على المركز الرابع في تصنيف Arena بحصوله على درجة 1357، مباشرة بعد ChatGPT-4o الذي احتل المركز الثالث.
- يقدر عدد المستخدمين بنحو 6 ملايين.
- استثمرت DeepSeek بشكل كبير في شراء 10 آلاف وحدة معالجة رسومية من نوع Nvidia H100، مما مكنها من بناء بنية تحتية قوية للذكاء الاصطناعي، ووضعها في منافسة مباشرة مع الشركات الغربية الكبرى.
- معظم العاملين من الخريجين الجدد: أنهى معظم باحثي DeepSeek درجاتهم في العامين الماضيين، مما عزز الابتكار السريع من خلال وجهات نظر جديدة وأعباء مؤسسية ضئيلة.
- يعتمد نموذج DeepSeek R1-Zero بشكل كامل على التعلم التعزيزي في تدريبه، بدلا من الاعتماد على بيانات مصنفة بشكل كبير، مما أدى إلى تطوير قدرات تفكير متقدمة، خاصة في مجالات الرياضيات والبرمجة.
- بفضل ابتكاراتها في مجال التعلم المعزز والهندسة المعمارية، تمتلك DeepSeek القدرة على إعادة تشكيل سوق نماذج اللغات الكبيرة، مما يفتح آفاقا جديدة للتطبيقات والخدمات الذكية.
- الانتباه الكامن متعدد الرؤوس "MLA": يقسم هذا آليات الانتباه لتسريع التدريب وتعزيز جودة الناتج، والتعويض عن عدد أقل من وحدات معالجة الرسوميات.
الجدول الزمني لـ DeepSeek AI
مايو 2023: أسس Liang Wenfeng DeepSeek AI، وانتقل من فرع أبحاث Fire-Flyer AI التابع لـ High-Flyer.
نوفمبر 2023: إصدار DeepSeek Coder، أول نموذج مفتوح المصدر يركز على الكود في المختبر.
أوائل عام 2024: تقديم DeepSeek LLM "67B معلمة" والمنافسة السعرية اللاحقة مع عمالقة التكنولوجيا الصينيين الرئيسيين.
مايو 2024: إطلاق DeepSeek-V2، الذي حظي بالثناء لأدائه القوي وتكلفة التدريب المنخفضة.
أواخر عام 2024: ظهور DeepSeek-Coder-V2 "236B معلمة"، والذي يوفر نافذة سياق عالية "128 ألف رمز مميز".
أوائل عام 2025: ظهور DeepSeek-V3 "671B معلمة" وDeepSeek-R1، حيث يركز الأخير على مهام التفكير المتقدمة وتحدي نموذج o1 الخاص بـ OpenAI.