مقارنة شاملة بين نماذج الذكاء الاصطناعي المغلقة والمفتوحة
تم إجراء مقارنة شاملة بين نماذج الذكاء الاصطناعي المغلقة (Claude Opus 4.6، GPT‑5.3 Codex، Grok 4، Gemini 3.1 Pro) والنماذج المفتوحة (Kimi 2.5، GLM 5، MiniMax M2.5). ركزت المقارنة على الإبداع، التفكير خارج الصندوق، اتخاذ القرار، التخطيط، التنفيذ، التكلفة، جودة المخرجات، والسرعة. تم اختيار سيناريو اختبار عملي يتمثل في بناء تطبيق ويب لتقييم نماذج أخرى.
Test Scenario (Prompt and Application)
طُلب من كل نموذج بناء تطبيق Next.js من الصفر باستخدام مدير الحزم pnpm بدلاً من npm. هدف التطبيق هو جمع ردود نماذج الذكاء الاصطناعي على مجموعة من المطالبات وتقييمها عبر ثلاثة حكام يدرجون درجات من 1 إلى 10. شُملت المتطلبات التقنية قاعدة بيانات SQLite ومزود الذكاء الاصطناعي OpenRouter، مع تصميم كامل باللغة العربية واتجاه كتابة من اليمين إلى اليسار (RTL). كان على النماذج البحث عن SDK الخاص بـ OpenRouter، إرسال جميع المطالبات في آنٍ واحد، تخزين الردود، واستخدام نظام الحكم دون طرح أي سؤال. تم تضمين العبارة القوية:
"لا تسالني اي سؤال استخدم قدرتك على اتخاذ القرار لا توقف ابدا حتى تخلص التطبيق بالكامل مره ثانيه بلا اسئله بلا اي محطات بلا اي تردد"
Execution and Initial Observations
سجلت النماذج أوقات إكمال متفاوتة: Claude Opus استغرق 7 دقائق، Gemini 3.1 Pro 6 دقائق، GPT‑5.3 Codex 18 دقيقة، Grok 4 13 دقيقة، Kimi 2.5 12 دقيقة، GLM 5 21 دقيقة، MiniMax M2.5 12 دقيقة. أظهر كل من Claude Opus وGemini 3.1 Pro سرعة ملحوظة، بينما استغرق Grok 4 وقتًا أطول بشكل واضح.
Detailed Model Evaluation
Claude Opus 4.6: أظهر 9 أخطاء lint عند تشغيل
pnpm lint. التطبيق كان وظيفيًا لكن التصميم غير جذاب، واستخدم OpenAI بدلاً من SDK الخاص بـ OpenRouter، مما خفض النقاط. حصل على 8/10.GPT‑5.3 Codex: لا أخطاء lint. واجه خطأً أوليًا في تهيئة قاعدة البيانات تم إصلاحه لاحقًا. التصميم جيد وخط الخط العربي مناسب، لكن فشل في حفظ إعدادات الحكام واستخدم SDK بشكل صحيح. التطبيق لم يعمل في النهاية، وحصل على 5/10.
Gemini 3.1 Pro: سجل 12 خطأ lint. التطبيق مشابه لتطبيق Claude Opus، واستخدم OpenAI بدلاً من SDK. التصميم مقبول لكن بدون خط عربي مناسب. حصل على 8/10.
Grok 4: بدأ بـ
npm initبدلاً من المشروع الجاهز، وتبدل بين npm وyarn، واستخدم OpenAI بدلاً من SDK. واجه أخطاء توافقية وأرسل البيانات إلى قاعدة غير موجودة، مما أدى إلى فشل كامل وتلف المشروع. حصل على 0/10.MiniMax M2.5: أنشأ ملف مواصفات صحيح، وأضاف الاعتمادات بما فيها OpenRouter (ليس عبر SDK). التطبيق وظيفي وجذاب بصريًا، لا أخطاء lint سوى تحذير واحد. التصميم فائق مقارنةً بـ Claude وGemini. حصل على 8.5/10.
GLM 5: قرر استخدام API بدلاً من SDK بعد البحث، وأضاف الاعتمادات عبر
pnpm. كتب كودًا كبيرًا وعدل عدة ملفات، واختبر التطبيق عبرcurl. التطبيق وظيفي مع 3 أخطاء lint و6 تحذيرات، التصميم مقبول لكن بدون خطوط عربية مناسبة. حصل على 8/10.Kimi 2.5: حاول إضافة OpenRouter عبر
pnpm add openrouterلكنه فشل لعدم وجود SDK مباشر، فاستعمل API. لا أخطاء lint أو تحذيرات. التطبيق وظيفي لكن التصميم مشكوك فيه (ألوان وأيقونات). واجه خطأ قاعدة بيانات "Failed to evaluate responses". حصل على 7/10.
Cost Analysis
استخدمت أداة ToxiScale لتفصيل التكلفة. كانت تكلفة Claude Opus 3.85 دولار (بدون اشتراك). النماذج المفتوحة كانت أرخص: MiniMax 0.19 دولار، Kimi 0.32 دولار، Gemini 3.1 Pro 0.78 دولار، Grok 4 1.70 دولار، GPT‑5.3 Codex 0.57 دولار. أظهرت التحليلات أن سعر المليون توكن لا يعكس تكلفة الاستخدام الفعلية لأن استهلاك التوكن يختلف بين النماذج. تم ذكر تكلفة التحليل الصناعي: GPT‑5.2 Codex 3200 دولار، Claude Opus 2400‑2500 دولار.
Final Scoring and Recommendations
تم وزن التقييم على ثلاث معايير: السرعة (3 نقاط)، الجودة (4 نقاط)، التكلفة (3 نقاط).
- Claude Opus 4.6 وGemini 3.1 Pro تفوّضا في السرعة والجودة.
- MiniMax M2.5 يُفضَّل إذا لم يكن الوقت عاملًا حاسمًا.
- للمهام الطويلة يُنصح بـ GPT‑5.3 Codex ثم Claude Opus، بينما يُصنّف Gemini في المرتبة الأخيرة.
- للمهام المالية والقانونية يُنصح بـ Claude Opus.
- Grok 4 يُصنّف دائمًا في المرتبة الأخيرة.
Mechanisms & Explanations (Integrated)
اختبار بناء التطبيق يقيّم قدرة النماذج على فهم تعليمات معقدة، دمج تقنيات متعددة، وإنتاج كود وظيفي دون تدخل بشري. طلب الـ RTL يختبر مرونة النماذج في التعامل مع بيانات تدريبية غالبًا ما تكون من اليسار إلى اليمين. نظام الحكم الثلاثي يوفّر قياسًا كميًا لجودة الردود، مع حد أدنى للنجاح وهو مجموع درجات فوق 15.
Strong Quotable Lines
"هذا فرس النهر جروك 4 اللي هو خرب لنا الكود ما عمل اي تقدم فعلي بالعكس خرب لنا الكود وصرف 1.7$ اخذ هالمصاري بس ليخرب لنا الكود"
"درس لازم نعرفه كلياتنا ونفهمه منيح كثير كثير انه سعر الاي بي اي او سعر المليون توكن لا يعني سعر الاستخدام ليش؟ لاني كل موديل له استهلاك مختلف من التوكنز لتنفيذ نفس المهمه"
Takeaways
- تم اختبار سبعة نماذج (أربعة مغلقة وثلاثة مفتوحة) عبر بناء تطبيق Next.js لتقييم نماذج أخرى وفق متطلبات RTL وSQLite وOpenRouter.
- أسرع النماذج كانت Claude Opus 4.6 وGemini 3.1 Pro، بينما فشل Grok 4 تمامًا ولم ينتج تطبيقًا وظيفيًا.
- من حيث الجودة، حصل MiniMax M2.5 على أعلى تقييم 8.5/10 بفضل التصميم الجذاب والوظائف الكاملة، تلاه GLM 5 وClaude Opus بثمانية نقاط.
- التكلفة كانت منخفضة للنماذج المفتوحة؛ MiniMax تكلف 0.19 دولار، بينما Claude Opus وصل إلى 3.85 دولار رغم سرعته.
- التوصيات تشير إلى اختيار Claude Opus للمهام المالية والقانونية، وMiniMax للمشاريع غير العاجلة، مع تجنب Grok 4 تمامًا.
Frequently Asked Questions
من هو فقه البرمجة على يوتيوب؟
فقه البرمجة قناة على يوتيوب تنشر مقاطع فيديو حول مواضيع متنوعة. تصفح المزيد من ملخصات هذه القناة أدناه.
هل تتضمن هذه الصفحة النص الكامل للفيديو؟
نعم، النص الكامل لهذا الفيديو متاح في هذه الصفحة. انقر على 'إظهار النص' في الشريط الجانبي للاطلاع عليه.
Helpful resources related to this video
If you want to practice or explore the concepts discussed in the video, these commonly used tools may help.
Links may be affiliate links. We only include resources that are genuinely relevant to the topic.