- الرئيسية
- المركز الاعلامي
صحيفة الجامعة
مقارنة إجابات نماذج الذكاء الاصطناعي في حل لغز "خالد والساعة الأثرية" – تحليل شامل وتقييم مفصل - صحيفة الجامعة
![مقارنة إجابات نماذج الذكاء الاصطناعي في حل لغز "خالد والساعة الأثرية" – تحليل شامل وتقييم مفصل - صحيفة الجامعة](https://qau.edu.ye/upimages/journal/QAU2025-02-02-557894.jpg.webp)
مقارنة إجابات نماذج الذكاء الاصطناعي في حل لغز "خالد والساعة الأثرية" – تحليل شامل وتقييم مفصل
إشراف وإدارة السؤال: المهندس صدام حسين السلفي
طلب التحدي: مدير الحوار طلب من ChatGPT وضع هذا التحدي ليكون نقطة وصل بين نماذج الذكاء الاصطناعي المختلفة، حيث كان مدير الحوار يعيد الإجابات إلى شات جي بي تي لتحليلها ومقارنتها وفق معايير محددة لقياس قدرتها على التفكير، التحليل، والإبداع بطريقة عادلة ومنهجية.
مقدمة
في مجال الذكاء الاصطناعي، تختلف قدرة النماذج على حل المشكلات بناءً على خوارزمياتها، أسلوبها في تحليل المعلومات، ومدى قدرتها على الإبداع والتفكير النقدي. بهدف اختبار هذه الجوانب، تم تقديم تحدٍّ ذهني معقد لعدة نماذج ذكاء اصطناعي، حيث تم تقييم مدى فهمها العميق، قدرتها التحليلية، وإبداعها في تقديم الحلول.
كان الهدف من هذا الاختبار هو معرفة كيف تعالج النماذج نفس المشكلة بطرق مختلفة، مما يساعد على قياس الفهم العميق، التفكير النقدي، والقدرة على تقديم حلول واضحة وقابلة للتنفيذ.
النماذج التي تم اختبارها:
- DeepSeek
- Copilot
- Grok
- Qwen 2.5 Max
- Gemini Flash 2.0
بعد تحليل الإجابات، تم تقييم كل نموذج بناءً على معايير الفهم العميق، الإبداع في الحل، الاتساق مع القصة، والتناقضات المحتملة.
تفاصيل التحدي (السؤال المطروح)
"في مدينة نائية، يعيش رجل يدعى خالد. يملك خالد ساعة أثرية عجيبة، وعندما يضغط على زر معين فيها، تعيد عقارب الساعة الزمن إلى الوراء بمقدار ساعة واحدة، ولكن فقط لعقله وليس لجسده، أي أنه يتذكر ما حدث ولكن لا يمكنه تغيير موقعه أو حالته الجسدية.
في أحد الأيام، دخل خالد إلى مكتبة مهجورة بحثًا عن كتاب غامض. وعند دخوله، سمع صوتًا غريبًا وأُغلق الباب خلفه. فجأة، وجد نفسه داخل غرفة مليئة بالمرايا، حيث يظهر انعكاسه بأوضاع مختلفة في كل مرآة، بعضها يبتسم، وبعضها يبدو خائفًا.
فجأة، يسمع صوتًا يقول: "لديك ثلاث فرص فقط للخروج قبل أن تصبح واحدًا من هذه الانعكاسات."
خالد قرر استخدام ساعته، وضغط على الزر، ليعود بساعة إلى الوراء. لكنه وجد أن الباب لا يزال مغلقًا، والصوت لا يزال موجودًا، والمرايا لا تزال تحيط به.
السؤال هو: كيف يمكن لخالد الخروج من الغرفة دون أن يصبح واحدًا من الانعكاسات؟"
تحليل وتقييم إجابات نماذج الذكاء الاصطناعي
1. إجابة DeepSeek
⏳ وقت التفكير: 379 ثانية
🔍 الفكرة الأساسية: استخدام الساعة ثلاث مرات متتالية للعودة إلى لحظة ما قبل دخول المكتبة، وتجنب الوقوع في الفخ من الأساس.
🔹 نقاط القوة:
✅ حل إبداعي يستخدم ميكانيكية الساعة بطريقة غير تقليدية.
✅ استغل الذاكرة المتراكمة من المحاولات الثلاث لتغيير القرار المستقبلي.
🔸 نقاط الضعف:
❌ يتعارض مع مفهوم الحتمية الزمنية؛ قد يكون خالد "مقدرًا" لدخول المكتبة مهما حصل، مما يجعل الحل غير مضمون.
⭐ التقييم النهائي: 8.5/10
2. إجابة Copilot
⏳ وقت التفكير: بضع ثوانٍ
🔍 الفكرة الأساسية: استخدام الملاحظة الدقيقة لتغيرات المرايا، واستغلال المحاولات الثلاث لجمع المعلومات حول الغرفة.
🔹 نقاط القوة:
✅ تحليل منطقي للقيود الزمنية.
✅ قدم اقتراحات مثل مراقبة الانعكاسات واختبار تفاعل الصوت.
🔸 نقاط الضعف:
❌ لم يقدم حلًا مباشرًا وواضحًا للخروج من الغرفة، بل بقي في إطار التحليل العام دون تنفيذ واضح.
⭐ التقييم النهائي: 7.25/10
3. إجابة Grok
⏳ وقت التفكير: 15 ثانية
🔍 الفكرة الأساسية: الانعكاسات تمثل حالات نفسية، والحل يكمن في اختيار الانعكاس الصحيح والتفاعل معه.
🔹 نقاط القوة:
✅ فكرة مبتكرة تعتمد على التحليل النفسي لخالد.
✅ لم يكسر قواعد القصة الزمنية.
🔸 نقاط الضعف:
❌ لم يتم توضيح كيف يؤدي "التفاعل مع الانعكاس الصحيح" إلى الخروج بشكل عملي.
⭐ التقييم النهائي: 8.4/10
4. إجابة Qwen 2.5 Max
⏳ وقت التفكير: 15 ثانية
🔍 الفكرة الأساسية: استخدام الساعة لاستكشاف المرايا، ثم التفاعل مع انعكاس يمثل "الواثق بنفسه" كمفتاح للخروج.
🔹 نقاط القوة:
✅ تحليل منطقي وعميق لآلية المرايا وعلاقتها بالحالة النفسية.
✅ حافظ على التناسق مع القصة.
🔸 نقاط الضعف:
❌ لم يتم توضيح كيف يؤدي اختيار الانعكاس الواثق إلى فتح الباب بشكل عملي.
⭐ التقييم النهائي: 9.1/10
5. إجابة Gemini Flash 2.0
⏳ وقت التفكير: 6 ثوانٍ
🔍 الفكرة الأساسية: مراقبة التغييرات في المرايا عبر المحاولات الثلاث، وجمع المعلومات لاكتشاف نمط معين للخروج.
🔹 نقاط القوة:
✅ تحليل منطقي ومبني على الملاحظة الدقيقة.
✅ لم يكسر قوانين القصة.
🔸 نقاط الضعف:
❌ لم يوضح كيفية استخدام المعلومات التي يجمعها خالد لحل اللغز بشكل حاسم.
⭐ التقييم النهائي: 7.75/10
النتائج النهائية والمقارنة بين النماذج
النموذج | وقت التفكير | الإبداع | الاتساق مع القصة | الوضوح والتنفيذ | التقييم النهائي |
---|---|---|---|---|---|
Qwen 2.5 Max | 15 ثانية | 9/10 | 9.5/10 | 8.5/10 | 9.1/10 |
DeepSeek | 379 ثانية | 10/10 | 8/10 | 7/10 | 8.5/10 |
Grok | 15 ثانية | 9/10 | 9/10 | 7.5/10 | 8.4/10 |
Gemini Flash 2.0 | 6 ثوانٍ | 7/10 | 9/10 | 7/10 | 7.75/10 |
Copilot | بضع ثوانٍ | 6/10 | 8/10 | 7/10 | 7.25/10 |
الخاتمة
هذا الاختبار أظهر كيف تختلف نماذج الذكاء الاصطناعي في التفكير، التحليل، والإبداع، حيث تفوق Qwen 2.5 Max بتحليل متوازن بين الفهم العميق والتنفيذ العملي للحل. 🚀