حوكمة · الشراء الحكومي·يونيو ٢٠٢٦·١١ دقيقة قراءة

تقييم نماذج اللغة للعربية قبل توقيع عقد تنفيذ‏.

في بداية ٢٠٢٦ مدير قطاع تنظيمي فتح قائمة مهام فارغة ونافذة «مقارنة نماذج» عامة؛ الأسبوع التالي ظهر تقريران متناقضان لأنهما قيسا مهام مختلفة دون أن يعلق أحد ذلك في محضر اجتماع.

هذا النص لا يصف تعريف «تقييم». يصف قرار الشراء قبل التوقيع؛ حين تقول تقييم نماذج اللغة للعربية فإنكم تربطون الأداء بحصة من أرشيفكم لا من جداول الانترنت المفتوح [١]. نحن في نقطة نضع ذلك على الطاولة مع العملاء قبل أي عقد GPUs أو اشتراك API موسّع.

لماذا الشراء العربي مختلف عن عرض المتصفح العام‏.

القياس الذي يحمي وزارة المالية والامتثال هو عينة من صياغاتكم، أرقامكم، وحروفكم، وسياسة الاحتفاظ؛ لا مجموعة نقية من المدوّنة العامّة حيث يغيب التشكيك في الحقوق [٢].

ثلاث مهام ومائتا سطر قبل الإنتاج‏.

اختاروا ثلاث مهام وليس ثلاثين: ملخّص فصيح لصفحة واحدة؛ استخراج حقل عددي؛ رد مستخدم عميل وفق دليل أسئلة وأجوبة بدون حقول شخصية خام. لكل مهمة مائتا مثيل بإجابة ذهبية واحدة ومُقيِّم بشري موثوق — لا تقرّروا الاسم قبل تجميع المائتين [٦].

المقياس الذي يحمي المجلّس ليس الاسم؛ هو مائتا حالة حقيقية وعتبة واحدة قبل التوقيع ومن توقّف زر الإنتاج عند الانزلاق تحت العتبة.

FIG. 1 — ARABIC LLM PROCUREMENT EVAL (3 TASK × 200 ROW → HOLD)

كيف لا تخلط العربية بعضها‏.

افصلوا فصاحة المراسلات الرسمية عن حديث العميل وبين الجداول المختلطة لغاً؛ المتوسّط التجميعي يبيّض فشلاً واحداً بشكل مهذّر لا يحميكم في قاعة المراجعة الداخلية [٣].

أرقام على الطاولة‏.

فعّلوا اتفاقية قبول عددية واحدة على الأقل قبل التوقيع — مثل نسبة تطابق حقل أو حد خطأ تقبله الإدارة المالية؛ بلا ذلك يصبح اسم النموذج كاسم برنامج تلفزيوني لا عقد تنفيذ [٤].

الدعوة‏.

اربطوا القراءة بمساركم السيادي في مجلة نقطة وبمقارنة مرشّحة في مقارنة عملية بين النماذج؛ ثم أكملوا ورقة مهمة واحدة هذا الأسبوع. إن لم تكتمل في ساعة، فأنتم تعرفون من أين يبدأ العمل.

أسئلة شائعة‏.

ما الذي يختلف بين تقييم نمذج العربية وبين العرض؟ العرض يختار الأمثلة؛ التقييم يربط بأرشيفكم وعتبة قبول قبل التوقيع [١][٦].
كم مثيلاً؟ حوالى مئتَي حالة لكل مهمة حاسمة قبل تشغيل إنتاجي كامل؛ أقل تراهنون على الحظ [٦].
هل شراء خارجي مخالف لمبدأ الوطنية؟ التوريد خارجي لا يخلّي مسؤولية العيّنة والقياس؛ راجعوا لماذا تفشل مشاريع الذكاء في الشرق الأوسط.
متى تجتمع المنظومة العربية القانونية؟ قبل أول تنبيه يحوي بيانات تعريف — راجعوا أثر PDPL على مسارات الذكاء.
لماذا لا نكتفي بلوحة المتصفح؟ لوحات الجمهور لا تعرف صلاحية بياناتكم ولا تذكركم بمسارات المحو [٢].

المصادر‏.

[١] NIST — AI Risk Management Framework (AI RMF 1.0).

[٢] OECD — OECD AI Principles.

[٣] Manning، Raghavan، Schütze — Introduction to Information Retrieval — مقاييس التقييم.

[٤] McKinsey — The State of AI (سياق الشراء المعتمد على البيانات).

[٥] OpenAI — GPT-4 Technical Report (حدود القدرات العامّة للنشر).

[٦] نقطة — إطار عيّنة شراء لتقييم قبل التوقيع (شرق أوسط)، يونيو ٢٠٢٦ (Nuqta procurement eval brief, June 2026).