تقييم نماذج اللغة للعربية قبل توقيع عقد تنفيذ.
في بداية ٢٠٢٦ مدير قطاع تنظيمي فتح قائمة مهام فارغة ونافذة «مقارنة نماذج» عامة؛ الأسبوع التالي ظهر تقريران متناقضان لأنهما قيسا مهام مختلفة دون أن يعلق أحد ذلك في محضر اجتماع.
هذا النص لا يصف تعريف «تقييم». يصف قرار الشراء قبل التوقيع؛ حين تقول تقييم نماذج اللغة للعربية فإنكم تربطون الأداء بحصة من أرشيفكم لا من جداول الانترنت المفتوح [١]. نحن في نقطة نضع ذلك على الطاولة مع العملاء قبل أي عقد GPUs أو اشتراك API موسّع.
لماذا الشراء العربي مختلف عن عرض المتصفح العام.
القياس الذي يحمي وزارة المالية والامتثال هو عينة من صياغاتكم، أرقامكم، وحروفكم، وسياسة الاحتفاظ؛ لا مجموعة نقية من المدوّنة العامّة حيث يغيب التشكيك في الحقوق [٢].
ثلاث مهام ومائتا سطر قبل الإنتاج.
اختاروا ثلاث مهام وليس ثلاثين: ملخّص فصيح لصفحة واحدة؛ استخراج حقل عددي؛ رد مستخدم عميل وفق دليل أسئلة وأجوبة بدون حقول شخصية خام. لكل مهمة مائتا مثيل بإجابة ذهبية واحدة ومُقيِّم بشري موثوق — لا تقرّروا الاسم قبل تجميع المائتين [٦].
المقياس الذي يحمي المجلّس ليس الاسم؛ هو مائتا حالة حقيقية وعتبة واحدة قبل التوقيع ومن توقّف زر الإنتاج عند الانزلاق تحت العتبة.
كيف لا تخلط العربية بعضها.
افصلوا فصاحة المراسلات الرسمية عن حديث العميل وبين الجداول المختلطة لغاً؛ المتوسّط التجميعي يبيّض فشلاً واحداً بشكل مهذّر لا يحميكم في قاعة المراجعة الداخلية [٣].
أرقام على الطاولة.
فعّلوا اتفاقية قبول عددية واحدة على الأقل قبل التوقيع — مثل نسبة تطابق حقل أو حد خطأ تقبله الإدارة المالية؛ بلا ذلك يصبح اسم النموذج كاسم برنامج تلفزيوني لا عقد تنفيذ [٤].
الدعوة.
اربطوا القراءة بمساركم السيادي في مجلة نقطة وبمقارنة مرشّحة في مقارنة عملية بين النماذج؛ ثم أكملوا ورقة مهمة واحدة هذا الأسبوع. إن لم تكتمل في ساعة، فأنتم تعرفون من أين يبدأ العمل.
أسئلة شائعة.
- ما الذي يختلف بين تقييم نمذج العربية وبين العرض؟ العرض يختار الأمثلة؛ التقييم يربط بأرشيفكم وعتبة قبول قبل التوقيع [١][٦].
- كم مثيلاً؟ حوالى مئتَي حالة لكل مهمة حاسمة قبل تشغيل إنتاجي كامل؛ أقل تراهنون على الحظ [٦].
- هل شراء خارجي مخالف لمبدأ الوطنية؟ التوريد خارجي لا يخلّي مسؤولية العيّنة والقياس؛ راجعوا لماذا تفشل مشاريع الذكاء في الشرق الأوسط.
- متى تجتمع المنظومة العربية القانونية؟ قبل أول تنبيه يحوي بيانات تعريف — راجعوا أثر PDPL على مسارات الذكاء.
- لماذا لا نكتفي بلوحة المتصفح؟ لوحات الجمهور لا تعرف صلاحية بياناتكم ولا تذكركم بمسارات المحو [٢].
المصادر.
[١] NIST — AI Risk Management Framework (AI RMF 1.0).
[٢] OECD — OECD AI Principles.
[٣] Manning، Raghavan، Schütze — Introduction to Information Retrieval — مقاييس التقييم.
[٤] McKinsey — The State of AI (سياق الشراء المعتمد على البيانات).
[٥] OpenAI — GPT-4 Technical Report (حدود القدرات العامّة للنشر).
[٦] نقطة — إطار عيّنة شراء لتقييم قبل التوقيع (شرق أوسط)، يونيو ٢٠٢٦ (Nuqta procurement eval brief, June 2026).
مقالات ذات صلة
- التقييم الهجومي للعربية قبل الإنتاج — بطاقات حمراء لا استطلاع رضا.
استطلاع الرضا بعد الإطلاق يكشف الانزعاج متأخراً. التقييم الهجومي يفرض أسئلة مقصودة، وبياناتكم أنتم، وسجلّ قبول رقمي قبل أن يوقّع الامتثال على مسار يمسّ المواطن أو العقد.
- مناقصات الذكاء الاصطناعي الحكومية في الخليج: كيف تكتب شروطاً مرجعية لا تُنتج مسرح تجارب.
المجلّد التقني السميك لا يمنع فشل السنة الأولى؛ الذي يمنعه هو شروط مرجعية تقيس البيانات والامتثال والقبول قبل فتح المظاريف. هذا المقال يضع بوابة TOR يمكن لجنة فنية الدفاع عنها أمام المورد والمراجع الخارجي على السواء.
- Qwen2.5-72B مقابل GPT-4o — أيّهما أفضل للعربية.
بنشمارك داخلي على مستندات عربية متنوعة المهام: أين يقدّم GPT-4o فصاحة وتعامل أرقام، وأين يعطي نموذج مفتوح الوزن أفضلية سيادة وتكلفة عند حجم عالٍ
- بنود عقد ذكاء اصطناعي لا تُترك فراغاً في عُمان.
قائمة مشتريات بدون بنود بيانات ومسؤولية هو شراء وعد. هذا الإطار يربط العقد بقانون حماية البيانات العُماني — دون أن يغني عن مراجعة قانونية.
- سلسلة توريد نموذج الذكاء — من أين جاء الوزن ومن يوقع عند الثغرة.
النموذج ليس ملفاً مجرداً؛ هو منتج يمرّ بمرايا، وبناء، وتوقيع رقمي، وتحديثات أمنية. هذا المقال يضع قائمة تحقق تشغيلية لفرق الأمن والامتثال في الخليج قبل أن يُمنح المسار الإنتاجي اسم «معتمد».