ورقة نقاط أسبوعية لتشغيل RAG قبل لوم النموذج الكبير.
فريق منتج ظنّ أن «GPT ضعيف» حتى اكتشف أن نصف الأسئلة لا تجلب الفقرة الصحيحة من الأصل؛ الاسترجاع كان يخطئ قبل أن يخطئ مخيلة النموذج.
هذا المقال لا يكرّر دليلًا طويلاً؛ يكمِّل المقاييس الخمس قبل لوم اللغوي بورقة واحدة كل أسبوع لمدير المنصّة — نقاط أسبوعية لتشغيل RAG [٦].
التعريف العملي لورقة النقاط.
جدول عمود واحد لكل مهمة إنتاج، أربعة أعمدة: استدقاق@k؛ نسبة اقتباسات صحيحة إلى إجمالي المرشِّح؛ زمن المتوسِّط حتى أوّل مسودة؛ ونسبة «هروب» حين تجيب خارج المستمسكات — رقم صغير واحد أمامكم يمنع المجادلة السياسية [١][٤]. للبنية المرجعة راجعوا بحثكم الهجين وأساس المعرفة في دليل RAG.
قواعد لا تتجاوزونها.
- خمسون استعلامًا ثابتة من الألم الحقيقي للمستخدم؛ يُحمَلون شهرًا كاملًا قبل تبديل وزن المتجه فقط لتغطية السيء [٦].
- قياس يوم واحد قبل الإصدار ويوم واحد بعده للمقارنة على نفس المجموعة [٦].
- تثبيت تضمينات المستمسك والمتسائل في وقت القياس — لا خلط مخالف قبل الحكم على الأرقام [٤].
أربعة أرقام تكفي إن وفرتم عينات ثابتة؛ عشرون رقمًا عشوائيًا تهدرون الاجتماع.
التحفّظ.
النتائج المتغيرة من جيل رمز مختلف للموردين مختلفين؛ قيّسوا على إصدار مثبّت وإلا سترون أرقامًا كاذبة تتحرّك لمزاج السحابة [٦].
الدعوة.
الاثنين القادم: بعث قائمة واحدة من خمسين سؤالاً إلى قناة داخلية وملء الأربعة حقول قبل الغداء. إن تأخّر ذلك أسبوعًا، تعرفوا أين الخلل في العمل وليس الخلل في العربية لوحدها.
أسئلة شائعة.
- هل أستبدل هذا المقال الأصل؟ لا؛ يكمّله ويصرِّفه لتعرِف كل أسبوع أين الانزلاق [٥].
- كم من الوقت؟ نصف يوم مهندسی أول أسبوع ثم دوران ربع ساعات أسبوعيًا بعدها [٦].
- ماذا عن العربية؟ قسّوا على جملكم الخاص لا على جداول الانترنت [٤][٦].
- زمن الانحراف إلى أين يذهب؟ أحيانًا استرجاع، أحيانًا تضمينات، وأحيانًا قياس مزدوح — هذه الأرقام تفرِّق لتوفير الأسابيع الغاضبة [٢].
- كم أشخاصًا يلزم؟ مهند منتج وممثل تشغيل ونسخ مسؤولة معرفية.
المصادر.
[١] Lewis et al. — Dense Passage Retrieval للسياق الاسترجاعي.
[٢] NIST — AI RMF لمخاطر الحوكمة.
[٣] Pinecone/Lucene family docs — بحث مخلوط ومقاييسه في السحاب.
[٤] نقطة — بروتوكول قصير، أبريل ٢٠٢٦ لتثبيت تضمينات بعينة عربية مختلطة.
[٥] نقطة — شرح لجدول نقاط عميل قطاع تنظيم يونيو ٢٠٢٦ يضبط أعداد الأسبوع [٦].
[٦] نقطة — حزمة سجلات نقاط تشغيل RAG الداخلية، يونيو ٢٠٢٦ (Nuqta RAG ops scorecards, June 2026).
مقالات ذات صلة
- خمس مقاييس لتقييم RAG قبل لوم النموذج اللغوي.
قبل أن ترفع ميزانية النموذج أو تغيّر المزود، قِس الاسترجاع والقطع والتصعيد. أغلب «الهلوسة» في الإنتاج تبدأ من المستندات والفهرس — لا من حجم الباراميترات.
- ما هو RAG — ولماذا بوت شركتك لا يفهم سياق عملك.
دليل عملي لـ Retrieval-Augmented Generation: كيف يقرأ البوت مستنداتك قبل أن يجيب، ولماذا هو أرخص من Fine-tuning بعشر مرات.
- البحث الهجين — الجمع بين البحث النصي والمتجهي.
هذا ليس اسم منتج على بطاقة. هذا قرار بنية: متى يحميك التطابق على الكلمات، ومتى يحميك التشابه في فضاء المتجهات، وكيف تدمجهما دون أن تضاعف التكلفة بلا مقياس.
- الاقتباس الوهمي — كيف تتدقيق ربط RAG بالمصادر قبل الثقة بالواجهة.
الواجهة تعرض «مرجعاً» والفقرة غير موجودة، أو المقطع مبتور، أو الصفحة خاطئة. هذا المقال يضع مسار تدقيق عمليّ قبل أن تُطلق المساعد للموظفين أو للعملاء.
- وكلاء المؤسسة مقابل خط أنابيب RAG — متى يكون التنسيق مسرحاً.
معظم ما يُباع كـ«وكيل» في الإنتاج هو استرجاع جيد + أدوات محدودة + سياسات — لا أوركسترا ذاتية القيادات تتخذ قرارات بلا إشراف. هذا المقال يضع قراراً منتجياً صريحاً قبل أن تضاعف التعقيد.