Grafana لمكدس نماذج اللّغة: ما ترسم قبل اتهام الـGPU.
مهندس SRE طبع لوحة Grafana من قالب شبيه بـKubernetes ورفع تقريراً: الخدمة «خضراء». في نفس اليوم كان فريق المحتوى العربيّ يلاحظ تأخيراً بثوانٍ لأن KV cache امتلأ جزئياً وفُسّخت الدُفعات. اللون الأخضر كان يقيّد صحّة حاويات لا سلوك نموذج [١][٢].
التشغيل يختلف؛ أضف Prometheus كمصدر زمن حقيقي وربط مهام الاستعلام بتسميات تنزيل، ثم تأكّد أن vLLM ومحركات شبيهة تنشر عدادات وقت خدمة [٣][٤]. هذا المقال قائمة نقاط نقطة للبطاقات نعرضها في بطاقة RAG الأسبوعية ومجلّة نقطة.
طبقات خمس قبل مناقشة مزود الواجهات.
بوابة الـHTTP ووقت الطلب ومعدّلات الأخطاء ٤٠٨/٩ من Tier حافة الشبكة. صف انتظار الاستدلال وطاقة وحدة المعالجة وملء الدُفعات من Tier خدمة النموذج. طول سياق وذاكرة KV من Tier توليد. جودة الاسترجاع من Tier RAG. تكامل التكلفة للرمز وللسياق مع جدولة المالية Tier خامس [٢][٥].
إن ظهر الانحراف في Tier خامس أولاً قبل الثالث غالباً ستحمّل النموذج ما لا جرم له؛ راجع خمس مقاييس RAG.
أمثلة وحدات عدّ يمكنكم نسخ فكرتها هذا الأسبوع.
rate للطلبات، histogram لوقت الطلب الطرفي الطرفي مقابل وقت خدمة الحاوية، gauge لمتوسط الطول الموكّلي المُخزَّن في واجهة المزود؛ أضيفوا عداد استدعاءات أداة MCP إن كان المسار وكالياً لتفادي إخفاء التكلفة [٦].
صفّوا التنبيهات بحيث تنبه طبقة RAG قبل أن «تصفّروا» الموازنة على طبقة النموذج؛ رابط الممارسة موجود في دليل Grafana والمصادر أدناه [١][٢].
لوحة واحدة تجمع زمن وبشراً ومستنداً وتكلفة — هي التي تنهي نقاشاً يستمر أسابيع حول بطاقات أقوى قبل معرفة أي طبقة مُخنوقة.
مخطط طبقي بسيط لسلّم Grafana.
اختصارات عمانية وخليجية.
حين تنشرون في سلطنة وتريدون إثبات الامتثال لـ PDPL، سجّلوا من يصل إلى السجلات كما تسجّلون من يصل إلى البيانات؛ مراقبة AI ليست عذراً لترك لوجات مفتوحة لموظفين بلا حاجة [٧].
أسئلة شائعة.
- هل يكفي داشبورد واجهة المزود؟ قد يكفي للسعة التجارية، لكنه يخفي صف الانتظار الداخلي وخسارة الـKV [٣].
- ما أول مؤشر؟ p95 زمن استجابة مع سياق ثابت للاختبار [١].
- أين RAG؟ زمن الاسترجاع وفرق التغطية — راجع المقاييس الخمس قبل لوم اللغوي مقاييس RAG.
- كم يتوازى مع Prometheus؟ Grafana عرض؛ Prometheus جمع الزمن حقيقياً وفق Grafana Labs [٢].
- خطواتنا الأسبوعية؟ اربط بطاقاتنا أعلاه واحفظوا لقطات أسبوعية في البطاقة الأسبوعية [٨].
المصادر.
[١] Grafana Labs — Dashboard best practices overview.
[٢] Prometheus — Metric types and exposition formats.
[٣] vLLM documentation — Observability hooks and metrics endpoints.
[٤] NVIDIA — H100 datasheet (operational envelopes for KPI baselines).
[٥] Google — Site Reliability Engineering (SLI/SLO chapter).
[٦] Anthropic — Model Context Protocol docs (surface area for tooling).
[٧] سلطنة عُمان — دليل المعالجة المسجلّ وفق مرسوم حماية البيانات؛ يُراجع ضمن جهاتكم القانونية.
[٨] نقطة — قوالب Grafana داخلية مرتبطة ببطاقة RAG، مايو ٢٠٢٦.
مقالات ذات صلة
- ما هو الـ vLLM ولماذا يُستخدم في الإنتاج.
vLLM محركٌ مفتوح المصدر لخدمة نماذج اللغة: جدولة، دفعات مستمرة، وذاكرة KV مُنظّمة بـ[PagedAttention](/journal/what-is-pagedattention-llm-serving-2026). الفكرة ليست «تغليف API» فقط — بل رفع كثافة العتاد تحت حملٍ حقيقي [١].
- خمس مقاييس لتقييم RAG قبل لوم النموذج اللغوي.
قبل أن ترفع ميزانية النموذج أو تغيّر المزود، قِس الاسترجاع والقطع والتصعيد. أغلب «الهلوسة» في الإنتاج تبدأ من المستندات والفهرس — لا من حجم الباراميترات.
- ورقة نقاط أسبوعية لتشغيل RAG قبل لوم النموذج الكبير.
أربعة أعداد فقط كل اثنين: استدعاء، دقة اقتباس، زمن، هروب — لتفصل بين فشل الاسترجاع وفشل الضبط
- ما هو KV Cache في استدلال نماذج اللغة وكيف يقرأ ميزانية الذاكرة؟.
البطاقة ليست كل الحقيقة — جزء من سرعة الاستدلال يأتي من إعادة استخدام مفاتيح وقيم التوليد بدلاً من إعادة حساب الطبقات على كل رمز.
- الفرق بين Inference والـ Training — من يدفع ماذا.
تدريبٌ مرةٍ — أو آلاف الساعات — يُنقَل ثقلُه مرة. استدلالٌ بلا توقف يُحوِّل تكلفة المشروع إلى سعرٍ لكلّ رمز. هذا المقال يفصل محورَ النقدين، ويمنع اختلاط «ميزانية التجربة» ب«فاتورة المنتج» [١].