MLOps مقابل DevOps في إنتاج نماذج اللغة: أين يبدأ الاختلاف حقاً؟.
مدير يريد CI/CD كما اعتاد، فيكتشف أن نموذجاً جديداً خفّض سمّ الخطأ لكنه كسر دقة إجابة في قسم العقود [١]. DevOps يثبت أن الخدمة «تعمل»؛ MLOps يثبت أن السلوك ضمن حدود الجودة المتفق عليها [٢][٣].
اربطوا بـ بطاقة RAG الأسبوعية ومقاييس RAG ومجلة نقطة.
التعريف: ماذا فوق النشر؟.
سجلّ نماذج، نسب بيانات، مقاييس جودة قبل وبعد، وسياسة تراجع — DevOps وحده لا يولّدها [٢].
دليل تشغيلي.
Canary على نموذج لغوي يعني مقارنة توزيعات جودة لا معدل 500 وحده [٣].
«إعادة نشر بلا أخطاء ليست إطلاقاً أخلاقياً إن تراجع النموذج على شريحة مستخدمين.»
أرقام من أرض الميدان.
في نقطة، زمن التراجع عند انجراف الجودة غالباً أهم من زمن البناء الأول — لأن الإيقاف يكلف ثقة المستخدم [٤].
مسار عملي: SLO سلوكي.
- زمن استجابة p95.
- معدّل إجابة بدعم مرجعي.
- حدّ لسمّ الخطأ — مع لوحة أسبوعية [٥].
ملاحظات صريحة.
أتمتة بلا بيانات تقييم تُسرع الفوضى [٢].
الدعوة.
اجتماع ساعة: «ما SLO السلوك لمنتجنا؟» بلا جواب أنتم تديرون خادماً لا منتجاً — راجعوا البطاقة الأسبوعية.
أسئلة شائعة.
المصادر.
[١] Sato et al. — Continuous Delivery for Machine Learning (Thoughtworks).
[٢] Google — MLOps documentation.
[٣] Breck et al. — The ML Test Score (Google).
[٤] نقطة — ملاحظات ما بعد إطلاق، مايو ٢٠٢٦ (Nuqta internal launch notes, May 2026).
[٥] نقطة — [بطاقة RAG](/journal/rag-ops-weekly-scorecard-2026) — مايو ٢٠٢٦.
مقالات ذات صلة
- ورقة نقاط أسبوعية لتشغيل RAG قبل لوم النموذج الكبير.
أربعة أعداد فقط كل اثنين: استدعاء، دقة اقتباس، زمن، هروب — لتفصل بين فشل الاسترجاع وفشل الضبط
- خمس مقاييس لتقييم RAG قبل لوم النموذج اللغوي.
قبل أن ترفع ميزانية النموذج أو تغيّر المزود، قِس الاسترجاع والقطع والتصعيد. أغلب «الهلوسة» في الإنتاج تبدأ من المستندات والفهرس — لا من حجم الباراميترات.
- ما هو RAG — ولماذا بوت شركتك لا يفهم سياق عملك.
دليل عملي لـ Retrieval-Augmented Generation: كيف يقرأ البوت مستنداتك قبل أن يجيب، ولماذا هو أرخص من Fine-tuning بعشر مرات.
- الفرق بين Inference والـ Training — من يدفع ماذا.
تدريبٌ مرةٍ — أو آلاف الساعات — يُنقَل ثقلُه مرة. استدلالٌ بلا توقف يُحوِّل تكلفة المشروع إلى سعرٍ لكلّ رمز. هذا المقال يفصل محورَ النقدين، ويمنع اختلاط «ميزانية التجربة» ب«فاتورة المنتج» [١].
- Grafana لمكدس نماذج اللّغة: ما ترسم قبل اتهام الـGPU.
معدّل خطأ وحده لا يفيد؛ تحتاج فصل زمن الواجهة عن صف انتظار الاستدلال عن كثافة الـ KV وعن تكلفة الرمز كلها على لوحة واحدة قبل أن ترفع الموازنة.