ذكاء خاص، بنية محليّة
مقالات مختارة عن تشغيل النماذج في السلطنة، جدوى التكلفة، وسيادة البيانات.
الذكاء «الخاص» عندنا يعني: نموذجاً تتحكّم به مؤسستك قانونياً وتقنياً — لا اشتراكاً سحابيّاً يُخرج بياناتك من دائرة الامتثال التي اخترتها.
ثلاثة محاور تتكرّر في مشاريعنا: أين تُخزَّن البيانات، كيف يُخدم النموذج دون هدر في الذاكرة والتكلفة، وما العتاد المرجعي عند حساب الجدوى (من الأدبيات التقنية إلى مراكز البيانات المحليّة).
المقالات أدناه تربط السيادة الرقميّة بهندسة التشغيل والعتاد؛ اقرأها كسلسلة واحدة ثم ارجع لصفحة التقدير أو إلى البريد إذا أردتم تطبيقاً على بيئتكم.
- ما هو الـ vLLM ولماذا يُستخدم في الإنتاج.
vLLM محركٌ مفتوح المصدر لخدمة نماذج اللغة: جدولة، دفعات مستمرة، وذاكرة KV مُنظّمة بـ[PagedAttention](/journal/what-is-pagedattention-llm-serving-2026). الفكرة ليست «تغليف API» فقط — بل رفع كثافة العتاد تحت حملٍ حقيقي [١].
- متى يغلب النموذج الصغير محلياً اشتراك واجهة السحابة.
هذا المقال ليس ضدّ السحابة. نحن نضع جدولاً: متى يكون تشغيل نموذج مفتوح صغير أو متوسط على GPU داخل حدودك أوفر من سطر API شهري — وسنة واحدة لا تكفي لحساب الحقيقة.
- الفرق بين L40S وA100 وH100 — أي بطاقة لأي مهمة.
ليست المسألة «أقوى شريحة». المسألة مطابقة الـworkload: تدريبٌ ثقيلٌ أم استدلالٌ عالٍ أم تسريعٌ بصريٌ؟ جدولٌ واحدٌ يختصر أين تضع L40S وأين A100 وأين [H100](/journal/nvidia-h100-gpu-ai-standard-2026) — بلا تخمينٍ في العقد [١].
- بروتوكول MCP في المؤسسة: الجسر ليس حدود البيانات.
Model Context Protocol يفسّر كيف تربط أدواتك بنموذج لغوي — لكنه لا يستبدل قرار أين تُعالَج البيانات، ومن يملك السجل، وما إذا كان الاستدلال يغادر شبكتك.
- ما هو GPU H100 ولماذا أصبح معيار الذكاء الاصطناعي.
ليست بطاقة ألعاب في حاسوب مكتب. هي وحدة حوسبة تُقاس بها «ساعة التدريب» و«تكلفة الرمز» في مراكز البيانات. H100 ليس سحراً؛ هو نقطة مرجعية اتفق السوق والأوراق البحثية على نقلها، لأنّ البنية والبرمجيات والسحابة التقطتها معاً.
- ما هو PagedAttention وما الذي غيّره في عالم الـ LLM Serving.
المشكلة في Serving لم تكن دائماً سرعة المعالج، بل هدر الذاكرة في KV Cache. PagedAttention غيّر اللعبة لأنه عامل الذاكرة كصفحات قابلة للتخصيص بدل مساحات متجاورة ضخمة، فقلّ الهدر وارتفعت الإنتاجية على نفس العتاد.
- السيادة الرقمية: لماذا يجب أن تبقى بياناتك في عُمان.
حين تُرسِل بيانات عملائك إلى سيرفر في فرانكفورت أو فرجينيا، أنت لا تستضيفها. أنت تُسلِّمها. الفرق ليس تقنيّاً.
- وكلاء المؤسسة مقابل خط أنابيب RAG — متى يكون التنسيق مسرحاً.
معظم ما يُباع كـ«وكيل» في الإنتاج هو استرجاع جيد + أدوات محدودة + سياسات — لا أوركسترا ذاتية القيادات تتخذ قرارات بلا إشراف. هذا المقال يضع قراراً منتجياً صريحاً قبل أن تضاعف التعقيد.
- ما هو RAG — ولماذا بوت شركتك لا يفهم سياق عملك.
دليل عملي لـ Retrieval-Augmented Generation: كيف يقرأ البوت مستنداتك قبل أن يجيب، ولماذا هو أرخص من Fine-tuning بعشر مرات.