عربيّة تحتاج سياقاً، لا ترجمة
عن اللهجة، القياس، وتجربة المستخدم في أتمتة المحادثات.
العربيّة «الإنتاجيّة» نادراً ما تكون فصحى بحتة. عميل الخليج يكتب كما يتكلّم؛ بوتٌ مدرّب على أخبار رسميّة قد يبدو سليماً نحويّاً ويخسر المحادثة.
نربط بين فهم اللهجة وبين التقييم: إجابات مؤسسيّة مصحوبة بمصدر، وتحويل واضح لموظّف بشري عند الحاجة، واختيار نماذج يصبر على التكلفة والامتثال — المقالات التالية تمشي في هذا المسار.
- الفرق بين GPT-4 وClaude وGemini — مقارنة موضوعية.
هذا ليس تصويتاً جماهيرياً. هذا إطار قرار: ما الذي يميّز كل عائلة، أين تتقدّم، وأين تضعف، وكيف تختار دون أن يبيعك أحد وهم «الأفضل».
- كيف يعمل الـ Transformer — شرح بدون معادلات.
ورقة «Attention Is All You Need» غيّرت الصناعة، لكنّها لا تُقرأ في اجتماع المنتج. هذا الشرح لمن يريد أن يفهم المحرّك دون أن يمسّ مطّاطاً: مفتاح واحد اسمه «انتباه»، يعيد ترتيب الأهمية بين الكلمات بناءً على السياق.
- لماذا يفشل معظم بوتات الذكاء الاصطناعي العربية.
ليست المشكلة في النموذج. المشكلة أنّنا نُدرِّبه على عربيّة لا أحد يتكلّمها، ثمّ نندهش حين لا يفهمنا أحد.
- الفرق بين Inference والـ Training — من يدفع ماذا.
تدريبٌ مرةٍ — أو آلاف الساعات — يُنقَل ثقلُه مرة. استدلالٌ بلا توقف يُحوِّل تكلفة المشروع إلى سعرٍ لكلّ رمز. هذا المقال يفصل محورَ النقدين، ويمنع اختلاط «ميزانية التجربة» ب«فاتورة المنتج» [١].
- ما هو الـ vLLM ولماذا يُستخدم في الإنتاج.
vLLM محركٌ مفتوح المصدر لخدمة نماذج اللغة: جدولة، دفعات مستمرة، وذاكرة KV مُنظّمة بـ[PagedAttention](/journal/what-is-pagedattention-llm-serving-2026). الفكرة ليست «تغليف API» فقط — بل رفع كثافة العتاد تحت حملٍ حقيقي [١].
- ما هو الـ LoRA وكيف يُقلّل تكلفة ضبط النماذج.
عندما يقال «ضبط دقيق» قد تتصوّر تحديث مليارات الأوزان في دورة مكلفة. LoRA طريقة تضيف طبقات بِرَنْك منخفض وتُحدِّث حصّة صغيرة جداً من المعاملات — قد تكفي لتحويل سلوك النموذج في مهام ضيّقة دون إعادة نسخ كلّ الأوزان. هذا المقال يشرح المبدأ بلا مبالغة، ومتى ينتقل الوفير من الورقة إلى الاستثمار [١].
- خمس مقاييس لتقييم RAG قبل لوم النموذج اللغوي.
قبل أن ترفع ميزانية النموذج أو تغيّر المزود، قِس الاسترجاع والقطع والتصعيد. أغلب «الهلوسة» في الإنتاج تبدأ من المستندات والفهرس — لا من حجم الباراميترات.
- ما هو RAG — ولماذا بوت شركتك لا يفهم سياق عملك.
دليل عملي لـ Retrieval-Augmented Generation: كيف يقرأ البوت مستنداتك قبل أن يجيب، ولماذا هو أرخص من Fine-tuning بعشر مرات.
- ما هو الـ Fine-tuning ولماذا يختلف عن الـ Prompting.
في نصف الاجتماعات يُقال «سنُحسّن النموذج» بينما المقصود «سنعيد صياغة الجملة». الطرفان مكملان، لكنّ أحدهما يغيّر النص الذي يدخل، والآخر قد يغيّر أوزان النموذج نفسه. هذا الفصل يوضّح القرار ويحميك من دفع تكلفة التدريب دون حاجة.
- ما هو PagedAttention وما الذي غيّره في عالم الـ LLM Serving.
المشكلة في Serving لم تكن دائماً سرعة المعالج، بل هدر الذاكرة في KV Cache. PagedAttention غيّر اللعبة لأنه عامل الذاكرة كصفحات قابلة للتخصيص بدل مساحات متجاورة ضخمة، فقلّ الهدر وارتفعت الإنتاجية على نفس العتاد.
- ما هو نموذج اللغة الكبير — دليل كامل لعام ٢٠٢٦.
هذا ليس مقال تعريفات. هذا حساب قرار. إذا أردت استخدام نموذج لغة كبير في ٢٠٢٦، فهذه هي الصورة كاملة: كيف يعمل، أين يربح، أين يخذلك، وكيف تختار دون ضجيج.