Welcome to Machinfy Academy

blog image

البيانات هي بداية أي مشروع في مجال الذكاء الاصطناعي، من خلالها بنقدر نفهم أسواق العمل المختلفة و المشكلات اللي بتواجه أي شركة،
و بالتالي بنقدر نبني عليها نماذج تعلم آلي (Machine Learning) تتوقع الأسعار المستقبلية و وجود الأمراض من عدمها و تعمل تصنيفات و كمان تساعد في الرؤية الحاسوبية.

لذلك جودة البيانات اللي هيتبني عليها مشروعك مهمة جداً لأنها ممكن تتسبب في ضعف المشروع ككل و تحيز نموذج الذكاء الاصطناعي و كمان أخطاء تصنيفية كبيرة؛
 و بالتالي كل ما كانت جودة البيانات عالية كل ما زادت فرص المشروع في النجاح و التطور.

في المقالة دي هنسلط الضوء على كل اللي محتاج تعرفة عن ال Datasets المختلفة و ازاي تقدر تختار بيانات مناسبة لمشروع الذكاء الاصطناعي الخاص بك.

أولاً: ايه هي أنواع ال Datasets  المستخدمة في ال Machine Learning ؟
البيانات المستخدمة في تدريب التعلم الآلي بتكون في مثابة أمثلة تتعلم منها خوارزمية التعلم الآلي
 على ازاي تبني توقعات و قرارات و بتدخل في مرحلة ال training  و ال testing  و مرحلة قياس مدى  دقة النموذج.
 البيانات دي في أغلب الوقت بتكون Labeled  أو annotated بمعني أنها مصنفة

أهم أنواع بيانات ال Machine Learning  هي كل من:

 

      • بيانات نصية – Text Data

      • بيانات رقمية – Numeric Data

      • صور – Image Data

      • صوت – Audio Data

      • فيديو – Video Data

      •  

    ثانياً: ازاي بيتم تقسيم البيانات في عملية التعلم الآلي Machine learning؟

     

    •  

      • مجموعة البيانات بتتقسم ل ٣ أجزاء كما يلي:

      • قسم بيانات للتدريب – Training Dataset :

      • القسم دا بيعتبر أهم قسم و بيتكون من حوالى ٦٠٪؜ من البيانات كلها و هو القسم اللى بيتم تدريب النموذج عليه للتعلم.

      • قسم بيانات التحقق من الصحة – Validation Dataset:

      • القسم دا بيكون حوالى ٢٠٪؜ من البيانات و بيستخدم لتقييم النموذج بعد تدريبة ، رؤية مناطق القصور فيه عشان يتم تحسينها.

      • قسم بيانات للاختبار – Test Dataset:

      • القسم دا بيشكل ال ٢٠٪؜ الباقية من البيانات و بتكون مجموعة بيانات مشفهاش النموذج قبل كدا عشان نكتشف مدي تعلم النموذج من القسمين السابقين.

    • ثالثاً: ايه هي البيانات المناسبة لمشروعك؟

       

      • تحديد البيانات المناسبة بيبدأ من المشكلة اللي بيحاول يحلها مشروعك او البيزنس بتاعك
         لأن وظائف التعلم الآلي Machine learning مختلفة زي كل من:

      • التصنيف – Classification:

      • مهمة خوارزميات التصنيف هي الإجابة عن الأسئلة الثنائية زي نعم او لا، زي قطة او كلب، زي جيد او سيئ،
         و كمان بتجاوب على التصنيفات المتعددة زي تصنيف الأمراض ( مرض قلب، مرض زهايمر، مرض سكر، .. الخ)

      • بيانات التصنيف هي المناسبة لمشروعك لو الهدف منه هو التفريق بين حاجات معينة و واضحة، و لازم تختار بيانات تكون Labeled.

      • الانحدار – Regression:

      • مهمة خوارزميات الانحدار هي التعامل مع القيم الرقمية و التوقعات و التنبؤات المستقبلية الرقمية زي التوقع بسعر الشقق في المستقبل و أسعار العملات الرقمية.
        كمان بيانات الانحدار بتساهم في صنع القرارات الاقتصادية للشركات و التنبؤ بالمخاطر.

      • التجميع – Clustering:

      • مهمة خوارزميات التجميع هي إيجاد قواعد لتصنيف المجموعات و الفئات، زي تقسيم عملاء الشركة لعدة فئات.
         أهمية خوارزميات التجميع بتتمثل في الحالات اللي مش بتكون فيها الداتا مصنفة بالفعل (labeled)
         لأنها خوارزميات Unsupervised Machine Learning و بتقدر تتعرف على أنماط البيانات المختلفة بدون تصنيف مسبق.

    • رابعاً: ازاي تتحقق من جودة البيانات؟

      • اختيار نوع البيانات هو أول مهمة لازم تعملها، بعد كدا بيكون مهم انك تتحقق من جودة البيانات قبل البدء في مشروعك، و دا بيكون بناء على عدة عوامل كالآتي:

      • هل البيانات دي موثوق منها و من مصدرها؟

      • هل كان في أخطاء كتير اثناء مرحلة ادخال البيانات؟

      • هل في أخطاء فنية في مرحلة نقل البيانات؟

      • هل في سجلات من البيانات تم حذفها؟ ولو فعلا حصل، ايه هو حجم البيانات المحذوفة؟

      • هل البيانات مناسبة لهدف مشروعك؟ يعني البيانات دي مأخوذة من بيئة شبيهة لبيئة عمل مشروعك و من سجلات شبه السجلات اللي مشروعك بيهدف انه يخدمها؟

      • هل البيانات غير متوازنة؟ التوازن في البيانات من أساسيات جودة البيانات لأنه بيأثر مباشرة على أداء نموذج التعلم الآلي.
        بعد الإجابة علي الأسئلة دي بتكون قدرت تتعرف علي جودة البيانات اللى اختارتها بناء على نوع مشروعك
         و هنا تقدر تبدأ تدخل في مرحلة تحليل البيانات و تظيفها و بعدين تدريب نموذج ذكاء اصطناعى.ك

    Leave a Reply

    Your email address will not be published. Required fields are marked *