Welcome to Machinfy Academy

blog image

 

فهم البيانات هو من أساسيات مجالين تحليل البيانات و علوم البيانات  (Data Science and Data Analysis)لأن الفهم الصحيح هيساعدك تتعرف علي الأنماط و القرارات و التنبؤات اللي ممكن تستخلصها من البيانات دي.
في المقال دا هتتعرف على أهم مكتبتين بيساعدوا علي فهم البيانات بشكل مناسب..

أولاً: كيفية الاستفادة من مكتبات بايثون في تحليل البيانات مكتبة Pandas

هي مكتبة بتسمحلك تتعامل مع البيانات بطريقة منظمة لأنها
بتوفرلك هيئة بيانات اسمها
DataFrame  بتكون مشابهة لجداول البيانات (Spreadsheets)، و كمان بتقدر
من خلالها تحَمِّل و تشتغل مع أنواع ملفات البيانات المختلفة زي ملفات ال
CSV  و الاكسيل و قواعد بيانات ال SQL

 هنا مثال عملي تقدر تطبقه لو عايز تبدأ تستخدم ملف بيانات من نوع CSV باستخدام Pandas:

python code

بمجرد ما تحمل ملف البيانات بتاعك باستخدام السطر السابق، تقدر تبدأ في فهمها باستخدام دوال مكتبة pandas  المختلفة،
و أول دالة هي ال
Head()   اللى بتسمحلك انك تقرأ أول سطور موجودة في بياناتك للتعرف عليها بشكل أفضل، و تقدر تكتب السطر دا عشان تقرأ النتائج: 
بعد كدا تقدر تستخدم دالة info()  عشان تقرأ ملخص البيانات و تعرف عدد الأصفف
 و الأعمدة الموجودة و تشوف نوع كل عمود هل هو مثلا رقم ولا حروف.
الدالة دي بتلخص عليك تدوير كتير، و تقدر تعرض النتايج بتاعتها بعد ما تكتب السطر دا:

أهم خطوة في خطوات فهمك للبيانات هي فهمها من الناحية الإحصائية، و عملية ال statistical analysis  بتعرفك ازاي البيانات متوزعة و هل فيها outliers ولا لا
و بتعرفك فين أصغر الأرقام و فين أكبرها،
 و دا بيفيدك جداً في مرحلة تجهيز البيانات
(Data Preprocessing) اللي مش بيخلو منها اى كورس او كتاب بيشرح مجال الData Analysis  و ال Data Science.
 و كل دا تقدر تفهمه عن بيانا
تك ببساطة من خلال كتابة دالة ال describe() اللي بتطبعلك جدول احصائي فيه أهم الأرقام، و تقدر تستخدم الدالة عن طريق كتابة السطر دا:
بعد ما اتعرفت على احصائيات بياناتك، لازم تعرف كل عمود بيحتوي علي قيم عاملة ازاي و مكون من ايه، و دا تقدر تشوفه من خلال
 تطبيق دالة
value_counts() اللى بتطبعلك توزيع القيم في كل عمود بأسمائها و أرقامها التفصيلية.
 و تقدر تستخدم الدالة دي و تفهم اكتر عن بياناتك من خلال كتابة السطر دا:

ثانياً: ايه هي مكتبة Numpy؟

هي المكتبة اللى هتلاقي فيها كل الدوال والوظائف الرياضية المتطورة اللى بتساعدك مجال علوم البيانات لأنها بتسمحلك تطبق اى عملية رياضية على البيانات بتاعتك مهما كان حجمها بشكل سهل وسريع.

أحد أهم استخدامات مكتبة Numpy  في علوم البيانات هي اجراء العمليات التلقائية على ال DataFrame  ،
 و في المثال دا طريقة تقدر تستخدمها عشان تحسب تربيع كل رقم في البيانات بتاعتك
او في اى مصفوفة باستخدام دالة
square() :

ازاي تفهم اكتر عن بياناتك؟
تقدر تعرف اكتر عن دوال مختلفة لنفس المكتبتين وتطبقهم علي بياناتك من خلال المواقع الرئيسية للمكتبات:
Pandas
NumPy
و تقدر تطبق رسومات بيانية باستخدام مكتبات تانية هنشرحها في المقال الجاي
و تقدر تعرف ازاي تختار بيانات مناسبة لمشروعك من خلال مقالنا السابق 
وكمان تقدر تشوف محتوى كورساتنا اللى بتتعلم فيها مجالات البيانات على أيدي مهندسين و خبراء محترفين 

 

 

  •  

Leave a Reply

Your email address will not be published. Required fields are marked *