كيفية التعامل مع كميات كبيرة من البيانات باستخدام Python: دليل سريع
نشرت: 2022-06-12كلنا محاطون بالبيانات. البيانات هي شيء سحري ينمو تمامًا مثلما نما ثاني أكسيد الكربون في بيئتنا ، مع اختلاف أنه مفيد لنا ، وليس سيئًا مثل تزايد الاحتباس الحراري. أقول هذا لأنه إذا كان لدينا كمية هائلة من البيانات ، فعندئذ سيكون لدينا القدرة على اتخاذ قرارات أفضل في المستقبل.
نقوم جميعًا بإنشاء بيانات جديدة كل يوم ، إما عن طريق الإعجاب بمنشور شخص ما أو التعليق على منشور الآخر ، أو عند تحميل منشور جديد على أي موقع اجتماعي.
في الوقت الحاضر ، الشركات حساسة للغاية بشأن البيانات ، لأن جمع البيانات وتخزينها ومعالجتها وتحليلها أمر حيوي لاتخاذ قرارات أفضل. يجب على كل شركة أن تأخذ تطوير الويب على محمل الجد لأن كل شيء متصل بالإنترنت في الوقت الحاضر وسيكون في عالم المستقبل.
هناك العديد من الأدوات ولغات البرمجة التي تساعدنا على القيام بالمهام المذكورة أعلاه. يعد Excel أداة جداول بيانات قوية لإجراء تحليلات البيانات.
لكن لديها الكثير من القيود عندما يتعلق الأمر بمعالجة كمية هائلة من البيانات. تستخدم معظم الشركات البرمجة النصية لـ EXCEL + VBA لإجراء بعض العمليات الحسابية المعقدة ، ولكن لها أيضًا قيود مختلفة.
لذلك يحاول محللو البيانات دائمًا اعتماد طرق جديدة تساعدهم على تسريع عملهم وإنشاء تحليل الجودة. للقيام بذلك ، يستخدم محللو البيانات لغات برمجة أقوى بكثير من أي أداة جداول بيانات أخرى. Python و R هما أكثر لغات البرمجة المفضلة لإجراء تحليل البيانات.
في هذه المدونة ، لن أتحدث عن لغة البرمجة R ، لكننا سنستكشف قوة Python. سوف تتعلم المفهوم بالكامل باستخدام مثال واقعي من خلال هذه المدونة.
متطلبات بدء البرمجة
ما سوف تحتاجه قبل البدء في البرمجة الفعلية:
- يجب تثبيت Python في نظامك
- يجب أن يكون لديك محرر تكتب فيه كود بيثون. أقترح عليك تثبيت Jupyter Notebook .
- قم بتثبيت مكتبة Numpy و Pandas قبل بدء الترميز.
- النقطة الأخيرة والأكثر أهمية هي أنه يجب أن يكون لديك الفضول لتجاوز حدود استخدام البيانات. الفضول هو المفتاح!
الآن بعد أن تمت مواءمة جميع المتطلبات ، فلنبدأ رحلة تحليل البيانات.
إعداد مساحة العمل
- افتح دفتر Jupyter واستورد العبارات التالية:
- استيراد numpy كـ np
- استيراد الباندا كما pd
- استيراد نظام التشغيل
- نفّذ الخلية بالضغط على Shift + Enter
استيراد البيانات
عرض تنسيق ملف البيانات الخاصة بك. وأضف الكود وفقًا لذلك:
إذا كان لديك ملف CSV ، فاكتب الكود التالي:
df = pd.read_csv (r “Actual_path_of_your_csv_file”)
إذا كان لديك ملف Excel ، فاكتب الكود التالي:
df = pd.read_excel (مفتوح (r “Actual_path_of_your_excel_file”، “rb”)، sheet_name = “Name_of_sheet_which_you_want_to_import”)
لدي ورقة إكسل ، لذلك استخدمت الخيار الثاني في المثال التالي.
الوظائف الأساسية للتعرف على البيانات
الآن قمت باستيراد البيانات إلى بايثون. الخطوة التالية هي أنك تحتاج إلى التقديم بحيث يكون لديك عرض عين الطائر لبياناتك.
وظيفة الشكل
تعرض لك وظيفة الشكل العدد الإجمالي للصفوف والأعمدة في الملف المستورد. اكتب df.shape في خلية دفتر ملاحظات Jupyter وقم بتنفيذ الخلية بالضغط على Shift + Enter.
إذا كنت مهتمًا بالصفوف فقط ، فاكتب df.shape [0]
إذا كنت مهتمًا بالأعمدة فقط ، فاكتب df.shape [1]
وظيفة الرأس
إذا كنت ترغب في رؤية السجلات القليلة الأولى ، فيمكنك استخدام العنوان (). اكتب df.head () في خلية دفتر ملاحظات Jupyter وقم بتنفيذ الخلية بالضغط على Shift + Enter. سيعيد إطار بيانات مع أفضل خمسة سجلات.
إذا كنت تريد أن ترى أكثر من 5 سجلات ، فيمكنك ذكر الرقم الموجود بين قوسين دائريين df.head (10) الآن يقوم بإرجاع أفضل 10 سجلات.
وظيفة الذيل
إذا كنت تريد رؤية السجلات القليلة من الأسفل ، فيمكنك استخدام tail () . اكتب df.tail () في خلية دفتر ملاحظات Jupyter وقم بتنفيذ الخلية بالضغط على Shift + Enter . سيعيد إطار بيانات مع السجلات الخمسة السفلية.
إذا كنت تريد رؤية أكثر من خمسة سجلات ، فيمكنك ذكر الرقم الموجود بين قوسين دائريين df.tail (10) ؛ الآن ، يقوم بإرجاع أعلى 10 سجلات.
الحصول على جميع أسماء الأعمدة
إذا كنت ترغب في الحصول على أسماء جميع الأعمدة ، فما عليك سوى كتابة df.columns ، وستقوم بإرجاع اسم العمود بالكامل.
الحصول على العمود المحدد
يمكنك استخراج أي عمود باستخدام اسمه. بعد تطبيق الكود أدناه والذي سيعود لك بقائمة القيم المخزنة في العمود.
بناء الجملة:
إطار البيانات ["Column_name"]
مثال:
df ["اسم المرشح"]
تحقق من نوع بيانات العمود
الآن ، كما نعلم أننا نقوم بتخزين البيانات في أعمدة ، وسنكون فضوليين لمعرفة نوع بيانات العمود قبل تطبيق أي عمليات عليه. لذلك ، اكتب الكود التالي في خلية Jupyter Notebook:
بناء الجملة:
إطار البيانات ["Column_name"]. dtype ()
مثال:
df ["عمر المرشح"]. dtype ()
استخدام دالة الجمع
إذا كانت لديك بعض الأعمدة الرقمية في بياناتك وتريد فقط معرفة المجموع عن طريق إضافة كل قيمة في هذا العمود المحدد ، فيمكنك استخدام الدالة sum () .
قبل تطبيق هذه الصيغة ، تأكد من أن نوع العمود ليس سلسلة

بناء الجملة:
إطار البيانات ["Column_name"]. sum ()
مثال:
df ["إجمالي الأصوات الصالحة"]. sum ()
في المثال التالي ، ألخص جميع الأصوات الصحيحة التي تم استطلاعها في 117 دائرة انتخابية في البنجاب.
إيجاد متوسط عمود معين
إذا كنت تريد العثور على متوسط العمود ، فيمكنك استخدام دالة ()
بناء الجملة:
إطار البيانات ["اسم_العمود"]. يعني ()
مثال:
df ["إجمالي الأصوات الصالحة"]. يعني ()
في المثال التالي ، حصلت على متوسط الأصوات التي تم اقتراعها لكل مرشح.
إيجاد القيمة القصوى في عمود معين
إذا كنت تريد العثور على القيمة القصوى لعمود ما ، فيمكنك استخدام الدالة max ()
بناء الجملة:
إطار البيانات ["Column_name"]. max ()
مثال:
df ["إجمالي الأصوات الصالحة"]. max ()
في المثال التالي ، حصلت على أقصى عدد من الأصوات للمرشح.
إيجاد القيمة الدنيا في عمود معين
إذا كنت تريد العثور على الحد الأدنى لقيمة العمود ، فيمكنك استخدام الدالة min ()
بناء الجملة:
إطار البيانات ["Column_name"]. min ()
مثال:
df ["إجمالي الأصوات الصالحة"]. min ()
في المثال التالي ، حصلت على الحد الأدنى من الأصوات التي تم استطلاعها للمرشح.
ابحث عن الانحراف المعياري لعمود معين
إذا كنت تريد العثور على الحد الأدنى لقيمة العمود ، فيمكنك استخدام وظيفة std ()
بناء الجملة:
إطار البيانات ["Column_name"]. std ()
مثال:
df ["إجمالي الأصوات الصالحة"]. std ()
وظائف السلسلة الأساسية
الآن دعونا نناقش بعض وظائف السلسلة المفيدة للغاية والتي تكون مفيدة في عملك اليومي. ولكن قبل تطبيق وظائف السلسلة هذه ، تأكد من أن نوع العمود هو String .
إيجاد طول السلسلة
إذا كنت تريد العثور على الحد الأدنى لقيمة العمود ، فيمكنك استخدام وظيفة std ()
بناء الجملة:
إطار البيانات ["Column_name"]. str.len ()
مثال:
df ["اسم الدائرة الانتخابية"]. str.len ()
سيعيد القائمة التي تحتوي على قيم رقمية ، وتمثل هذه القيم الرقمية طول السلسلة المقابلة. يمكنك إضافة هذه القائمة كعمود جديد إذا كنت تريد إظهار طول السلسلة في بياناتك.
كتابة الحرف الأول من كل كلمة بحرف كبير
كما تعلم أنه لا يمكننا الحصول على وظيفة حالة العنوان (تكبير الحرف الأول من كل كلمة) في Excel ولكن بيثون لديها. لذلك من أجل استخدام وظيفة العنوان ()
بناء الجملة:
إطار البيانات ["Column_name"]. str.title ()
مثال:
df ["اسم المرشح"]. str.title ()
الأحرف الكبيرة
يمكنك استخدام الدالة upper () لعمل أحرف كبيرة في سلسلة
بناء الجملة:
إطار البيانات ["Column_name"]. str.upper ()
مثال:
df ["اسم المرشح"]. str.upper ()
أحرف صغيرة
يمكنك استخدام دالة Lower () لعمل أحرف سلسلة صغيرة
بناء الجملة:
إطار البيانات ["Column_name"]. str.lower ()
مثال:
df ["اسم المرشح"]. str.lower ()
الحصول على سجل محدد
للحصول على السجل المحدد من بياناتك ، يمكنك تأكيد احتواء بياناتك على عمود واحد على الأقل له قيمة فريدة. المفهوم مشابه للمفتاح الأساسي في SQL. يمكنك أيضًا خلط عدة أعمدة للحصول على سجل معين.
كما في المثال الخاص بي ، أقوم باستخراج السجلات باستخدام الكود التالي لاسم الدائرة الانتخابية واسم المرشح :
df [(df ["اسم الدائرة"] == "Sultanpur Lodhi") & (df ["اسم المرشح"] == "SAJJAN SINGH CHEEMA")]
الحصول على مجموعة من السجلات
في بعض الأحيان قد ترغب في استخراج البيانات التي تنتمي إلى نفس الفئة. كما في المثال التالي ، أريد استخراج البيانات الخاصة بدائرة Sultanpur Lodhi ، وأريد أسماء المرشحين في حالة العنوان ، وبعد ذلك سأقوم بتصدير هذه البيانات كـ sultapur-Lodhi-2017.csv
الآن يحتوي ملف sultapur-Lodhi-2017.csv على بيانات من دائرة Sultanpur Lodhi فقط.
تغليف
لذلك ، في هذه المدونة ، تعلمت بعض الوظائف الأساسية لتحليل كمية هائلة من البيانات. لقد أعطيتك للتو جولة صغيرة لتحليل البيانات في بايثون. هناك الكثير من الأشياء التي تم الكشف عنها وهناك للاستكشاف.
لقراءة المزيد من المدونات ، قم بزيارة www.webdew.com. إذا كنت تبحث عن خدمات تصميم مواقع الويب وتطوير الويب ، فسيكون فريق الويب لدينا سعيدًا بتقديم ما تريد! اتصل بنا لمعرفة المزيد.
المحرر: عمروثا