วิธีจัดการข้อมูลจำนวนมากโดยใช้ python: คำแนะนำฉบับย่อ

เผยแพร่แล้ว: 2022-06-12

เราทุกคนถูกล้อมรอบด้วยข้อมูล ข้อมูลเป็นสิ่งมหัศจรรย์ที่เติบโตเช่นเดียวกับคาร์บอนไดออกไซด์ที่เติบโตในสภาพแวดล้อมของเรา โดยมีความแตกต่างที่ดีสำหรับเรา ไม่เลวร้ายเท่ากับภาวะโลกร้อนที่เพิ่มขึ้น ฉันพูดแบบนี้เพราะถ้าเรามีข้อมูลจำนวนมาก เราจะมีอำนาจในการตัดสินใจที่ดีขึ้นในอนาคต

12 เคล็ดลับสำคัญในการสร้างหน้า Landing Page ของ WordPress อย่างมืออาชีพ

เราทุกคนสร้างข้อมูลใหม่ทุกวัน ไม่ว่าจะโดยการกดถูกใจโพสต์ของใครบางคนหรือแสดงความคิดเห็นในโพสต์ของอีกฝ่าย หรือเมื่อเราอัปโหลดโพสต์ใหม่บนไซต์โซเชียลใดๆ

ทุกวันนี้ บริษัทต่างๆ มีความละเอียดอ่อนมากเกี่ยวกับข้อมูล เนื่องจากการรวบรวม จัดเก็บ ประมวลผล และวิเคราะห์ข้อมูลมีความสำคัญต่อการตัดสินใจที่ดีขึ้น ทุกบริษัทต้องจริงจังกับการพัฒนาเว็บ เพราะทุกอย่างออนไลน์อยู่ในปัจจุบันและจะเป็นในโลกอนาคต

มีเครื่องมือและภาษาโปรแกรมมากมายที่ช่วยให้เราทำงานที่กล่าวมาข้างต้นได้ Excel เป็นเครื่องมือสเปรดชีตที่มีประสิทธิภาพสำหรับการวิเคราะห์ข้อมูล

แต่มีข้อ จำกัด มากมายเมื่อต้องจัดการกับข้อมูลจำนวนมาก บริษัทส่วนใหญ่ใช้ EXCEL + VBA Scripting เพื่อทำการคำนวณที่ซับซ้อน แต่ก็มีข้อจำกัดหลายประการ

ดังนั้น นักวิเคราะห์ข้อมูลจึงพยายามใช้วิธีการใหม่ๆ ที่ช่วยให้พวกเขาทำงานได้เร็วขึ้นและสร้างการวิเคราะห์คุณภาพ ในการทำเช่นนั้น นักวิเคราะห์ข้อมูลใช้ภาษาการเขียนโปรแกรมที่มีประสิทธิภาพมากกว่าเครื่องมือสเปรดชีตอื่นๆ Python และ R เป็นภาษาโปรแกรมที่ต้องการมากที่สุดสำหรับการวิเคราะห์ข้อมูล

ในบล็อกนี้ ฉันจะไม่พูดเกี่ยวกับภาษาการเขียนโปรแกรม R แต่เราจะสำรวจพลังของ Python คุณ จะได้เรียนรู้แนวคิดทั้งหมดโดยใช้ตัวอย่างจากชีวิตจริงผ่านบล็อกนี้

ข้อกำหนดในการเริ่มเขียนโปรแกรม

สิ่งที่คุณต้องการก่อนเริ่มการเขียนโปรแกรมจริง:

ควรติดตั้ง Python ในระบบของคุณ
คุณควรมีตัวแก้ไขที่คุณเขียนโค้ดหลาม ฉันแนะนำให้คุณติดตั้ง Jupyter Notebook
ติดตั้ง Numpy และ Pandas Library ก่อนเริ่มการเข้ารหัส
สุดท้ายแต่ประเด็นที่สำคัญที่สุดคือ คุณควรมีความอยากรู้ที่จะก้าวข้ามขีดจำกัดของการใช้ข้อมูล ความอยากรู้เป็นกุญแจสำคัญ!

เมื่อคุณได้ปรับข้อกำหนดทั้งหมดแล้ว มาเริ่มการเดินทางของการวิเคราะห์ข้อมูลกัน

การตั้งค่าพื้นที่ทำงาน

เปิดสมุดบันทึก Jupyter ของคุณและนำเข้าคำสั่งต่อไปนี้:

นำเข้า numpy เป็น np
นำเข้าแพนด้าเป็น pd
นำเข้าระบบปฏิบัติการ

ดำเนินการเซลล์โดยกด Shift + Enter

การนำเข้าข้อมูล

ดูรูปแบบไฟล์ข้อมูลของคุณ และเพิ่มรหัสตามลำดับ:

หากคุณมีไฟล์ CSV ให้เขียนโค้ดต่อไปนี้:

df = pd.read_csv(r“Actual_path_of_your_csv_file”)

หากคุณมีไฟล์ Excel ให้เขียนโค้ดต่อไปนี้:

df = pd.read_excel(open(r"Actual_path_of_your_excel_file", "rb"), sheet_name="Name_of_sheet_which_you_want_to_import")

ฉันมีแผ่นงาน excel ดังนั้นฉันจึงใช้ตัวเลือกที่สองในตัวอย่างต่อไปนี้

ฟังก์ชันพื้นฐานที่ควรรู้เกี่ยวกับข้อมูล

ตอนนี้คุณได้นำเข้าข้อมูลไปยัง Python แล้ว ขั้นตอนต่อไปคือ คุณต้องสมัครเพื่อให้คุณมีมุมมองแบบ Bird Eye View ของข้อมูลของคุณ

ฟังก์ชั่นรูปร่าง

ฟังก์ชันรูปร่างจะแสดงจำนวนแถวและคอลัมน์ทั้งหมดในไฟล์ที่นำเข้าของคุณ เขียน df.shape ลง ในเซลล์สมุดบันทึก Jupyter ของคุณและดำเนินการเซลล์โดยกด Shift+Enter

หากคุณสนใจเฉพาะ Rows ให้เขียน df.shape[0]

หากคุณสนใจเฉพาะคอลัมน์ ให้เขียน df.shape[1]

หัวหน้าฟังก์ชัน

หากคุณต้องการดูเรคคอร์ดสองสามอันดับแรก คุณสามารถใช้ head() เขียน df.head() ลงในเซลล์สมุดบันทึก Jupyter ของคุณและดำเนินการเซลล์โดยกด Shift+Enter มันจะส่งคืนกรอบข้อมูลที่มีระเบียนห้าอันดับแรก

หากคุณต้องการดูมากกว่า 5 ระเบียน คุณสามารถระบุตัวเลขในวงเล็บกลม df.head(10) ตอนนี้จะส่งกลับระเบียน 10 อันดับแรก

ฟังก์ชั่นหาง

หากคุณต้องการดูระเบียนบางส่วนจากด้านล่าง คุณสามารถใช้ tail() เขียน df.tail() ในเซลล์โน้ตบุ๊ก Jupyter ของคุณและดำเนินการเซลล์โดยกด Shift+Enter มันจะส่งคืน data frame ที่มี ห้าระเบียนด้านล่าง

หากคุณต้องการดูมากกว่าห้าระเบียน คุณสามารถระบุตัวเลขในวงเล็บกลม df.tail(10) ; ตอนนี้จะส่งกลับ ระเบียน 10 อันดับแรก

รับชื่อคอลัมน์ทั้งหมด

หากคุณต้องการทราบชื่อคอลัมน์ทั้งหมด คุณเพียงแค่เขียน df.columns และมันจะส่งคืนชื่อคอลัมน์ทั้งหมด

รับคอลัมน์เฉพาะ

คุณสามารถแยกคอลัมน์ใดก็ได้โดยใช้ชื่อ หลังจากใช้รหัสด้านล่างซึ่งจะส่งคืนรายการค่าที่เก็บไว้ในคอลัมน์

ไวยากรณ์:

ดาต้าเฟรม["Column_name"]

ตัวอย่าง:

df[“ชื่อผู้สมัคร”]

ตรวจสอบประเภทข้อมูลของคอลัมน์

ตอนนี้ อย่างที่เรารู้ว่าเราเก็บข้อมูลเป็นคอลัมน์ และเราจะอยากรู้เกี่ยวกับประเภทข้อมูลของคอลัมน์ก่อนที่จะใช้การดำเนินการใดๆ กับคอลัมน์นั้น ให้เขียนโค้ดต่อไปนี้ในเซลล์ Jupyter Notebook ของคุณ:

ไวยากรณ์:

ดาต้าเฟรม["Column_name"].dtype()

ตัวอย่าง:

df[“อายุผู้สมัคร”].dtype()

การใช้ฟังก์ชันผลรวม

หากคุณมีคอลัมน์ตัวเลขในข้อมูลของคุณ และคุณต้องการทราบผลรวมโดยการเพิ่มแต่ละค่าของคอลัมน์นั้น ๆ คุณสามารถใช้ฟังก์ชัน sum() ได้

ก่อนใช้สูตรนี้ ตรวจสอบให้แน่ใจว่าประเภทคอลัมน์ไม่ใช่ String

ไวยากรณ์:

ดาต้าเฟรม["Column_name"].sum()

ตัวอย่าง:

df[" คะแนนโหวตที่ถูกต้องทั้งหมด"].sum()

ในตัวอย่างต่อไปนี้ ฉันสรุปคะแนนโหวตที่ถูกต้องทั้งหมดซึ่งสำรวจใน 117 เขตเลือกตั้งของปัญจาบ

หาค่าเฉลี่ยของคอลัมน์ใดคอลัมน์หนึ่ง

หากคุณต้องการหาค่าเฉลี่ยของคอลัมน์ คุณสามารถใช้ฟังก์ชัน mean()

ไวยากรณ์:

ดาต้าเฟรม["Column_name"].mean()

ตัวอย่าง:

df[" คะแนนโหวตที่ถูกต้องทั้งหมด"].mean()

ในตัวอย่างต่อไปนี้ ฉันได้คะแนนเฉลี่ยที่สำรวจสำหรับผู้สมัครแต่ละคน

การหาค่าสูงสุดในคอลัมน์ใดคอลัมน์หนึ่ง

หากคุณต้องการหาค่าสูงสุดของคอลัมน์ คุณสามารถใช้ฟังก์ชัน max() ได้

ไวยากรณ์:

ดาต้าเฟรม["Column_name"].max()

ตัวอย่าง:

df[" คะแนนโหวตที่ถูกต้องทั้งหมด"].max()

ในตัวอย่างต่อไปนี้ ฉันได้รับแบบสำรวจความคิดเห็นสูงสุดสำหรับผู้สมัคร

การหาค่าต่ำสุดในคอลัมน์ใดคอลัมน์หนึ่ง

หากคุณต้องการหาค่าต่ำสุดของคอลัมน์ คุณสามารถใช้ฟังก์ชัน min()

ไวยากรณ์:

ดาต้าเฟรม["Column_name"].min()

ตัวอย่าง:

df[" คะแนนโหวตที่ถูกต้องทั้งหมด"].min()

ในตัวอย่างต่อไปนี้ ฉันได้รับการโหวตขั้นต่ำสำหรับผู้สมัคร

ค้นหาค่าเบี่ยงเบนมาตรฐานของคอลัมน์เฉพาะ

หากคุณต้องการหาค่าต่ำสุดของคอลัมน์ คุณสามารถใช้ std() function

ไวยากรณ์:

ดาต้าเฟรม["Column_name"].std()

ตัวอย่าง:

df[" คะแนนโหวตที่ถูกต้องทั้งหมด"].std()

ฟังก์ชันสตริงพื้นฐาน

ตอนนี้ ให้เราพูดถึงฟังก์ชันสตริงที่มีประโยชน์ซึ่งมีประโยชน์ในงานประจำวันของคุณ แต่ก่อนที่จะใช้ฟังก์ชันสตริงเหล่านี้ ตรวจสอบให้แน่ใจว่าประเภทคอลัมน์คือ String

8 เครื่องมือเพิ่มประสิทธิภาพรูปภาพที่ดีที่สุดสำหรับเว็บแอปของคุณ

การหาความยาวของสตริง

หากคุณต้องการหาค่าต่ำสุดของคอลัมน์ คุณสามารถใช้ std() function

ไวยากรณ์:

ดาต้าเฟรม["Column_name"].str.len()

ตัวอย่าง:

df["ชื่อการเลือกตั้ง"].str.len()

มันจะส่งคืนรายการที่มีค่าตัวเลข และค่าตัวเลขเหล่านี้แสดงถึงความยาวของสตริงที่สอดคล้องกัน คุณสามารถเพิ่มรายการนี้เป็น คอลัมน์ใหม่ ได้หากต้องการแสดงความยาวของสตริงในข้อมูลของคุณ

การใช้อักษรตัวพิมพ์ใหญ่ขึ้นต้นของแต่ละคำ

ดังที่คุณทราบแล้วว่าเราไม่สามารถมีฟังก์ชัน Title Case (ตัวพิมพ์ใหญ่ตัวแรกของแต่ละคำ) ใน excel ได้ แต่มี python ดังนั้นสำหรับการใช้งาน title() function

ไวยากรณ์:

ดาต้าเฟรม["Column_name"].str.title()

ตัวอย่าง:

df[“ชื่อผู้สมัคร”].str.title()

ตัวพิมพ์ใหญ่

คุณสามารถใช้ฟังก์ชัน upper() เพื่อสร้างสตริงอักขระตัวพิมพ์ใหญ่

ไวยากรณ์:

ดาต้าเฟรม["Column_name"].str.upper()

ตัวอย่าง:

df[“ชื่อผู้สมัคร”].str.upper()

ตัวพิมพ์เล็ก

คุณสามารถใช้ฟังก์ชัน lower() เพื่อสร้างสตริงอักขระตัวพิมพ์เล็ก

ไวยากรณ์:

ดาต้าเฟรม["Column_name"].str.lower()

ตัวอย่าง:

df[“ชื่อผู้สมัคร”].str.lower()

รับบันทึกเฉพาะ

หากต้องการรับบันทึกเฉพาะจากข้อมูลของคุณ คุณอาจยืนยันว่าข้อมูลของคุณมีคอลัมน์อย่างน้อยหนึ่งคอลัมน์ที่มีค่าที่ไม่ซ้ำกัน แนวคิดนี้คล้ายกับ คีย์หลัก ใน SQL คุณยังสามารถผสมหลายคอลัมน์เข้าด้วยกันเพื่อรับบันทึกเฉพาะได้

เช่นเดียวกับในตัวอย่างของฉัน ฉันแยกบันทึกโดยใช้ ชื่อ การเลือกตั้งและ ชื่อผู้สมัคร ตามรหัสต่อไปนี้:

df[(df["Constituency Name"] == "Sultanpur Lodhi ") & (df["Candidate Name"] == "SAJJAN SINGH CHEEMA")]

รับกลุ่มระเบียน

บางครั้งคุณอาจต้องการดึงข้อมูลที่อยู่ในหมวดหมู่เดียวกัน เช่นเดียวกับในตัวอย่างต่อไปนี้ ฉันต้องการแยกข้อมูลสำหรับ Sultanpur Lodhi Constituency และฉันต้องการชื่อผู้สมัครในกรณีชื่อ จากนั้นฉันจะส่งออกข้อมูลนี้เป็น sultapur-lodhi-2017.csv

ตอนนี้ ไฟล์ sultapur-lodhi-2017.csv มีข้อมูลจากเขตเลือกตั้ง Sultanpur Lodhi เท่านั้น

ห่อ

ดังนั้น ในบล็อกนี้ คุณได้เรียนรู้ฟังก์ชันพื้นฐานบางอย่างในการวิเคราะห์ข้อมูลจำนวนมหาศาล ฉันเพิ่งจะแนะนำคุณเกี่ยวกับการวิเคราะห์ข้อมูลใน Python มีหลายสิ่งหลายอย่างที่ถูกค้นพบและมีให้สำรวจ

อ่านบล็อกเพิ่มเติมได้ที่ www.webdew.com หากคุณกำลังมองหาบริการออกแบบเว็บไซต์และพัฒนาเว็บไซต์ ทีมงานเว็บไซต์ของเรายินดีเป็นอย่างยิ่งที่จะได้สิ่งที่คุณต้องการ! ติดต่อเราเพื่อทราบข้อมูลเพิ่มเติม

บรรณาธิการ: อมฤตา