วิธีจัดการข้อมูลจำนวนมากโดยใช้ python: คำแนะนำฉบับย่อ
เผยแพร่แล้ว: 2022-06-12เราทุกคนถูกล้อมรอบด้วยข้อมูล ข้อมูลเป็นสิ่งมหัศจรรย์ที่เติบโตเช่นเดียวกับคาร์บอนไดออกไซด์ที่เติบโตในสภาพแวดล้อมของเรา โดยมีความแตกต่างที่ดีสำหรับเรา ไม่เลวร้ายเท่ากับภาวะโลกร้อนที่เพิ่มขึ้น ฉันพูดแบบนี้เพราะถ้าเรามีข้อมูลจำนวนมาก เราจะมีอำนาจในการตัดสินใจที่ดีขึ้นในอนาคต
เราทุกคนสร้างข้อมูลใหม่ทุกวัน ไม่ว่าจะโดยการกดถูกใจโพสต์ของใครบางคนหรือแสดงความคิดเห็นในโพสต์ของอีกฝ่าย หรือเมื่อเราอัปโหลดโพสต์ใหม่บนไซต์โซเชียลใดๆ
ทุกวันนี้ บริษัทต่างๆ มีความละเอียดอ่อนมากเกี่ยวกับข้อมูล เนื่องจากการรวบรวม จัดเก็บ ประมวลผล และวิเคราะห์ข้อมูลมีความสำคัญต่อการตัดสินใจที่ดีขึ้น ทุกบริษัทต้องจริงจังกับการพัฒนาเว็บ เพราะทุกอย่างออนไลน์อยู่ในปัจจุบันและจะเป็นในโลกอนาคต
มีเครื่องมือและภาษาโปรแกรมมากมายที่ช่วยให้เราทำงานที่กล่าวมาข้างต้นได้ Excel เป็นเครื่องมือสเปรดชีตที่มีประสิทธิภาพสำหรับการวิเคราะห์ข้อมูล
แต่มีข้อ จำกัด มากมายเมื่อต้องจัดการกับข้อมูลจำนวนมาก บริษัทส่วนใหญ่ใช้ EXCEL + VBA Scripting เพื่อทำการคำนวณที่ซับซ้อน แต่ก็มีข้อจำกัดหลายประการ
ดังนั้น นักวิเคราะห์ข้อมูลจึงพยายามใช้วิธีการใหม่ๆ ที่ช่วยให้พวกเขาทำงานได้เร็วขึ้นและสร้างการวิเคราะห์คุณภาพ ในการทำเช่นนั้น นักวิเคราะห์ข้อมูลใช้ภาษาการเขียนโปรแกรมที่มีประสิทธิภาพมากกว่าเครื่องมือสเปรดชีตอื่นๆ Python และ R เป็นภาษาโปรแกรมที่ต้องการมากที่สุดสำหรับการวิเคราะห์ข้อมูล
ในบล็อกนี้ ฉันจะไม่พูดเกี่ยวกับภาษาการเขียนโปรแกรม R แต่เราจะสำรวจพลังของ Python คุณ จะได้เรียนรู้แนวคิดทั้งหมดโดยใช้ตัวอย่างจากชีวิตจริงผ่านบล็อกนี้
ข้อกำหนดในการเริ่มเขียนโปรแกรม
สิ่งที่คุณต้องการก่อนเริ่มการเขียนโปรแกรมจริง:
- ควรติดตั้ง Python ในระบบของคุณ
- คุณควรมีตัวแก้ไขที่คุณเขียนโค้ดหลาม ฉันแนะนำให้คุณติดตั้ง Jupyter Notebook
- ติดตั้ง Numpy และ Pandas Library ก่อนเริ่มการเข้ารหัส
- สุดท้ายแต่ประเด็นที่สำคัญที่สุดคือ คุณควรมีความอยากรู้ที่จะก้าวข้ามขีดจำกัดของการใช้ข้อมูล ความอยากรู้เป็นกุญแจสำคัญ!
เมื่อคุณได้ปรับข้อกำหนดทั้งหมดแล้ว มาเริ่มการเดินทางของการวิเคราะห์ข้อมูลกัน
การตั้งค่าพื้นที่ทำงาน
- เปิดสมุดบันทึก Jupyter ของคุณและนำเข้าคำสั่งต่อไปนี้:
- นำเข้า numpy เป็น np
- นำเข้าแพนด้าเป็น pd
- นำเข้าระบบปฏิบัติการ
- ดำเนินการเซลล์โดยกด Shift + Enter
การนำเข้าข้อมูล
ดูรูปแบบไฟล์ข้อมูลของคุณ และเพิ่มรหัสตามลำดับ:
หากคุณมีไฟล์ CSV ให้เขียนโค้ดต่อไปนี้:
df = pd.read_csv(r“Actual_path_of_your_csv_file”)
หากคุณมีไฟล์ Excel ให้เขียนโค้ดต่อไปนี้:
df = pd.read_excel(open(r"Actual_path_of_your_excel_file", "rb"), sheet_name="Name_of_sheet_which_you_want_to_import")
ฉันมีแผ่นงาน excel ดังนั้นฉันจึงใช้ตัวเลือกที่สองในตัวอย่างต่อไปนี้
ฟังก์ชันพื้นฐานที่ควรรู้เกี่ยวกับข้อมูล
ตอนนี้คุณได้นำเข้าข้อมูลไปยัง Python แล้ว ขั้นตอนต่อไปคือ คุณต้องสมัครเพื่อให้คุณมีมุมมองแบบ Bird Eye View ของข้อมูลของคุณ
ฟังก์ชั่นรูปร่าง
ฟังก์ชันรูปร่างจะแสดงจำนวนแถวและคอลัมน์ทั้งหมดในไฟล์ที่นำเข้าของคุณ เขียน df.shape ลง ในเซลล์สมุดบันทึก Jupyter ของคุณและดำเนินการเซลล์โดยกด Shift+Enter
หากคุณสนใจเฉพาะ Rows ให้เขียน df.shape[0]
หากคุณสนใจเฉพาะคอลัมน์ ให้เขียน df.shape[1]
หัวหน้าฟังก์ชัน
หากคุณต้องการดูเรคคอร์ดสองสามอันดับแรก คุณสามารถใช้ head() เขียน df.head() ลงในเซลล์สมุดบันทึก Jupyter ของคุณและดำเนินการเซลล์โดยกด Shift+Enter มันจะส่งคืนกรอบข้อมูลที่มีระเบียนห้าอันดับแรก
หากคุณต้องการดูมากกว่า 5 ระเบียน คุณสามารถระบุตัวเลขในวงเล็บกลม df.head(10) ตอนนี้จะส่งกลับระเบียน 10 อันดับแรก
ฟังก์ชั่นหาง
หากคุณต้องการดูระเบียนบางส่วนจากด้านล่าง คุณสามารถใช้ tail() เขียน df.tail() ในเซลล์โน้ตบุ๊ก Jupyter ของคุณและดำเนินการเซลล์โดยกด Shift+Enter มันจะส่งคืน data frame ที่มี ห้าระเบียนด้านล่าง
หากคุณต้องการดูมากกว่าห้าระเบียน คุณสามารถระบุตัวเลขในวงเล็บกลม df.tail(10) ; ตอนนี้จะส่งกลับ ระเบียน 10 อันดับแรก
รับชื่อคอลัมน์ทั้งหมด
หากคุณต้องการทราบชื่อคอลัมน์ทั้งหมด คุณเพียงแค่เขียน df.columns และมันจะส่งคืนชื่อคอลัมน์ทั้งหมด
รับคอลัมน์เฉพาะ
คุณสามารถแยกคอลัมน์ใดก็ได้โดยใช้ชื่อ หลังจากใช้รหัสด้านล่างซึ่งจะส่งคืนรายการค่าที่เก็บไว้ในคอลัมน์
ไวยากรณ์:
ดาต้าเฟรม["Column_name"]
ตัวอย่าง:
df[“ชื่อผู้สมัคร”]
ตรวจสอบประเภทข้อมูลของคอลัมน์
ตอนนี้ อย่างที่เรารู้ว่าเราเก็บข้อมูลเป็นคอลัมน์ และเราจะอยากรู้เกี่ยวกับประเภทข้อมูลของคอลัมน์ก่อนที่จะใช้การดำเนินการใดๆ กับคอลัมน์นั้น ให้เขียนโค้ดต่อไปนี้ในเซลล์ Jupyter Notebook ของคุณ:
ไวยากรณ์:
ดาต้าเฟรม["Column_name"].dtype()
ตัวอย่าง:

df[“อายุผู้สมัคร”].dtype()
การใช้ฟังก์ชันผลรวม
หากคุณมีคอลัมน์ตัวเลขในข้อมูลของคุณ และคุณต้องการทราบผลรวมโดยการเพิ่มแต่ละค่าของคอลัมน์นั้น ๆ คุณสามารถใช้ฟังก์ชัน sum() ได้
ก่อนใช้สูตรนี้ ตรวจสอบให้แน่ใจว่าประเภทคอลัมน์ไม่ใช่ String
ไวยากรณ์:
ดาต้าเฟรม["Column_name"].sum()
ตัวอย่าง:
df[" คะแนนโหวตที่ถูกต้องทั้งหมด"].sum()
ในตัวอย่างต่อไปนี้ ฉันสรุปคะแนนโหวตที่ถูกต้องทั้งหมดซึ่งสำรวจใน 117 เขตเลือกตั้งของปัญจาบ
หาค่าเฉลี่ยของคอลัมน์ใดคอลัมน์หนึ่ง
หากคุณต้องการหาค่าเฉลี่ยของคอลัมน์ คุณสามารถใช้ฟังก์ชัน mean()
ไวยากรณ์:
ดาต้าเฟรม["Column_name"].mean()
ตัวอย่าง:
df[" คะแนนโหวตที่ถูกต้องทั้งหมด"].mean()
ในตัวอย่างต่อไปนี้ ฉันได้คะแนนเฉลี่ยที่สำรวจสำหรับผู้สมัครแต่ละคน
การหาค่าสูงสุดในคอลัมน์ใดคอลัมน์หนึ่ง
หากคุณต้องการหาค่าสูงสุดของคอลัมน์ คุณสามารถใช้ฟังก์ชัน max() ได้
ไวยากรณ์:
ดาต้าเฟรม["Column_name"].max()
ตัวอย่าง:
df[" คะแนนโหวตที่ถูกต้องทั้งหมด"].max()
ในตัวอย่างต่อไปนี้ ฉันได้รับแบบสำรวจความคิดเห็นสูงสุดสำหรับผู้สมัคร
การหาค่าต่ำสุดในคอลัมน์ใดคอลัมน์หนึ่ง
หากคุณต้องการหาค่าต่ำสุดของคอลัมน์ คุณสามารถใช้ฟังก์ชัน min()
ไวยากรณ์:
ดาต้าเฟรม["Column_name"].min()
ตัวอย่าง:
df[" คะแนนโหวตที่ถูกต้องทั้งหมด"].min()
ในตัวอย่างต่อไปนี้ ฉันได้รับการโหวตขั้นต่ำสำหรับผู้สมัคร
ค้นหาค่าเบี่ยงเบนมาตรฐานของคอลัมน์เฉพาะ
หากคุณต้องการหาค่าต่ำสุดของคอลัมน์ คุณสามารถใช้ std() function
ไวยากรณ์:
ดาต้าเฟรม["Column_name"].std()
ตัวอย่าง:
df[" คะแนนโหวตที่ถูกต้องทั้งหมด"].std()
ฟังก์ชันสตริงพื้นฐาน
ตอนนี้ ให้เราพูดถึงฟังก์ชันสตริงที่มีประโยชน์ซึ่งมีประโยชน์ในงานประจำวันของคุณ แต่ก่อนที่จะใช้ฟังก์ชันสตริงเหล่านี้ ตรวจสอบให้แน่ใจว่าประเภทคอลัมน์คือ String
การหาความยาวของสตริง
หากคุณต้องการหาค่าต่ำสุดของคอลัมน์ คุณสามารถใช้ std() function
ไวยากรณ์:
ดาต้าเฟรม["Column_name"].str.len()
ตัวอย่าง:
df["ชื่อการเลือกตั้ง"].str.len()
มันจะส่งคืนรายการที่มีค่าตัวเลข และค่าตัวเลขเหล่านี้แสดงถึงความยาวของสตริงที่สอดคล้องกัน คุณสามารถเพิ่มรายการนี้เป็น คอลัมน์ใหม่ ได้หากต้องการแสดงความยาวของสตริงในข้อมูลของคุณ
การใช้อักษรตัวพิมพ์ใหญ่ขึ้นต้นของแต่ละคำ
ดังที่คุณทราบแล้วว่าเราไม่สามารถมีฟังก์ชัน Title Case (ตัวพิมพ์ใหญ่ตัวแรกของแต่ละคำ) ใน excel ได้ แต่มี python ดังนั้นสำหรับการใช้งาน title() function
ไวยากรณ์:
ดาต้าเฟรม["Column_name"].str.title()
ตัวอย่าง:
df[“ชื่อผู้สมัคร”].str.title()
ตัวพิมพ์ใหญ่
คุณสามารถใช้ฟังก์ชัน upper() เพื่อสร้างสตริงอักขระตัวพิมพ์ใหญ่
ไวยากรณ์:
ดาต้าเฟรม["Column_name"].str.upper()
ตัวอย่าง:
df[“ชื่อผู้สมัคร”].str.upper()
ตัวพิมพ์เล็ก
คุณสามารถใช้ฟังก์ชัน lower() เพื่อสร้างสตริงอักขระตัวพิมพ์เล็ก
ไวยากรณ์:
ดาต้าเฟรม["Column_name"].str.lower()
ตัวอย่าง:
df[“ชื่อผู้สมัคร”].str.lower()
รับบันทึกเฉพาะ
หากต้องการรับบันทึกเฉพาะจากข้อมูลของคุณ คุณอาจยืนยันว่าข้อมูลของคุณมีคอลัมน์อย่างน้อยหนึ่งคอลัมน์ที่มีค่าที่ไม่ซ้ำกัน แนวคิดนี้คล้ายกับ คีย์หลัก ใน SQL คุณยังสามารถผสมหลายคอลัมน์เข้าด้วยกันเพื่อรับบันทึกเฉพาะได้
เช่นเดียวกับในตัวอย่างของฉัน ฉันแยกบันทึกโดยใช้ ชื่อ การเลือกตั้งและ ชื่อผู้สมัคร ตามรหัสต่อไปนี้:
df[(df["Constituency Name"] == "Sultanpur Lodhi ") & (df["Candidate Name"] == "SAJJAN SINGH CHEEMA")]
รับกลุ่มระเบียน
บางครั้งคุณอาจต้องการดึงข้อมูลที่อยู่ในหมวดหมู่เดียวกัน เช่นเดียวกับในตัวอย่างต่อไปนี้ ฉันต้องการแยกข้อมูลสำหรับ Sultanpur Lodhi Constituency และฉันต้องการชื่อผู้สมัครในกรณีชื่อ จากนั้นฉันจะส่งออกข้อมูลนี้เป็น sultapur-lodhi-2017.csv
ตอนนี้ ไฟล์ sultapur-lodhi-2017.csv มีข้อมูลจากเขตเลือกตั้ง Sultanpur Lodhi เท่านั้น
ห่อ
ดังนั้น ในบล็อกนี้ คุณได้เรียนรู้ฟังก์ชันพื้นฐานบางอย่างในการวิเคราะห์ข้อมูลจำนวนมหาศาล ฉันเพิ่งจะแนะนำคุณเกี่ยวกับการวิเคราะห์ข้อมูลใน Python มีหลายสิ่งหลายอย่างที่ถูกค้นพบและมีให้สำรวจ
อ่านบล็อกเพิ่มเติมได้ที่ www.webdew.com หากคุณกำลังมองหาบริการออกแบบเว็บไซต์และพัฒนาเว็บไซต์ ทีมงานเว็บไซต์ของเรายินดีเป็นอย่างยิ่งที่จะได้สิ่งที่คุณต้องการ! ติดต่อเราเพื่อทราบข้อมูลเพิ่มเติม
บรรณาธิการ: อมฤตา