Cara menangani data dalam jumlah besar menggunakan python: Panduan cepat

Diterbitkan: 2022-06-12

Kita semua dikelilingi oleh data. Data adalah hal ajaib yang tumbuh sama seperti Karbon dioksida yang tumbuh di lingkungan kita, dengan perbedaan itu baik untuk kita, tidak seburuk pemanasan global yang berkembang. Saya mengatakan ini karena jika kita memiliki sejumlah besar data, maka kita akan memiliki kekuatan untuk membuat keputusan yang lebih baik di masa depan.

12 tips penting untuk membuat halaman arahan WordPress seperti seorang profesional

Kita semua menghasilkan data baru setiap hari, baik dengan menyukai kiriman seseorang atau mengomentari kiriman orang lain, atau ketika kami mengunggah kiriman baru di situs sosial mana pun.

Saat ini, perusahaan sangat sensitif tentang data, karena pengumpulan, penyimpanan, pemrosesan, dan analisis data sangat penting untuk membuat keputusan yang lebih baik. Setiap perusahaan harus menganggap serius pengembangan web karena semuanya online di masa sekarang dan akan ada di dunia masa depan.

Ada begitu banyak alat dan bahasa pemrograman yang membantu kita melakukan tugas-tugas yang disebutkan di atas. Excel adalah alat spreadsheet yang kuat untuk melakukan analisis data.

Tetapi ia memiliki begitu banyak keterbatasan dalam hal menangani sejumlah besar data. Sebagian besar perusahaan menggunakan EXCEL + VBA Scripting untuk melakukan beberapa perhitungan yang rumit, tetapi juga memiliki berbagai keterbatasan.

Jadi, analis data selalu mencoba mengadopsi cara baru yang membantu mereka mempercepat pekerjaan dan menghasilkan analisis yang berkualitas. Untuk melakukan itu, analis data menggunakan bahasa Pemrograman yang jauh lebih kuat daripada alat spreadsheet lainnya. Python dan R adalah bahasa pemrograman yang paling disukai untuk melakukan analisis data.

Di blog ini, saya tidak akan berbicara tentang bahasa pemrograman R, tetapi kita akan mengeksplorasi kekuatan Python. Anda akan mempelajari seluruh konsep dengan menggunakan contoh kehidupan nyata melalui blog ini.

Persyaratan untuk memulai pemrograman

Apa yang Anda perlukan sebelum memulai pemrograman yang sebenarnya:

  1. Python harus diinstal di sistem Anda
  2. Anda harus memiliki editor tempat Anda menulis kode python. Saya sarankan Anda menginstal Jupyter Notebook .
  3. Instal Pustaka Numpy dan Pandas sebelum memulai pengkodean.
  4. Poin terakhir tetapi yang paling penting adalah Anda harus memiliki rasa ingin tahu untuk melampaui batas penggunaan data. Keingintahuan adalah kuncinya!

Sekarang setelah Anda memiliki semua persyaratan yang sesuai, mari kita mulai perjalanan analisis data.

Menyiapkan ruang kerja

  • Buka notebook Jupyter Anda dan impor pernyataan berikut:
    • impor numpy sebagai np
    • impor panda sebagai pd
    • impor os
  • Jalankan sel dengan menekan Shift + Enter

Mengimpor Data

Lihat format file data Anda. Dan tambahkan kode yang sesuai:

Jika Anda memiliki file CSV, maka tulis kode berikut:

df = pd.read_csv(r“Actual_path_of_your_csv_file”)

Jika Anda memiliki file Excel, maka tulis kode berikut:

df = pd.read_excel(open(r“Actual_path_of_your_excel_file”, “rb”), sheet_name=“Name_of_sheet_which_you_want_to_import”)

Saya memiliki lembar excel, jadi saya menggunakan opsi kedua dalam contoh berikut.

Fungsi dasar untuk mengetahui tentang data

Sekarang Anda telah mengimpor data ke Python. Langkah selanjutnya adalah Anda perlu menerapkan sehingga Anda memiliki Bird Eye View dari data Anda.

Fungsi bentuk

Fungsi bentuk menunjukkan jumlah total baris dan kolom dalam file yang diimpor. Tulis df.shape di sel notebook Jupyter Anda dan jalankan sel dengan menekan Shift+Enter.

Jika Anda hanya tertarik pada Baris, tulis df.shape[0]

Jika Anda hanya tertarik pada Kolom, tulis df.shape[1]

Fungsi kepala

Jika Anda ingin melihat beberapa catatan teratas, Anda dapat menggunakan head(). Tulis df.head() di sel notebook Jupyter Anda dan jalankan sel dengan menekan Shift+Enter. Ini akan mengembalikan bingkai data dengan lima catatan teratas.

Jika Anda ingin melihat lebih dari 5 catatan, maka Anda dapat menyebutkan nomor dalam kurung bulat df.head(10) sekarang mengembalikan 10 catatan teratas.

Fungsi Ekor

Jika Anda ingin melihat beberapa catatan dari bawah, Anda dapat menggunakan tail() . Tulis df.tail() di sel notebook Jupyter Anda dan jalankan sel dengan menekan Shift+Enter . Ini akan mengembalikan bingkai data dengan lima catatan terbawah.

Jika Anda ingin melihat lebih dari lima record, maka Anda dapat menyebutkan nomor dalam kurung kurawal df.tail(10) ; sekarang, ia mengembalikan 10 catatan teratas.

Mendapatkan semua nama kolom

Jika Anda ingin mendapatkan nama semua kolom, maka Anda cukup menulis df.columns , dan itu akan mengembalikan nama semua kolom.

Mendapatkan kolom tertentu

Anda dapat mengekstrak kolom apa pun dengan menggunakan namanya. Setelah menerapkan kode di bawah ini yang akan mengembalikan Anda daftar nilai yang disimpan di kolom.

Sintaksis:

Dataframe[“Nama_kolom”]

Contoh:

df[“Nama Kandidat”]

Periksa tipe data kolom

Sekarang, seperti yang kita ketahui bahwa kita menyimpan data dalam kolom, dan kita ingin tahu tentang tipe data kolom sebelum menerapkan operasi apa pun di dalamnya. Jadi untuk itu, tuliskan kode berikut di sel Notebook Jupyter Anda:

Sintaksis:

Dataframe[“Column_name”].dtype()

Contoh:

df[“Usia Kandidat”].dtype()

Penggunaan fungsi penjumlahan

Jika Anda memiliki beberapa kolom numerik dalam data Anda dan Anda hanya ingin mengetahui Jumlahnya dengan menambahkan setiap nilai dari kolom tersebut, maka Anda dapat menggunakan fungsi sum() .

Sebelum menerapkan rumus ini pastikan tipe kolom bukan String

Sintaksis:

Dataframe[“Column_name”].sum()

Contoh:

df["Jumlah Suara Sah"].sum()

Dalam contoh berikut, saya menjumlahkan semua suara sah yang disurvei di 117 daerah pemilihan Punjab.

Menemukan rata-rata kolom tertentu

Jika Anda ingin menemukan rata-rata kolom maka Anda dapat menggunakan fungsi mean()

Sintaksis:

Dataframe[“Column_name”].mean()

Contoh:

df["Jumlah Suara Sah"].mean()

Dalam contoh berikut, saya mendapatkan suara rata-rata yang disurvei untuk setiap kandidat.

Menemukan nilai maksimum dalam kolom tertentu

Jika Anda ingin menemukan nilai maksimum kolom maka Anda dapat menggunakan fungsi max()

Sintaksis:

Dataframe[“Column_name”].max()

Contoh:

df["Jumlah Suara Sah"].max()

Dalam contoh berikut, saya mendapatkan jajak pendapat suara maksimum untuk kandidat.

Menemukan nilai minimum dalam kolom tertentu

Jika Anda ingin menemukan nilai minimum kolom maka Anda dapat menggunakan fungsi min()

Sintaksis:

Dataframe[“Column_name”].min()

Contoh:

df["Jumlah Suara Sah"].min()

Dalam contoh berikut, saya mendapatkan suara minimum yang disurvei untuk kandidat.

Cari simpangan baku kolom tertentu

Jika Anda ingin menemukan nilai minimum kolom maka Anda dapat menggunakan fungsi std()

Sintaksis:

Dataframe[“Nama_kolom”].std()

Contoh:

df["Jumlah Suara Sah"].std()

Fungsi String Dasar

Sekarang mari kita bahas beberapa fungsi string yang sangat berguna yang membantu dalam pekerjaan Anda sehari-hari. Namun sebelum menerapkan fungsi string tersebut, pastikan tipe kolomnya adalah String .

8 Alat pengoptimalan gambar terbaik untuk aplikasi web Anda

Mencari panjang String

Jika Anda ingin menemukan nilai minimum kolom maka Anda dapat menggunakan fungsi std()

Sintaksis:

Dataframe[“Column_name”].str.len()

Contoh:

df[“Nama Daerah Pemilihan”].str.len()

Ini akan mengembalikan daftar yang memiliki nilai numerik, dan nilai numerik ini mewakili panjang String yang sesuai. Anda dapat menambahkan daftar ini sebagai Kolom Baru jika Anda ingin menunjukkan panjang String dalam data Anda.

Kapitalisasi karakter pertama setiap kata

Seperti yang Anda ketahui bahwa kami tidak dapat memiliki fungsi Judul Kasus (Kapitalisasikan karakter pertama dari setiap kata) di excel tetapi python memilikinya. Jadi untuk itu gunakan fungsi title()

Sintaksis:

Dataframe[“Column_name”].str.title()

Contoh:

df[“Nama Kandidat”].str.title()

Huruf besar

Anda dapat menggunakan fungsi upper() untuk membuat karakter string menjadi huruf besar

Sintaksis:

Dataframe[“Column_name”].str.upper()

Contoh:

df[“Nama Kandidat”].str.upper()

Huruf kecil

Anda dapat menggunakan fungsi lower() untuk membuat karakter string menjadi huruf kecil

Sintaksis:

Dataframe[“Column_name”].str.lower()

Contoh:

df[“Nama Kandidat”].str.lower()

Mendapatkan catatan tertentu

Untuk mendapatkan catatan spesifik dari data Anda, Anda dapat mengonfirmasi bahwa data Anda memiliki setidaknya satu kolom yang memiliki nilai unik. Konsepnya mirip dengan kunci utama dalam SQL. Anda juga dapat mencampur beberapa kolom untuk mendapatkan catatan tertentu.

Seperti dalam contoh saya, saya mengekstrak catatan dengan menggunakan Nama Konstituen dan Nama Kandidat kode berikut:

df[(df["Nama Daerah Pemilihan"] == "Sultanpur Lodhi ") & (df["Nama Kandidat"] == "SAJJAN SINGH CHEEMA")]

Mendapatkan sekelompok catatan

Terkadang Anda mungkin ingin mengekstrak data yang termasuk dalam kategori yang sama. Seperti pada contoh berikut, saya ingin mengekstrak data untuk Konstituensi Sultanpur Lodhi , dan saya ingin nama Kandidat dalam kasus judul, dan kemudian saya akan mengekspor data ini sebagai sultapur-lodhi-2017.csv

Sekarang file sultapur-lodhi-2017.csv hanya berisi data dari Konstituensi Sultanpur Lodhi.

Membungkus

Jadi, di blog ini, Anda telah mempelajari beberapa fungsi dasar untuk menganalisis sejumlah besar data. Saya baru saja memberi Anda tur kecil analisis data dengan Python. Ada banyak hal yang terungkap dan ada untuk dijelajahi.

Untuk membaca lebih banyak blog, kunjungi www.webdew.com. Jika Anda mencari layanan desain web dan pengembangan web, tim web kami akan dengan senang hati memberikan apa yang Anda inginkan! Hubungi kami untuk mengetahui lebih banyak.

Editor: Amrutha