Python kullanarak büyük miktarda veri nasıl işlenir: Hızlı bir kılavuz
Yayınlanan: 2022-06-12Hepimiz verilerle çevriliyiz. Veriler, tıpkı Karbondioksitin çevremizde büyüdüğü gibi büyüyen sihirli bir şeydir, şu farkla ki, büyüyen küresel ısınma kadar kötü değil, bizim için iyidir. Bunu söylüyorum çünkü elimizde çok büyük miktarda veri varsa, gelecekte daha iyi kararlar alma gücüne sahip olacağız.
Birinin gönderisini beğenerek veya diğerinin gönderisine yorum yaparak ya da herhangi bir sosyal siteye yeni bir gönderi yüklediğimizde hepimiz her gün yeni veriler üretiyoruz.
Verilerin toplanması, saklanması, işlenmesi ve analiz edilmesi daha iyi kararlar almak için hayati önem taşıdığından, günümüzde şirketler veriler konusunda çok hassastır. Her şey şu anda çevrimiçi olduğundan ve geleceğin dünyasında olacağından, her şirket web geliştirmeyi ciddiye almak zorundadır.
Yukarıda bahsedilen görevleri yapmamıza yardımcı olan pek çok araç ve programlama dili vardır. Excel, veri analizleri yapmak için güçlü bir elektronik tablo aracıdır.
Ancak konu çok büyük miktarda veriyle uğraşmaya geldiğinde çok fazla sınırlaması var. Çoğu şirket, bazı karmaşık hesaplamalar yapmak için EXCEL + VBA Komut Dosyası kullanır, ancak bunun da çeşitli sınırlamaları vardır.
Bu nedenle veri analistleri her zaman işlerini hızlandırmalarına ve kaliteli analizler üretmelerine yardımcı olacak yeni yollar benimsemeye çalışırlar. Bunu yapmak için veri analistleri, diğer elektronik tablo araçlarından çok daha güçlü olan Programlama dillerini kullanır. Python ve R, veri analizi yapmak için en çok tercih edilen programlama dilleridir.
Bu blogda R programlama dilinden bahsetmeyeceğim ancak Python'un gücünü keşfedeceğiz. Bu blog aracılığıyla gerçek hayattan bir örnek kullanarak tüm konsepti öğreneceksiniz.
Programlamaya başlamak için gereksinimler
Gerçek programlamaya başlamadan önce ihtiyacınız olacak:
- Python sisteminizde kurulu olmalıdır
- Python kodunu yazdığınız bir editörünüz olmalıdır. Jupyter Notebook kurmanızı öneririm.
- Kodlamaya başlamadan önce Numpy ve Pandas Library'yi kurun.
- Son fakat en önemli nokta, veriyi kullanmanın sınırlarını aşma merakına sahip olmanızdır. Merak esastır!
Artık tüm gereksinimleriniz uyumlu olduğuna göre, veri analizi yolculuğuna başlayalım.
Çalışma alanını ayarlama
- Jupyter not defterinizi açın ve aşağıdaki ifadeleri içe aktarın:
- numpy'yi np olarak içe aktar
- pandaları pd olarak içe aktar
- işletim sistemini içe aktar
- Shift + Enter tuşlarına basarak hücreyi yürütün
Verileri İçe Aktarma
Verilerinizin dosya biçimini görüntüleyin. Ve buna göre kod ekleyin:
Bir CSV dosyanız varsa, aşağıdaki kodu yazın:
df = pd.read_csv(r“Actual_path_of_your_csv_file”)
Bir Excel dosyanız varsa, aşağıdaki kodu yazın:
df = pd.read_excel(open(r“Excel_dosyanızın Gerçek_yolu”, “rb”), sayfa_adı=“Adı_sayfa_hangisi_you_want_to_import”)
Bir excel sayfam var, bu yüzden aşağıdaki örnekte ikinci seçeneği kullandım.
Veriler hakkında bilinmesi gereken temel işlevler
Artık verileri Python'a aktardınız. Bir sonraki adım, verilerinizin Kuş Bakışı Görünümüne sahip olmanız için başvurmanız gerektiğidir.
şekil fonksiyonu
Şekil işlevi, içe aktarılan dosyanızdaki toplam satır ve sütun sayısını gösterir. Jupyter not defteri hücrenize df.shape yazın ve Shift+Enter tuşlarına basarak hücreyi çalıştırın.
Yalnızca Satırlar ile ilgileniyorsanız, df.shape[0] yazın
Yalnızca Sütunlarla ilgileniyorsanız, df.shape[1] yazın
kafa fonksiyonu
İlk birkaç kaydı görmek istiyorsanız, head()'i kullanabilirsiniz. Jupyter not defteri hücrenize df.head() yazın ve Shift+Enter tuşlarına basarak hücreyi çalıştırın. İlk beş kaydı içeren bir veri çerçevesi döndürür.
5'ten fazla kayıt görmek istiyorsanız, sayıyı yuvarlak parantez içinde belirtebilirsiniz df.head(10) şimdi ilk 10 kaydı döndürüyor.
Kuyruk Fonksiyonu
Alttan birkaç kaydı görmek istiyorsanız, tail() öğesini kullanabilirsiniz. Jupyter not defteri hücrenize df.tail() yazın ve Shift+Enter tuşlarına basarak hücreyi çalıştırın. En alttaki beş kaydı içeren bir veri çerçevesi döndürür.
Beşten fazla kayıt görmek istiyorsanız, sayıyı yuvarlak parantez içinde belirtebilirsiniz df.tail(10) ; şimdi, ilk 10 kaydı döndürür.
Tüm sütun adlarını alma
Tüm sütunların adlarını almak istiyorsanız, df.columns yazmanız yeterlidir ve tüm sütun adını döndürür.
Belirli sütunu alma
Adını kullanarak herhangi bir sütunu çıkarabilirsiniz. Aşağıdaki kodu uyguladıktan sonra, sütunda saklanan değerlerin bir listesini size döndürecektir.
Sözdizimi:
Veri çerçevesi[“Sütun_adı”]
Örnek:
df[“Aday Adı”]
Sütunun veri türünü kontrol edin
Artık verileri sütunlarda depoladığımızı bildiğimize göre, sütun üzerinde herhangi bir işlem yapmadan önce sütunun veri türünü merak edeceğiz. Bunun için Jupyter Notebook hücrenize aşağıdaki kodu yazın:

Sözdizimi:
Veri çerçevesi[“Sütun_adı”].dtype()
Örnek:
df[“Aday Yaşı”].dtype()
toplam fonksiyonunun kullanımı
Verilerinizde bazı sayısal sütunlar varsa ve yalnızca o sütunun her değerini ekleyerek Toplamı bilmek istiyorsanız, o zaman sum() işlevini kullanabilirsiniz.
Bu formülü uygulamadan önce sütun türünün String olmadığından emin olun.
Sözdizimi:
Veri çerçevesi[“Sütun_adı”].sum()
Örnek:
df[" Toplam Geçerli Oy"].sum()
Aşağıdaki örnekte, Pencap'ın 117 seçim bölgesinde kullanılan tüm geçerli oyları özetliyorum.
Belirli bir sütunun ortalamasını bulma
Bir sütunun ortalamasını bulmak istiyorsanız, ortalama() işlevini kullanabilirsiniz.
Sözdizimi:
Veri çerçevesi[“Sütun_adı”].mean()
Örnek:
df[" Toplam Geçerli Oy"].mean()
Aşağıdaki örnekte, her aday için oylanan ortalama oyları aldım.
Belirli bir sütundaki maksimum değeri bulma
Bir sütunun maksimum değerini bulmak istiyorsanız max() işlevini kullanabilirsiniz.
Sözdizimi:
Veri çerçevesi[“Sütun_adı”].max()
Örnek:
df[" Toplam Geçerli Oy"].max()
Aşağıdaki örnekte, aday için maksimum oy anketini aldım.
Belirli bir sütundaki minimum değeri bulma
Bir sütunun minimum değerini bulmak istiyorsanız min() işlevini kullanabilirsiniz.
Sözdizimi:
Veri çerçevesi[“Sütun_adı”].min()
Örnek:
df[" Toplam Geçerli Oy"].min()
Aşağıdaki örnekte, aday için oylanan minimum oyu aldım.
Belirli bir sütunun standart sapmasını bulun
Bir sütunun minimum değerini bulmak istiyorsanız std() işlevini kullanabilirsiniz.
Sözdizimi:
Veri çerçevesi[“Sütun_adı”].std()
Örnek:
df[" Toplam Geçerli Oy"].std()
Temel Dize işlevleri
Şimdi günlük işinizde size yardımcı olacak bazı çok kullanışlı dizi fonksiyonlarını tartışalım. Ancak bu dize işlevlerini uygulamadan önce sütun türünün String olduğundan emin olun.
String uzunluğunu bulma
Bir sütunun minimum değerini bulmak istiyorsanız std() işlevini kullanabilirsiniz.
Sözdizimi:
Veri çerçevesi[“Sütun_adı”].str.len()
Örnek:
df[“Seçim Bölgesi Adı”].str.len()
Sayısal değerleri olan listeyi döndürür ve bu sayısal değerler karşılık gelen String'in uzunluğunu temsil eder. Verilerinizde Dize'nin uzunluğunu göstermek istiyorsanız bu listeyi Yeni Sütun olarak ekleyebilirsiniz.
Her kelimenin ilk karakterini büyük harf yapmak
Bildiğiniz gibi Excel'de Title Case(Her kelimenin ilk karakterini büyük harf yap) fonksiyonuna sahip değiliz ama python'da var. Bunun için title() işlevini kullanın
Sözdizimi:
Veri çerçevesi[“Sütun_adı”].str.title()
Örnek:
df[“Aday Adı”].str.title()
büyük harf
Bir dize karakterlerini büyük harf yapmak için üst() işlevini kullanabilirsiniz.
Sözdizimi:
Veri çerçevesi[“Sütun_adı”].str.upper()
Örnek:
df[“Aday Adı”].str.upper()
küçük harf
Dize karakterlerini küçük harf yapmak için alt() işlevini kullanabilirsiniz.
Sözdizimi:
Veri çerçevesi[“Sütun_adı”].str.lower()
Örnek:
df[“Aday Adı”].str.lower()
Özel kayıt alma
Verilerinizden belirli bir kaydı almak için, verilerinizin benzersiz bir değere sahip en az bir sütunu olduğunu onaylayabilirsiniz. Kavram, SQL'deki Birincil anahtara benzer. Belirli bir kaydı elde etmek için birden çok sütunu da karıştırabilirsiniz.
Örneğimde olduğu gibi, aşağıdaki kodu Seçim Bölgesi Adı ve Aday Adını kullanarak kayıtları çıkarıyorum:
df[(df["Seçim Bölgesi Adı"] == "Sultanpur Lodhi ") & (df["Aday Adı"] == "SAJJAN SINGH CHEEMA")]
Bir grup kayıt alma
Bazen aynı kategoriye ait verileri çıkarmak isteyebilirsiniz. Aşağıdaki örnekte olduğu gibi, Sultanpur Lodhi Constituency için verileri çıkarmak istiyorum ve başlık durumunda Aday adlarını istiyorum ve ardından bu verileri sultapur-lodhi-2017.csv olarak dışa aktaracağım.
Artık sultapur-lodhi-2017.csv dosyası sadece Sultanpur Lodhi Constituency'den veri içeriyor.
toparlamak
Bu blogda, büyük miktarda veriyi analiz etmek için bazı temel işlevleri öğrendiniz. Size Python'da küçük bir veri analizi turu verdim. Keşfedilecek ve keşfedilecek tonlarca şey var.
Daha fazla blog okumak için www.webdew.com adresini ziyaret edin. Web tasarımı ve web geliştirme hizmetleri arıyorsanız, web ekibimiz size istediğinizi vermekten heyecan duyacaktır! Daha fazla bilgi için bizimle iletişime geçin.
Editör: Amrutha