Jak obsługiwać duże ilości danych za pomocą Pythona: Szybki przewodnik

Opublikowany: 2022-06-12

Wszyscy jesteśmy otoczeni danymi. Dane to magiczna rzecz, która rośnie tak samo, jak dwutlenek węgla w naszym środowisku, z tą różnicą, że jest dla nas dobry, a nie tak zły, jak rosnące globalne ocieplenie. Mówię to, ponieważ jeśli mamy ogromną ilość danych, to w przyszłości będziemy mogli podejmować lepsze decyzje.

12 podstawowych wskazówek, jak stworzyć stronę docelową WordPress jak profesjonalista

Wszyscy codziennie generujemy nowe dane, polubienia czyjegoś posta lub skomentowanie jego posta, albo gdy prześlemy nowy post do dowolnego serwisu społecznościowego.

W dzisiejszych czasach firmy są bardzo wrażliwe na dane, ponieważ zbieranie, przechowywanie, przetwarzanie i analizowanie danych jest niezbędne do podejmowania lepszych decyzji. Każda firma musi poważnie traktować tworzenie stron internetowych, ponieważ wszystko jest online w teraźniejszości i będzie w przyszłym świecie.

Jest tak wiele narzędzi i języków programowania, które pomagają nam wykonać powyższe zadania. Excel to potężne narzędzie arkusza kalkulacyjnego do przeprowadzania analiz danych.

Ale ma tak wiele ograniczeń, jeśli chodzi o radzenie sobie z ogromną ilością danych. Większość firm używa skryptów EXCEL + VBA do wykonywania skomplikowanych obliczeń, ale ma to również różne ograniczenia.

Dlatego analitycy danych zawsze starają się stosować nowe sposoby, które pomagają im przyspieszyć pracę i generować analizy jakościowe. W tym celu analitycy danych używają języków programowania, które są znacznie bardziej wydajne niż jakiekolwiek inne narzędzie do arkuszy kalkulacyjnych. Python i R to najbardziej preferowane języki programowania do analizy danych.

W tym blogu nie będę mówił o języku programowania R, ale zbadamy moc Pythona. Na tym blogu poznasz całą koncepcję na przykładzie z życia wziętego.

Wymagania do rozpoczęcia programowania

Czego będziesz potrzebować przed rozpoczęciem właściwego programowania:

  1. Python powinien być zainstalowany w twoim systemie
  2. Powinieneś mieć edytor, w którym piszesz kod Pythona. Proponuję zainstalować Jupyter Notebook .
  3. Zainstaluj Numpy i Pandas Library przed rozpoczęciem kodowania.
  4. Ostatnią, ale najważniejszą kwestią jest to, że powinieneś mieć ciekawość, aby wyjść poza granice korzystania z danych. Ciekawość jest kluczem!

Teraz, gdy masz już wszystkie wymagania, zacznijmy przygodę z analizą danych.

Konfiguracja przestrzeni roboczej

  • Otwórz notatnik Jupyter i zaimportuj następujące wyciągi:
    • importuj numer jako np
    • importuj pandy jako PD
    • importuj system
  • Uruchom komórkę, naciskając Shift + Enter

Importowanie danych

Wyświetl format pliku swoich danych. I odpowiednio dodaj kod:

Jeśli masz plik CSV, napisz następujący kod:

df = pd.odczyt_csv(r„Rzeczywista_ścieżka_pliku_csv”)

Jeśli masz plik Excel, napisz następujący kod:

df = pd.read_excel(otwórz(r"Rzeczywista_ścieżka_do_pliku_excel", "rb"), sheet_name="Nazwa_arkusza_którego_chcesz_zaimportować")

Mam arkusz Excela, więc użyłem drugiej opcji w poniższym przykładzie.

Podstawowe funkcje, które trzeba wiedzieć o danych

Teraz zaimportowałeś dane do Pythona. Następnym krokiem jest to, że musisz złożyć wniosek, aby mieć widok z lotu ptaka swoich danych.

Funkcja kształtu

Funkcja kształtu pokazuje całkowitą liczbę wierszy i kolumn w importowanym pliku. Napisz df.shape w komórce notatnika Jupyter i uruchom komórkę, naciskając Shift + Enter.

Jeśli interesują Cię tylko wiersze, napisz df.shape[0]

Jeśli interesują Cię tylko kolumny, napisz df.shape[1]

Funkcja głowy

Jeśli chcesz zobaczyć kilka pierwszych rekordów, możesz użyć head(). Napisz df.head() w komórce notatnika Jupyter i uruchom komórkę, naciskając Shift + Enter. Zwróci ramkę danych z pierwszymi pięcioma rekordami.

Jeśli chcesz zobaczyć więcej niż 5 rekordów, możesz podać liczbę w nawiasach okrągłych df.head(10) teraz zwraca 10 najlepszych rekordów.

Funkcja ogona

Jeśli chcesz zobaczyć kilka rekordów od dołu, możesz użyć tail() . Napisz df.tail() w komórce notatnika Jupyter i uruchom komórkę, naciskając klawisze Shift+Enter . Zwróci ramkę danych z dolnymi pięcioma rekordami.

Jeśli chcesz zobaczyć więcej niż pięć rekordów, możesz podać liczbę w nawiasach okrągłych df.tail(10) ; teraz zwraca 10 najlepszych rekordów.

Pobieranie wszystkich nazw kolumn

Jeśli chcesz uzyskać nazwy wszystkich kolumn, po prostu napisz df.columns , a zwróci nazwę wszystkich kolumn.

Uzyskanie konkretnej kolumny

Możesz wyodrębnić dowolną kolumnę, używając jej nazwy. Po zastosowaniu poniższego kodu, który zwróci Ci listę wartości, które są przechowywane w kolumnie.

Składnia:

Ramka danych[„Nazwa_kolumny”]

Przykład:

df[„Nazwisko kandydata”]

Sprawdź typ danych kolumny

Teraz, gdy wiemy, że przechowujemy dane w kolumnach, będziemy ciekawi, jaki typ danych ma kolumna przed zastosowaniem na niej jakichkolwiek operacji. W tym celu napisz następujący kod w komórce Jupyter Notebook:

Składnia:

Dataframe[„Nazwa_kolumny”].dtype()

Przykład:

df[„Wiek kandydata”].dtype()

Użycie funkcji sumy

Jeśli masz w swoich danych kilka kolumn liczbowych i chcesz po prostu poznać Sumę, dodając każdą wartość tej konkretnej kolumny, możesz użyć funkcji sum() .

Przed zastosowaniem tej formuły upewnij się, że typ kolumny nie jest typu String

Składnia:

Dataframe[„Nazwa_kolumny”].sum()

Przykład:

df[" Całkowita liczba ważnych głosów"].sum()

W poniższym przykładzie podsumowuję wszystkie ważne głosy, które zostały oddane w 117 okręgach wyborczych Pendżabu.

Znalezienie średniej z danej kolumny

Jeśli chcesz znaleźć średnią kolumny, możesz użyć funkcji mean()

Składnia:

Dataframe[„Nazwa_kolumny”].średnia()

Przykład:

df[" Całkowita liczba ważnych głosów"].mean()

W poniższym przykładzie otrzymałem średnią głosów, które są odpytywane na każdego kandydata.

Znalezienie maksymalnej wartości w określonej kolumnie

Jeśli chcesz znaleźć maksymalną wartość kolumny, możesz użyć funkcji max()

Składnia:

Dataframe[„Nazwa_kolumny”].max()

Przykład:

df[" Całkowita liczba ważnych głosów"].max()

W poniższym przykładzie otrzymałem maksymalną ankietę głosów na kandydata.

Znalezienie minimalnej wartości w konkretnej kolumnie

Jeśli chcesz znaleźć minimalną wartość kolumny, możesz użyć funkcji min()

Składnia:

Dataframe[„Nazwa_kolumny”].min()

Przykład:

df[" Całkowita liczba ważnych głosów"].min()

W poniższym przykładzie otrzymałem minimalną liczbę głosów oddanych na kandydata.

Znajdź odchylenie standardowe konkretnej kolumny

Jeśli chcesz znaleźć minimalną wartość kolumny, możesz użyć funkcji std()

Składnia:

Dataframe[„Nazwa_kolumny”].std()

Przykład:

df[" Całkowita liczba ważnych głosów"].std()

Podstawowe funkcje ciągów

Omówmy teraz kilka bardzo przydatnych funkcji łańcuchowych, które są pomocne w Twojej codziennej pracy. Ale przed zastosowaniem tych funkcji ciągów upewnij się, że typ kolumny to String .

8 najlepszych narzędzi do optymalizacji obrazu dla Twojej aplikacji internetowej

Znalezienie długości sznurka

Jeśli chcesz znaleźć minimalną wartość kolumny, możesz użyć funkcji std()

Składnia:

Dataframe[„Nazwa_kolumny”].str.len()

Przykład:

df[„Nazwa okręgu”].str.len()

Zwróci listę, która ma wartości liczbowe, a te wartości liczbowe reprezentują długość odpowiedniego ciągu. Możesz dodać tę listę jako nową kolumnę , jeśli chcesz pokazać długość ciągu w swoich danych.

Wielkie litery pierwszego znaku każdego słowa

Jak wiecie, nie możemy mieć funkcji Title Case (pierwszy znak każdego słowa wielką literą) w programie Excel, ale python ma. Więc do tego użyj funkcji title()

Składnia:

Dataframe[„Nazwa_kolumny”].str.title()

Przykład:

df[„Nazwa kandydata”].str.title()

Duże litery

Możesz użyć funkcji upper(), aby zrobić wielkie litery w ciągu znaków

Składnia:

Dataframe[„Nazwa_kolumny”].str.upper()

Przykład:

df[„Nazwa kandydata”].str.upper()

Małe litery

Możesz użyć funkcji lower(), aby w ciągu znaków zamienić małe litery

Składnia:

Dataframe[„Nazwa_kolumny”].str.lower()

Przykład:

df[„Nazwa kandydata”].str.lower()

Uzyskanie konkretnego rekordu

Aby uzyskać konkretny rekord ze swoich danych, możesz potwierdzić, że Twoje dane mają co najmniej jedną kolumnę, która ma unikalną wartość. Koncepcja jest podobna do klucza podstawowego w SQL. Możesz także mieszać wiele kolumn, aby uzyskać konkretny rekord.

Podobnie jak w moim przykładzie, wyodrębniam rekordy, używając nazwy okręgu i nazwy kandydata następującym kodem:

df[(df["Nazwa okręgu"] == "Sultanpur Lodhi ") & (df["Nazwa kandydata"] == "SAJJAN SINGH CHEEMA")]

Uzyskiwanie grupy rekordów

Czasami możesz chcieć wyodrębnić dane należące do tej samej kategorii. Podobnie jak w poniższym przykładzie, chcę wyodrębnić dane dla okręgu Sultanpur Lodhi i chcę, aby nazwy kandydatów były w tytule, a następnie wyeksportuję te dane jako sultapur-lodhi-2017.csv

Teraz plik sultapur-lodhi-2017.csv zawiera dane tylko z okręgu Sultanpur Lodhi.

Zawijanie

Na tym blogu poznałeś podstawowe funkcje do analizy ogromnej ilości danych. Właśnie zrobiłem krótką wycieczkę po analizie danych w Pythonie. Jest mnóstwo rzeczy, które są odkryte i są do odkrycia.

Aby przeczytać więcej blogów, odwiedź www.webdew.com. Jeśli szukasz usług związanych z projektowaniem i tworzeniem stron internetowych, nasz zespół internetowy z przyjemnością zapewni Ci to, czego chcesz! Skontaktuj się z nami, aby dowiedzieć się więcej.

Redaktor: Amrutha