Jak obsługiwać duże ilości danych za pomocą Pythona: Szybki przewodnik
Opublikowany: 2022-06-12Wszyscy jesteśmy otoczeni danymi. Dane to magiczna rzecz, która rośnie tak samo, jak dwutlenek węgla w naszym środowisku, z tą różnicą, że jest dla nas dobry, a nie tak zły, jak rosnące globalne ocieplenie. Mówię to, ponieważ jeśli mamy ogromną ilość danych, to w przyszłości będziemy mogli podejmować lepsze decyzje.
Wszyscy codziennie generujemy nowe dane, polubienia czyjegoś posta lub skomentowanie jego posta, albo gdy prześlemy nowy post do dowolnego serwisu społecznościowego.
W dzisiejszych czasach firmy są bardzo wrażliwe na dane, ponieważ zbieranie, przechowywanie, przetwarzanie i analizowanie danych jest niezbędne do podejmowania lepszych decyzji. Każda firma musi poważnie traktować tworzenie stron internetowych, ponieważ wszystko jest online w teraźniejszości i będzie w przyszłym świecie.
Jest tak wiele narzędzi i języków programowania, które pomagają nam wykonać powyższe zadania. Excel to potężne narzędzie arkusza kalkulacyjnego do przeprowadzania analiz danych.
Ale ma tak wiele ograniczeń, jeśli chodzi o radzenie sobie z ogromną ilością danych. Większość firm używa skryptów EXCEL + VBA do wykonywania skomplikowanych obliczeń, ale ma to również różne ograniczenia.
Dlatego analitycy danych zawsze starają się stosować nowe sposoby, które pomagają im przyspieszyć pracę i generować analizy jakościowe. W tym celu analitycy danych używają języków programowania, które są znacznie bardziej wydajne niż jakiekolwiek inne narzędzie do arkuszy kalkulacyjnych. Python i R to najbardziej preferowane języki programowania do analizy danych.
W tym blogu nie będę mówił o języku programowania R, ale zbadamy moc Pythona. Na tym blogu poznasz całą koncepcję na przykładzie z życia wziętego.
Wymagania do rozpoczęcia programowania
Czego będziesz potrzebować przed rozpoczęciem właściwego programowania:
- Python powinien być zainstalowany w twoim systemie
- Powinieneś mieć edytor, w którym piszesz kod Pythona. Proponuję zainstalować Jupyter Notebook .
- Zainstaluj Numpy i Pandas Library przed rozpoczęciem kodowania.
- Ostatnią, ale najważniejszą kwestią jest to, że powinieneś mieć ciekawość, aby wyjść poza granice korzystania z danych. Ciekawość jest kluczem!
Teraz, gdy masz już wszystkie wymagania, zacznijmy przygodę z analizą danych.
Konfiguracja przestrzeni roboczej
- Otwórz notatnik Jupyter i zaimportuj następujące wyciągi:
- importuj numer jako np
- importuj pandy jako PD
- importuj system
- Uruchom komórkę, naciskając Shift + Enter
Importowanie danych
Wyświetl format pliku swoich danych. I odpowiednio dodaj kod:
Jeśli masz plik CSV, napisz następujący kod:
df = pd.odczyt_csv(r„Rzeczywista_ścieżka_pliku_csv”)
Jeśli masz plik Excel, napisz następujący kod:
df = pd.read_excel(otwórz(r"Rzeczywista_ścieżka_do_pliku_excel", "rb"), sheet_name="Nazwa_arkusza_którego_chcesz_zaimportować")
Mam arkusz Excela, więc użyłem drugiej opcji w poniższym przykładzie.
Podstawowe funkcje, które trzeba wiedzieć o danych
Teraz zaimportowałeś dane do Pythona. Następnym krokiem jest to, że musisz złożyć wniosek, aby mieć widok z lotu ptaka swoich danych.
Funkcja kształtu
Funkcja kształtu pokazuje całkowitą liczbę wierszy i kolumn w importowanym pliku. Napisz df.shape w komórce notatnika Jupyter i uruchom komórkę, naciskając Shift + Enter.
Jeśli interesują Cię tylko wiersze, napisz df.shape[0]
Jeśli interesują Cię tylko kolumny, napisz df.shape[1]
Funkcja głowy
Jeśli chcesz zobaczyć kilka pierwszych rekordów, możesz użyć head(). Napisz df.head() w komórce notatnika Jupyter i uruchom komórkę, naciskając Shift + Enter. Zwróci ramkę danych z pierwszymi pięcioma rekordami.
Jeśli chcesz zobaczyć więcej niż 5 rekordów, możesz podać liczbę w nawiasach okrągłych df.head(10) teraz zwraca 10 najlepszych rekordów.
Funkcja ogona
Jeśli chcesz zobaczyć kilka rekordów od dołu, możesz użyć tail() . Napisz df.tail() w komórce notatnika Jupyter i uruchom komórkę, naciskając klawisze Shift+Enter . Zwróci ramkę danych z dolnymi pięcioma rekordami.
Jeśli chcesz zobaczyć więcej niż pięć rekordów, możesz podać liczbę w nawiasach okrągłych df.tail(10) ; teraz zwraca 10 najlepszych rekordów.
Pobieranie wszystkich nazw kolumn
Jeśli chcesz uzyskać nazwy wszystkich kolumn, po prostu napisz df.columns , a zwróci nazwę wszystkich kolumn.
Uzyskanie konkretnej kolumny
Możesz wyodrębnić dowolną kolumnę, używając jej nazwy. Po zastosowaniu poniższego kodu, który zwróci Ci listę wartości, które są przechowywane w kolumnie.
Składnia:
Ramka danych[„Nazwa_kolumny”]
Przykład:
df[„Nazwisko kandydata”]
Sprawdź typ danych kolumny
Teraz, gdy wiemy, że przechowujemy dane w kolumnach, będziemy ciekawi, jaki typ danych ma kolumna przed zastosowaniem na niej jakichkolwiek operacji. W tym celu napisz następujący kod w komórce Jupyter Notebook:

Składnia:
Dataframe[„Nazwa_kolumny”].dtype()
Przykład:
df[„Wiek kandydata”].dtype()
Użycie funkcji sumy
Jeśli masz w swoich danych kilka kolumn liczbowych i chcesz po prostu poznać Sumę, dodając każdą wartość tej konkretnej kolumny, możesz użyć funkcji sum() .
Przed zastosowaniem tej formuły upewnij się, że typ kolumny nie jest typu String
Składnia:
Dataframe[„Nazwa_kolumny”].sum()
Przykład:
df[" Całkowita liczba ważnych głosów"].sum()
W poniższym przykładzie podsumowuję wszystkie ważne głosy, które zostały oddane w 117 okręgach wyborczych Pendżabu.
Znalezienie średniej z danej kolumny
Jeśli chcesz znaleźć średnią kolumny, możesz użyć funkcji mean()
Składnia:
Dataframe[„Nazwa_kolumny”].średnia()
Przykład:
df[" Całkowita liczba ważnych głosów"].mean()
W poniższym przykładzie otrzymałem średnią głosów, które są odpytywane na każdego kandydata.
Znalezienie maksymalnej wartości w określonej kolumnie
Jeśli chcesz znaleźć maksymalną wartość kolumny, możesz użyć funkcji max()
Składnia:
Dataframe[„Nazwa_kolumny”].max()
Przykład:
df[" Całkowita liczba ważnych głosów"].max()
W poniższym przykładzie otrzymałem maksymalną ankietę głosów na kandydata.
Znalezienie minimalnej wartości w konkretnej kolumnie
Jeśli chcesz znaleźć minimalną wartość kolumny, możesz użyć funkcji min()
Składnia:
Dataframe[„Nazwa_kolumny”].min()
Przykład:
df[" Całkowita liczba ważnych głosów"].min()
W poniższym przykładzie otrzymałem minimalną liczbę głosów oddanych na kandydata.
Znajdź odchylenie standardowe konkretnej kolumny
Jeśli chcesz znaleźć minimalną wartość kolumny, możesz użyć funkcji std()
Składnia:
Dataframe[„Nazwa_kolumny”].std()
Przykład:
df[" Całkowita liczba ważnych głosów"].std()
Podstawowe funkcje ciągów
Omówmy teraz kilka bardzo przydatnych funkcji łańcuchowych, które są pomocne w Twojej codziennej pracy. Ale przed zastosowaniem tych funkcji ciągów upewnij się, że typ kolumny to String .
Znalezienie długości sznurka
Jeśli chcesz znaleźć minimalną wartość kolumny, możesz użyć funkcji std()
Składnia:
Dataframe[„Nazwa_kolumny”].str.len()
Przykład:
df[„Nazwa okręgu”].str.len()
Zwróci listę, która ma wartości liczbowe, a te wartości liczbowe reprezentują długość odpowiedniego ciągu. Możesz dodać tę listę jako nową kolumnę , jeśli chcesz pokazać długość ciągu w swoich danych.
Wielkie litery pierwszego znaku każdego słowa
Jak wiecie, nie możemy mieć funkcji Title Case (pierwszy znak każdego słowa wielką literą) w programie Excel, ale python ma. Więc do tego użyj funkcji title()
Składnia:
Dataframe[„Nazwa_kolumny”].str.title()
Przykład:
df[„Nazwa kandydata”].str.title()
Duże litery
Możesz użyć funkcji upper(), aby zrobić wielkie litery w ciągu znaków
Składnia:
Dataframe[„Nazwa_kolumny”].str.upper()
Przykład:
df[„Nazwa kandydata”].str.upper()
Małe litery
Możesz użyć funkcji lower(), aby w ciągu znaków zamienić małe litery
Składnia:
Dataframe[„Nazwa_kolumny”].str.lower()
Przykład:
df[„Nazwa kandydata”].str.lower()
Uzyskanie konkretnego rekordu
Aby uzyskać konkretny rekord ze swoich danych, możesz potwierdzić, że Twoje dane mają co najmniej jedną kolumnę, która ma unikalną wartość. Koncepcja jest podobna do klucza podstawowego w SQL. Możesz także mieszać wiele kolumn, aby uzyskać konkretny rekord.
Podobnie jak w moim przykładzie, wyodrębniam rekordy, używając nazwy okręgu i nazwy kandydata następującym kodem:
df[(df["Nazwa okręgu"] == "Sultanpur Lodhi ") & (df["Nazwa kandydata"] == "SAJJAN SINGH CHEEMA")]
Uzyskiwanie grupy rekordów
Czasami możesz chcieć wyodrębnić dane należące do tej samej kategorii. Podobnie jak w poniższym przykładzie, chcę wyodrębnić dane dla okręgu Sultanpur Lodhi i chcę, aby nazwy kandydatów były w tytule, a następnie wyeksportuję te dane jako sultapur-lodhi-2017.csv
Teraz plik sultapur-lodhi-2017.csv zawiera dane tylko z okręgu Sultanpur Lodhi.
Zawijanie
Na tym blogu poznałeś podstawowe funkcje do analizy ogromnej ilości danych. Właśnie zrobiłem krótką wycieczkę po analizie danych w Pythonie. Jest mnóstwo rzeczy, które są odkryte i są do odkrycia.
Aby przeczytać więcej blogów, odwiedź www.webdew.com. Jeśli szukasz usług związanych z projektowaniem i tworzeniem stron internetowych, nasz zespół internetowy z przyjemnością zapewni Ci to, czego chcesz! Skontaktuj się z nami, aby dowiedzieć się więcej.
Redaktor: Amrutha