Как обрабатывать большие объемы данных с помощью Python: краткое руководство

Опубликовано: 2022-06-12

Мы все окружены данными. Данные — это волшебная вещь, которая растет точно так же, как растет углекислый газ в нашей среде, с той разницей, что это хорошо для нас, а не так плохо, как растущее глобальное потепление. Я говорю это потому, что если у нас будет огромное количество данных, у нас будет возможность принимать лучшие решения в будущем.

12 важных советов, как создать целевую страницу WordPress как профессионал

Мы все генерируем новые данные каждый день, либо лайкая чью-то публикацию, либо комментируя чужую публикацию, либо загружая новую публикацию на любой социальный сайт.

В настоящее время компании очень чувствительны к данным, так как сбор, хранение, обработка и анализ данных жизненно важны для принятия правильных решений. Каждая компания должна серьезно относиться к веб-разработке, поскольку в настоящее время все находится в сети и будет в будущем.

Существует так много инструментов и языков программирования, которые помогают нам выполнять вышеупомянутые задачи. Excel — мощный инструмент для работы с электронными таблицами для анализа данных.

Но у него так много ограничений, когда дело доходит до работы с огромным объемом данных. Большинство компаний используют сценарии EXCEL + VBA для выполнения некоторых сложных вычислений, но они также имеют различные ограничения.

Поэтому аналитики данных всегда стараются осваивать новые способы, которые помогают им ускорить работу и проводить качественный анализ. Для этого аналитики данных используют языки программирования, которые намного мощнее, чем любой другой инструмент для работы с электронными таблицами. Python и R являются наиболее предпочтительными языками программирования для анализа данных.

В этом блоге я не буду говорить о языке программирования R, но мы будем исследовать мощь Python. Вы узнаете всю концепцию, используя реальный пример в этом блоге.

Требования для начала программирования

Что вам потребуется перед началом фактического программирования:

Python должен быть установлен в вашей системе
У вас должен быть редактор, в котором вы пишете код Python. Я предлагаю вам установить Jupyter Notebook .
Установите Numpy и библиотеку Pandas перед началом кодирования.
Последний, но самый важный момент заключается в том, что у вас должно быть любопытство выйти за пределы использования данных. Любопытство является ключевым!

Теперь, когда вы согласовали все требования, давайте начнем анализ данных.

Настройка рабочего пространства

Откройте блокнот Jupyter и импортируйте следующие операторы:

импортировать numpy как np
импортировать панд как pd
импорт ОС

Выполните ячейку, нажав Shift + Enter

Импорт данных

Просмотрите формат файла ваших данных. И добавьте соответствующий код:

Если у вас есть CSV-файл, напишите следующий код:

df = pd.read_csv(r"Фактический_путь_вашего_csv_файла")

Если у вас есть файл Excel, напишите следующий код:

df = pd.read_excel(open(r"Фактический_путь_к_вашему_файлу_excel", "rb"), sheet_name="Имя_листа, который_вы_хотите_импортировать")

У меня есть лист Excel, поэтому я использовал второй вариант в следующем примере.

Основные функции, которые нужно знать о данных

Теперь вы импортировали данные в Python. Следующим шагом является то, что вам нужно подать заявку, чтобы у вас был вид с высоты птичьего полета ваших данных.

Функция формы

Функция формы показывает общее количество строк и столбцов в импортированном файле. Напишите df.shape в ячейке блокнота Jupyter и выполните ячейку, нажав Shift+Enter.

Если вас интересуют только строки, напишите df.shape[0]

Если вас интересуют только столбцы, напишите df.shape[1]

Головная функция

Если вы хотите увидеть первые несколько записей, вы можете использовать функцию head(). Напишите df.head() в ячейке блокнота Jupyter и выполните ячейку, нажав Shift+Enter. Он вернет фрейм данных с пятью верхними записями.

Если вы хотите увидеть более 5 записей, вы можете указать число в круглых скобках df.head(10), теперь оно возвращает первые 10 записей.

Функция хвоста

Если вы хотите увидеть несколько записей снизу, вы можете использовать tail() . Напишите df.tail() в ячейке блокнота Jupyter и выполните ячейку, нажав Shift+Enter . Он вернет фрейм данных с пятью нижними записями.

Если вы хотите увидеть более пяти записей, вы можете указать число в круглых скобках df.tail(10) ; теперь он возвращает первые 10 записей.

Получение всех имен столбцов

Если вы хотите получить имена всех столбцов, просто напишите df.columns , и он вернет все имена столбцов.

Получение определенного столбца

Вы можете извлечь любой столбец, используя его имя. После применения приведенного ниже кода вы получите список значений, хранящихся в столбце.

Синтаксис:

Фрейм данных["Имя_столбца"]

Пример:

df["Имя кандидата"]

Проверьте тип данных столбца

Теперь, когда мы знаем, что мы храним данные в столбцах, нам будет любопытно узнать о типе данных столбца, прежде чем применять к нему какие-либо операции. Для этого напишите следующий код в ячейке Jupyter Notebook:

Синтаксис:

Кадр данных["Имя_столбца"].dtype()

Пример:

df["Возраст кандидата"].dtype()

Использование функции суммы

Если у вас есть несколько числовых столбцов в ваших данных, и вы просто хотите узнать сумму, добавив каждое значение этого конкретного столбца, вы можете использовать функцию sum() .

Перед применением этой формулы убедитесь, что тип столбца не String

Синтаксис:

Кадр данных["Имя_столбца"].sum()

Пример:

df[" Всего действительных голосов"].sum()

В следующем примере я суммирую все действительные голоса, полученные в 117 избирательных округах Пенджаба.

Нахождение среднего значения определенного столбца

Если вы хотите найти среднее значение столбца, вы можете использовать функцию mean()

Синтаксис:

Кадр данных["Имя_столбца"].mean()

Пример:

df[" Всего действительных голосов"].mean()

В следующем примере я получил среднее количество голосов, полученных за каждого кандидата.

Поиск максимального значения в определенном столбце

Если вы хотите найти максимальное значение столбца, вы можете использовать функцию max()

Синтаксис:

Кадр данных["Имя_столбца"].max()

Пример:

df[" Всего действительных голосов"].max()

В следующем примере я получил максимальное количество голосов за кандидата.

Поиск минимального значения в определенном столбце

Если вы хотите найти минимальное значение столбца, вы можете использовать функцию min()

Синтаксис:

Кадр данных["Имя_столбца"].min()

Пример:

df[" Всего действительных голосов"].min()

В следующем примере я получил минимальное количество голосов, набранных за кандидата.

Найти стандартное отклонение определенного столбца

Если вы хотите найти минимальное значение столбца, вы можете использовать функцию std()

Синтаксис:

Кадр данных["Имя_столбца"].std()

Пример:

df[" Всего действительных голосов"].std()

Основные строковые функции

Теперь давайте обсудим некоторые очень полезные строковые функции, которые пригодятся вам в повседневной работе. Но прежде чем применять эти строковые функции, убедитесь, что тип столбца — String .

8 лучших инструментов оптимизации изображений для вашего веб-приложения

Нахождение длины строки

Если вы хотите найти минимальное значение столбца, вы можете использовать функцию std()

Синтаксис:

Кадр данных["Имя_столбца"].str.len()

Пример:

df["Имя избирательного округа"].str.len()

Он вернет список с числовыми значениями, и эти числовые значения представляют длину соответствующей строки. Вы можете добавить этот список в качестве нового столбца , если хотите показать длину строки в своих данных.

Использование заглавной буквы в каждом слове

Как вы знаете, у нас не может быть функции Title Case (заглавная буква каждого слова) в excel, но есть в python. Итак, для этого используйте функцию title()

Синтаксис:

Фрейм данных["Имя_столбца"].str.title()

Пример:

df["Имя кандидата"].str.title()

Верхний регистр

Вы можете использовать функцию upper(), чтобы сделать строчные символы прописными.

Синтаксис:

Фрейм данных["Имя_столбца"].str.upper()

Пример:

df["Имя кандидата"].str.upper()

Нижний регистр

Вы можете использовать функцию lower(), чтобы сделать строковые символы строчными.

Синтаксис:

Фрейм данных["Имя_столбца"].str.lower()

Пример:

df["Имя кандидата"].str.lower()

Получение конкретной записи

Чтобы получить конкретную запись из ваших данных, вы можете подтвердить, что в ваших данных есть хотя бы один столбец с уникальным значением. Концепция аналогична первичному ключу в SQL. Вы также можете смешать несколько столбцов, чтобы получить конкретную запись.

Как и в моем примере, я извлекаю записи, используя имя избирательного округа и имя кандидата , следующий код:

df[(df["Название избирательного округа"] == "Султанпур Лодхи ") & (df["Имя кандидата"] == "САДЖАН СИНГХ ЧИМА")]

Получение группы записей

Иногда вам может понадобиться извлечь данные, принадлежащие к той же категории. Как и в следующем примере, я хочу извлечь данные для избирательного округа Султанпур Лодхи , и я хочу, чтобы имена кандидатов были в заголовке, а затем я экспортирую эти данные как sultapur-lodhi-2017.csv.

Теперь файл sultapur-lodhi-2017.csv содержит данные только по избирательному округу Султанпур Лодхи.

Подведение итогов

Итак, в этом блоге вы узнали некоторые базовые функции для анализа огромного количества данных. Я только что провел небольшой экскурс по анализу данных в Python. Есть тонны вещей, которые раскрыты и существуют для изучения.

Чтобы прочитать больше блогов, посетите www.webdew.com. Если вы ищете услуги веб-дизайна и веб-разработки, наша веб-команда будет рада предоставить вам то, что вы хотите! Свяжитесь с нами, чтобы узнать больше.

Монтажер: Амрута