Как обрабатывать большие объемы данных с помощью Python: краткое руководство
Опубликовано: 2022-06-12Мы все окружены данными. Данные — это волшебная вещь, которая растет точно так же, как растет углекислый газ в нашей среде, с той разницей, что это хорошо для нас, а не так плохо, как растущее глобальное потепление. Я говорю это потому, что если у нас будет огромное количество данных, у нас будет возможность принимать лучшие решения в будущем.
Мы все генерируем новые данные каждый день, либо лайкая чью-то публикацию, либо комментируя чужую публикацию, либо загружая новую публикацию на любой социальный сайт.
В настоящее время компании очень чувствительны к данным, так как сбор, хранение, обработка и анализ данных жизненно важны для принятия правильных решений. Каждая компания должна серьезно относиться к веб-разработке, поскольку в настоящее время все находится в сети и будет в будущем.
Существует так много инструментов и языков программирования, которые помогают нам выполнять вышеупомянутые задачи. Excel — мощный инструмент для работы с электронными таблицами для анализа данных.
Но у него так много ограничений, когда дело доходит до работы с огромным объемом данных. Большинство компаний используют сценарии EXCEL + VBA для выполнения некоторых сложных вычислений, но они также имеют различные ограничения.
Поэтому аналитики данных всегда стараются осваивать новые способы, которые помогают им ускорить работу и проводить качественный анализ. Для этого аналитики данных используют языки программирования, которые намного мощнее, чем любой другой инструмент для работы с электронными таблицами. Python и R являются наиболее предпочтительными языками программирования для анализа данных.
В этом блоге я не буду говорить о языке программирования R, но мы будем исследовать мощь Python. Вы узнаете всю концепцию, используя реальный пример в этом блоге.
Требования для начала программирования
Что вам потребуется перед началом фактического программирования:
- Python должен быть установлен в вашей системе
- У вас должен быть редактор, в котором вы пишете код Python. Я предлагаю вам установить Jupyter Notebook .
- Установите Numpy и библиотеку Pandas перед началом кодирования.
- Последний, но самый важный момент заключается в том, что у вас должно быть любопытство выйти за пределы использования данных. Любопытство является ключевым!
Теперь, когда вы согласовали все требования, давайте начнем анализ данных.
Настройка рабочего пространства
- Откройте блокнот Jupyter и импортируйте следующие операторы:
- импортировать numpy как np
- импортировать панд как pd
- импорт ОС
- Выполните ячейку, нажав Shift + Enter
Импорт данных
Просмотрите формат файла ваших данных. И добавьте соответствующий код:
Если у вас есть CSV-файл, напишите следующий код:
df = pd.read_csv(r"Фактический_путь_вашего_csv_файла")
Если у вас есть файл Excel, напишите следующий код:
df = pd.read_excel(open(r"Фактический_путь_к_вашему_файлу_excel", "rb"), sheet_name="Имя_листа, который_вы_хотите_импортировать")
У меня есть лист Excel, поэтому я использовал второй вариант в следующем примере.
Основные функции, которые нужно знать о данных
Теперь вы импортировали данные в Python. Следующим шагом является то, что вам нужно подать заявку, чтобы у вас был вид с высоты птичьего полета ваших данных.
Функция формы
Функция формы показывает общее количество строк и столбцов в импортированном файле. Напишите df.shape в ячейке блокнота Jupyter и выполните ячейку, нажав Shift+Enter.
Если вас интересуют только строки, напишите df.shape[0]
Если вас интересуют только столбцы, напишите df.shape[1]
Головная функция
Если вы хотите увидеть первые несколько записей, вы можете использовать функцию head(). Напишите df.head() в ячейке блокнота Jupyter и выполните ячейку, нажав Shift+Enter. Он вернет фрейм данных с пятью верхними записями.
Если вы хотите увидеть более 5 записей, вы можете указать число в круглых скобках df.head(10), теперь оно возвращает первые 10 записей.
Функция хвоста
Если вы хотите увидеть несколько записей снизу, вы можете использовать tail() . Напишите df.tail() в ячейке блокнота Jupyter и выполните ячейку, нажав Shift+Enter . Он вернет фрейм данных с пятью нижними записями.
Если вы хотите увидеть более пяти записей, вы можете указать число в круглых скобках df.tail(10) ; теперь он возвращает первые 10 записей.
Получение всех имен столбцов
Если вы хотите получить имена всех столбцов, просто напишите df.columns , и он вернет все имена столбцов.
Получение определенного столбца
Вы можете извлечь любой столбец, используя его имя. После применения приведенного ниже кода вы получите список значений, хранящихся в столбце.
Синтаксис:
Фрейм данных["Имя_столбца"]
Пример:
df["Имя кандидата"]
Проверьте тип данных столбца
Теперь, когда мы знаем, что мы храним данные в столбцах, нам будет любопытно узнать о типе данных столбца, прежде чем применять к нему какие-либо операции. Для этого напишите следующий код в ячейке Jupyter Notebook:
Синтаксис:

Кадр данных["Имя_столбца"].dtype()
Пример:
df["Возраст кандидата"].dtype()
Использование функции суммы
Если у вас есть несколько числовых столбцов в ваших данных, и вы просто хотите узнать сумму, добавив каждое значение этого конкретного столбца, вы можете использовать функцию sum() .
Перед применением этой формулы убедитесь, что тип столбца не String
Синтаксис:
Кадр данных["Имя_столбца"].sum()
Пример:
df[" Всего действительных голосов"].sum()
В следующем примере я суммирую все действительные голоса, полученные в 117 избирательных округах Пенджаба.
Нахождение среднего значения определенного столбца
Если вы хотите найти среднее значение столбца, вы можете использовать функцию mean()
Синтаксис:
Кадр данных["Имя_столбца"].mean()
Пример:
df[" Всего действительных голосов"].mean()
В следующем примере я получил среднее количество голосов, полученных за каждого кандидата.
Поиск максимального значения в определенном столбце
Если вы хотите найти максимальное значение столбца, вы можете использовать функцию max()
Синтаксис:
Кадр данных["Имя_столбца"].max()
Пример:
df[" Всего действительных голосов"].max()
В следующем примере я получил максимальное количество голосов за кандидата.
Поиск минимального значения в определенном столбце
Если вы хотите найти минимальное значение столбца, вы можете использовать функцию min()
Синтаксис:
Кадр данных["Имя_столбца"].min()
Пример:
df[" Всего действительных голосов"].min()
В следующем примере я получил минимальное количество голосов, набранных за кандидата.
Найти стандартное отклонение определенного столбца
Если вы хотите найти минимальное значение столбца, вы можете использовать функцию std()
Синтаксис:
Кадр данных["Имя_столбца"].std()
Пример:
df[" Всего действительных голосов"].std()
Основные строковые функции
Теперь давайте обсудим некоторые очень полезные строковые функции, которые пригодятся вам в повседневной работе. Но прежде чем применять эти строковые функции, убедитесь, что тип столбца — String .
Нахождение длины строки
Если вы хотите найти минимальное значение столбца, вы можете использовать функцию std()
Синтаксис:
Кадр данных["Имя_столбца"].str.len()
Пример:
df["Имя избирательного округа"].str.len()
Он вернет список с числовыми значениями, и эти числовые значения представляют длину соответствующей строки. Вы можете добавить этот список в качестве нового столбца , если хотите показать длину строки в своих данных.
Использование заглавной буквы в каждом слове
Как вы знаете, у нас не может быть функции Title Case (заглавная буква каждого слова) в excel, но есть в python. Итак, для этого используйте функцию title()
Синтаксис:
Фрейм данных["Имя_столбца"].str.title()
Пример:
df["Имя кандидата"].str.title()
Верхний регистр
Вы можете использовать функцию upper(), чтобы сделать строчные символы прописными.
Синтаксис:
Фрейм данных["Имя_столбца"].str.upper()
Пример:
df["Имя кандидата"].str.upper()
Нижний регистр
Вы можете использовать функцию lower(), чтобы сделать строковые символы строчными.
Синтаксис:
Фрейм данных["Имя_столбца"].str.lower()
Пример:
df["Имя кандидата"].str.lower()
Получение конкретной записи
Чтобы получить конкретную запись из ваших данных, вы можете подтвердить, что в ваших данных есть хотя бы один столбец с уникальным значением. Концепция аналогична первичному ключу в SQL. Вы также можете смешать несколько столбцов, чтобы получить конкретную запись.
Как и в моем примере, я извлекаю записи, используя имя избирательного округа и имя кандидата , следующий код:
df[(df["Название избирательного округа"] == "Султанпур Лодхи ") & (df["Имя кандидата"] == "САДЖАН СИНГХ ЧИМА")]
Получение группы записей
Иногда вам может понадобиться извлечь данные, принадлежащие к той же категории. Как и в следующем примере, я хочу извлечь данные для избирательного округа Султанпур Лодхи , и я хочу, чтобы имена кандидатов были в заголовке, а затем я экспортирую эти данные как sultapur-lodhi-2017.csv.
Теперь файл sultapur-lodhi-2017.csv содержит данные только по избирательному округу Султанпур Лодхи.
Подведение итогов
Итак, в этом блоге вы узнали некоторые базовые функции для анализа огромного количества данных. Я только что провел небольшой экскурс по анализу данных в Python. Есть тонны вещей, которые раскрыты и существуют для изучения.
Чтобы прочитать больше блогов, посетите www.webdew.com. Если вы ищете услуги веб-дизайна и веб-разработки, наша веб-команда будет рада предоставить вам то, что вы хотите! Свяжитесь с нами, чтобы узнать больше.
Монтажер: Амрута