如何使用 python 处理大量数据:快速指南
已发表: 2022-06-12我们都被数据包围着。 数据是一种神奇的东西,它的增长与我们环境中二氧化碳的增长一样,不同之处在于它对我们有好处,而不是全球变暖那么糟糕。 我这样说是因为如果我们拥有大量数据,那么我们将有能力在未来做出更好的决策。
我们每天都会生成新数据,无论是喜欢某人的帖子或评论他人的帖子,还是我们在任何社交网站上上传新帖子时。
如今,公司对数据非常敏感,因为收集、存储、处理和分析数据对于做出更好的决策至关重要。 每家公司都必须认真对待网络开发,因为现在一切都在线,未来世界也将如此。
有很多工具和编程语言可以帮助我们完成上述任务。 Excel 是用于进行数据分析的强大电子表格工具。
但是在处理大量数据时,它有很多限制。 大多数公司使用 EXCEL + VBA Scripting 来做一些复杂的计算,但它也有各种限制。
因此,数据分析师总是尝试采用新方法来帮助他们加快工作速度并生成质量分析。 为此,数据分析师使用比任何其他电子表格工具更强大的编程语言。 Python 和 R 是进行数据分析的首选编程语言。
在这篇博客中,我不会谈论 R 编程语言,但我们将探索 Python 的强大功能。 您将通过此博客使用真实示例来了解整个概念。
开始编程的要求
在开始实际编程之前你需要什么:
- Python 应该安装在你的系统中
- 您应该有一个编辑器,您可以在其中编写 python 代码。 我建议你安装Jupyter Notebook 。
- 在开始编码之前安装Numpy和Pandas库。
- 最后但最重要的一点是,您应该有超越使用数据限制的好奇心。 好奇心是关键!
现在您已将所有需求对齐,让我们开始数据分析之旅。
设置工作区
- 打开您的 Jupyter 笔记本并导入以下语句:
- 将 numpy 导入为 np
- 将熊猫导入为 pd
- 导入操作系统
- 按Shift + Enter执行单元格
导入数据
查看数据的文件格式。 并相应地添加代码:
如果您有 CSV 文件,请编写以下代码:
df = pd.read_csv(r“Actual_path_of_your_csv_file”)
如果您有 Excel 文件,请编写以下代码:
df = pd.read_excel(open(r“Actual_path_of_your_excel_file”, “rb”), sheet_name=“Name_of_sheet_which_you_want_to_import”)
我有一个 excel 表,所以我在下面的示例中使用了第二个选项。
了解数据的基本功能
现在您已将数据导入 Python。 下一步是您需要申请,以便您可以鸟瞰您的数据。
形状函数
shape 函数向您显示导入文件中的总行数和列数。 在 Jupyter 笔记本单元格中写入df.shape ,然后按Shift+Enter 执行该单元格。
如果你只对 Rows 感兴趣,那就写df.shape[0]
如果您只对列感兴趣,请编写df.shape[1]
头部功能
如果要查看前几条记录,则可以使用 head()。 在 Jupyter 笔记本单元格中写入 df.head() 并按 Shift+Enter 执行该单元格。 它将返回一个包含前 5 条记录的数据框。
如果您想查看超过 5 条记录,那么您可以在圆括号中提及数字 df.head(10) 现在它返回前 10 条记录。
尾函数
如果您想从底部查看几条记录,则可以使用tail() 。 在 Jupyter 笔记本单元格中写入df.tail()并按Shift+Enter执行该单元格。 它将返回一个带有底部五条记录的数据框。
如果您想查看超过 5 条记录,则可以在圆括号中提及数字df.tail(10) ; 现在,它返回前 10 条记录。
获取所有列名
如果要获取所有列的名称,则只需编写df.columns ,它将返回所有列名称。
获取特定列
您可以使用其名称提取任何列。 应用下面的代码后,它将返回一个存储在列中的值列表。
句法:
数据框[“列名”]
例子:
df[“候选人姓名”]
检查列的数据类型
现在,我们知道我们将数据存储在列中,在对列进行任何操作之前,我们会很想知道列的数据类型。 为此,请在 Jupyter Notebook 单元格中编写以下代码:
句法:
数据框[“Column_name”].dtype()
例子:
df[“候选人年龄”].dtype()
sum函数的使用
如果您的数据中有一些数字列,并且您只想通过添加该特定列的每个值来知道总和,那么您可以使用sum()函数。

在应用此公式之前,请确保列类型不是字符串
句法:
数据框[“Column_name”].sum()
例子:
df["有效投票总数"].sum()
在下面的例子中,我总结了在旁遮普省 117 个选区投票的所有有效选票。
查找特定列的平均值
如果要查找列的平均值,则可以使用mean()函数
句法:
数据框[“Column_name”].mean()
例子:
df["有效投票总数"].mean()
在下面的例子中,我得到了每个候选人的平均票数。
查找特定列中的最大值
如果要查找列的最大值,则可以使用max()函数
句法:
数据框[“Column_name”].max()
例子:
df["有效投票总数"].max()
在下面的示例中,我获得了候选人的最大票数投票。
查找特定列中的最小值
如果要查找列的最小值,则可以使用min()函数
句法:
数据框[“Column_name”].min()
例子:
df["有效投票总数"].min()
在以下示例中,我获得了候选人的最低投票数。
查找特定列的标准差
如果要查找列的最小值,则可以使用std()函数
句法:
数据框[“Column_name”].std()
例子:
df["有效投票总数"].std()
基本字符串函数
现在让我们讨论一些对您的日常工作很有帮助的非常有用的字符串函数。 但在应用这些字符串函数之前,请确保列类型为String 。
查找字符串的长度
如果要查找列的最小值,则可以使用std()函数
句法:
数据框[“Column_name”].str.len()
例子:
df[“选区名称”].str.len()
它将返回具有数值的列表,这些数值代表相应字符串的长度。 如果要在数据中显示字符串的长度,可以将此列表添加为新列。
将每个单词的第一个字符大写
如您所知,我们不能在 excel 中使用Title Case(每个单词的第一个字符大写)功能,但 python 有。 所以为此使用title()函数
句法:
数据框[“Column_name”].str.title()
例子:
df[“候选人姓名”].str.title()
大写
您可以使用 upper() 函数将字符串字符变为大写
句法:
数据框[“Column_name”].str.upper()
例子:
df[“候选人姓名”].str.upper()
小写
您可以使用 lower() 函数将字符串字符小写
句法:
数据框[“Column_name”].str.lower()
例子:
df[“候选人姓名”].str.lower()
获取特定记录
要从您的数据中获取特定记录,您可以确认您的数据至少有一列具有唯一值。 这个概念类似于 SQL 中的主键。 您还可以混合多列以获得特定记录。
就像在我的示例中一样,我使用以下代码提取记录:
df[(df["选区名称"] == "Sultanpur Lodhi") & (df["候选人姓名"] == "SAJJAN SINGH CHEEMA")]
获取一组记录
有时您可能想要提取属于同一类别的数据。 就像在下面的示例中一样,我想提取Sultanpur Lodhi Constituency的数据,并且我想要标题大小写中的候选人姓名,然后我将此数据导出为sultapur-lodhi-2017.csv
现在sultapur-lodhi-2017.csv文件仅包含来自 Sultanpur Lodhi 选区的数据。
包起来
因此,在本篇博客中,您学习了一些分析海量数据的基本功能。 我刚刚向您简要介绍了 Python 中的数据分析。 有很多东西没有被发现,有待探索。
要阅读更多博客,请访问 www.webdew.com。 如果您正在寻找网页设计和网页开发服务,我们的网页团队将很高兴为您提供您想要的! 联系我们了解更多。
编辑:阿姆鲁塔