如何使用 python 處理大量數據:快速指南
已發表: 2022-06-12我們都被數據包圍著。 數據是一種神奇的東西,它的增長與我們環境中二氧化碳的增長一樣,不同之處在於它對我們有好處,而不是全球變暖那麼糟糕。 我這樣說是因為如果我們擁有大量數據,那麼我們將有能力在未來做出更好的決策。
我們每天都會生成新數據,無論是喜歡某人的帖子或評論他人的帖子,還是我們在任何社交網站上上傳新帖子時。
如今,公司對數據非常敏感,因為收集、存儲、處理和分析數據對於做出更好的決策至關重要。 每家公司都必須認真對待網絡開發,因為現在一切都在線,未來世界也將如此。
有很多工具和編程語言可以幫助我們完成上述任務。 Excel 是用於進行數據分析的強大電子表格工具。
但是在處理大量數據時,它有很多限制。 大多數公司使用 EXCEL + VBA Scripting 來做一些複雜的計算,但它也有各種限制。
因此,數據分析師總是嘗試採用新方法來幫助他們加快工作速度並生成質量分析。 為此,數據分析師使用比任何其他電子表格工具更強大的編程語言。 Python 和 R 是進行數據分析的首選編程語言。
在這篇博客中,我不會談論 R 編程語言,但我們將探索 Python 的強大功能。 您將通過此博客使用真實示例來了解整個概念。
開始編程的要求
在開始實際編程之前你需要什麼:
- Python 應該安裝在你的系統中
- 您應該有一個編輯器,您可以在其中編寫 python 代碼。 我建議你安裝Jupyter Notebook 。
- 在開始編碼之前安裝Numpy和Pandas庫。
- 最後但最重要的一點是,您應該有超越使用數據限制的好奇心。 好奇心是關鍵!
現在您已將所有需求對齊,讓我們開始數據分析之旅。
設置工作區
- 打開您的 Jupyter 筆記本並導入以下語句:
- 將 numpy 導入為 np
- 將熊貓導入為 pd
- 導入操作系統
- 按Shift + Enter執行單元格
導入數據
查看數據的文件格式。 並相應地添加代碼:
如果您有 CSV 文件,請編寫以下代碼:
df = pd.read_csv(r“Actual_path_of_your_csv_file”)
如果您有 Excel 文件,請編寫以下代碼:
df = pd.read_excel(open(r“Actual_path_of_your_excel_file”, “rb”), sheet_name=“Name_of_sheet_which_you_want_to_import”)
我有一個 excel 表,所以我在下面的示例中使用了第二個選項。
了解數據的基本功能
現在您已將數據導入 Python。 下一步是您需要申請,以便您可以鳥瞰您的數據。
形狀函數
shape 函數向您顯示導入文件中的總行數和列數。 在 Jupyter 筆記本單元格中寫入df.shape ,然後按Shift+Enter 執行該單元格。
如果你只對 Rows 感興趣,那就寫df.shape[0]
如果您只對列感興趣,請編寫df.shape[1]
頭部功能
如果要查看前幾條記錄,則可以使用 head()。 在 Jupyter 筆記本單元格中寫入 df.head() 並按 Shift+Enter 執行該單元格。 它將返回一個包含前 5 條記錄的數據框。
如果您想查看超過 5 條記錄,那麼您可以在圓括號中提及數字 df.head(10) 現在它返回前 10 條記錄。
尾函數
如果您想從底部查看幾條記錄,則可以使用tail() 。 在 Jupyter 筆記本單元格中寫入df.tail()並按Shift+Enter執行該單元格。 它將返回一個帶有底部五條記錄的數據框。
如果您想查看超過 5 條記錄,則可以在圓括號中提及數字df.tail(10) ; 現在,它返回前 10 條記錄。
獲取所有列名
如果要獲取所有列的名稱,則只需編寫df.columns ,它將返回所有列名稱。
獲取特定列
您可以使用其名稱提取任何列。 應用下面的代碼後,它將返回一個存儲在列中的值列表。
句法:
數據框[“列名”]
例子:
df[“候選人姓名”]
檢查列的數據類型
現在,我們知道我們將數據存儲在列中,在對列進行任何操作之前,我們會很想知道列的數據類型。 為此,請在 Jupyter Notebook 單元格中編寫以下代碼:
句法:
數據框[“Column_name”].dtype()
例子:
df[“候選人年齡”].dtype()
sum函數的使用
如果您的數據中有一些數字列,並且您只想通過添加該特定列的每個值來知道總和,那麼您可以使用sum()函數。

在應用此公式之前,請確保列類型不是字符串
句法:
數據框[“Column_name”].sum()
例子:
df["有效投票總數"].sum()
在下面的例子中,我總結了在旁遮普省 117 個選區投票的所有有效選票。
查找特定列的平均值
如果要查找列的平均值,則可以使用mean()函數
句法:
數據框[“Column_name”].mean()
例子:
df["有效投票總數"].mean()
在下面的例子中,我得到了每個候選人的平均票數。
查找特定列中的最大值
如果要查找列的最大值,則可以使用max()函數
句法:
數據框[“Column_name”].max()
例子:
df["有效投票總數"].max()
在下面的示例中,我獲得了候選人的最大票數投票。
查找特定列中的最小值
如果要查找列的最小值,則可以使用min()函數
句法:
數據框[“Column_name”].min()
例子:
df["有效投票總數"].min()
在以下示例中,我獲得了候選人的最低投票數。
查找特定列的標準差
如果要查找列的最小值,則可以使用std()函數
句法:
數據框[“Column_name”].std()
例子:
df["有效投票總數"].std()
基本字符串函數
現在讓我們討論一些對您的日常工作很有幫助的非常有用的字符串函數。 但在應用這些字符串函數之前,請確保列類型為String 。
查找字符串的長度
如果要查找列的最小值,則可以使用std()函數
句法:
數據框[“Column_name”].str.len()
例子:
df[“選區名稱”].str.len()
它將返回具有數值的列表,這些數值代表相應字符串的長度。 如果要在數據中顯示字符串的長度,可以將此列表添加為新列。
將每個單詞的第一個字符大寫
如您所知,我們不能在 excel 中使用Title Case(每個單詞的第一個字符大寫)功能,但 python 有。 所以為此使用title()函數
句法:
數據框[“Column_name”].str.title()
例子:
df[“候選人姓名”].str.title()
大寫
您可以使用 upper() 函數將字符串字符變為大寫
句法:
數據框[“Column_name”].str.upper()
例子:
df[“候選人姓名”].str.upper()
小寫
您可以使用 lower() 函數將字符串字符小寫
句法:
數據框[“Column_name”].str.lower()
例子:
df[“候選人姓名”].str.lower()
獲取特定記錄
要從您的數據中獲取特定記錄,您可以確認您的數據至少有一列具有唯一值。 這個概念類似於 SQL 中的主鍵。 您還可以混合多列以獲得特定記錄。
就像在我的示例中一樣,我使用以下代碼提取記錄:
df[(df["選區名稱"] == "Sultanpur Lodhi") & (df["候選人姓名"] == "SAJJAN SINGH CHEEMA")]
獲取一組記錄
有時您可能想要提取屬於同一類別的數據。 就像在下面的示例中一樣,我想提取Sultanpur Lodhi Constituency的數據,並且我想要標題大小寫中的候選人姓名,然後我將此數據導出為sultapur-lodhi-2017.csv
現在sultapur-lodhi-2017.csv文件僅包含來自 Sultanpur Lodhi 選區的數據。
包起來
因此,在本篇博客中,您學習了一些分析海量數據的基本功能。 我剛剛向您簡要介紹了 Python 中的數據分析。 有很多東西沒有被發現,有待探索。
要閱讀更多博客,請訪問 www.webdew.com。 如果您正在尋找網頁設計和網頁開發服務,我們的網頁團隊將很高興為您提供您想要的! 聯繫我們了解更多。
編輯:阿姆魯塔