Pythonを使用して大量のデータを処理する方法:クイックガイド
公開: 2022-06-12私たちは皆、データに囲まれています。 データは、二酸化炭素が私たちの環境で成長したのとまったく同じように成長している魔法のようなものですが、地球温暖化の成長ほど悪くはなく、私たちにとって良いという違いがあります。 これは、大量のデータがあれば、将来、より良い意思決定を行う力があるからです。
私たちは皆、誰かの投稿を高く評価したり、他の人の投稿にコメントしたりすることによって、またはソーシャルサイトに新しい投稿をアップロードするときに、毎日新しいデータを生成します。
今日、企業はデータに非常に敏感です。データの収集、保存、処理、分析は、より良い意思決定を行うために不可欠であるためです。 すべてが現在オンラインであり、将来の世界にあるため、すべての企業はWeb開発を真剣に受け止めなければなりません。
上記のタスクを実行するのに役立つツールやプログラミング言語はたくさんあります。 Excelは、データ分析を行うための強力なスプレッドシートツールです。
しかし、膨大な量のデータに取り組むことになると、非常に多くの制限があります。 ほとんどの企業は、EXCEL + VBAスクリプトを使用して複雑な計算を行っていますが、さまざまな制限もあります。
そのため、データアナリストは常に、作業をスピードアップして品質分析を生成するのに役立つ新しい方法を採用しようとします。 そのために、データアナリストは、他のどのスプレッドシートツールよりもはるかに強力なプログラミング言語を使用しています。 PythonとRは、データ分析を行うための最も好ましいプログラミング言語です。
このブログでは、Rプログラミング言語については説明しませんが、Pythonの力について説明します。 このブログを通じて実際の例を使用して、概念全体を学習します。
プログラミングを開始するための要件
実際のプログラミングを開始する前に必要なもの:
- Pythonをシステムにインストールする必要があります
- Pythonコードを書くためのエディターが必要です。 JupyterNotebookをインストールすることをお勧めします。
- コーディングを開始する前に、 Numpy andPandasLibraryをインストールしてください。
- 最後になりますが、最も重要な点は、データの使用の限界を超える好奇心を持っている必要があるということです。 好奇心が鍵です!
すべての要件が揃ったので、データ分析の旅を始めましょう。
ワークスペースの設定
- Jupyterノートブックを開き、次のステートメントをインポートします。
- numpyをnpとしてインポートします
- パンダをpdとしてインポートします
- OSのインポート
- Shift+Enterを押してセルを実行します
データのインポート
データのファイル形式を表示します。 それに応じてコードを追加します。
CSVファイルがある場合は、次のコードを記述します。
df = pd.read_csv(r "Actual_path_of_your_csv_file")
Excelファイルがある場合は、次のコードを記述します。
df = pd.read_excel(open(r "Actual_path_of_your_excel_file"、 "rb")、sheet_name = "Name_of_sheet_which_you_want_to_import")
私はExcelシートを持っているので、次の例で2番目のオプションを使用しました。
データについて知っておくべき基本機能
これで、データがPythonにインポートされました。 次のステップは、データのバードアイビューが表示されるように適用する必要があることです。
形状機能
形状関数は、インポートされたファイルの行と列の総数を表示します。 Jupyterノートブックセルにdf.shapeを書き込み、 Shift+Enterを押してセルを実行します。
行のみに関心がある場合は、 df.shape[0]と記述します。
列のみに関心がある場合は、 df.shape[1]と記述します。
ヘッド機能
上位のいくつかのレコードを表示したい場合は、head()を使用できます。 Jupyterノートブックセルにdf.head()を書き込み、Shift+Enterを押してセルを実行します。 上位5つのレコードを含むデータフレームを返します。
5つを超えるレコードを表示する場合は、丸括弧df.head(10)で番号を指定すると、上位10レコードが返されます。
テール機能
下からいくつかのレコードを表示したい場合は、 tail()を使用できます。 Jupyterノートブックセルにdf.tail()を書き込み、 Shift+Enterを押してセルを実行します。 下位5つのレコードを含むデータフレームを返します。
5つを超えるレコードを表示する場合は、丸括弧内に番号を指定できますdf.tail(10) ; 現在、上位10レコードを返します。
すべての列名を取得する
すべての列の名前を取得する場合は、 df.columnsと記述するだけで、すべての列の名前が返されます。
特定の列を取得する
名前を使用して任意の列を抽出できます。 以下のコードを適用すると、列に格納されている値のリストが返されます。
構文:
Dataframe [“ Column_name”]
例:
df [“候補者名”]
列のデータ型を確認してください
ここで、データを列に格納することがわかっているので、列に操作を適用する前に、列のデータ型について知りたいと思います。 そのためには、JupyterNotebookセルに次のコードを記述します。
構文:
Dataframe [“ Column_name”]。dtype()

例:
df [“ Candidate Age”]。dtype()
合計関数の使用
データにいくつかの数値列があり、その特定の列の各値を加算して合計を知りたい場合は、 sum()関数を使用できます。
この式を適用する前に、列タイプが文字列でないことを確認してください
構文:
Dataframe [“ Column_name”]。sum()
例:
df ["有効投票総数"]。sum()
次の例では、パンジャブ州の117の選挙区で投票されたすべての有効な投票を合計します。
特定の列の平均を見つける
列の平均を求めたい場合は、 mean()関数を使用できます
構文:
Dataframe [“ Column_name”]。mean()
例:
df ["有効投票総数"]。mean()
次の例では、候補者ごとに投票された平均投票数を取得しました。
特定の列の最大値を見つける
列の最大値を見つけたい場合は、 max()関数を使用できます
構文:
Dataframe [“ Column_name”]。max()
例:
df ["有効投票総数"]。max()
次の例では、候補者の最大投票数を取得しました。
特定の列の最小値を見つける
列の最小値を見つけたい場合は、 min()関数を使用できます
構文:
Dataframe [“ Column_name”]。min()
例:
df ["有効投票総数"]。min()
次の例では、候補者に対してポーリングされた最小投票数を取得しました。
特定の列の標準偏差を見つける
列の最小値を見つけたい場合は、 std()関数を使用できます
構文:
Dataframe [“ Column_name”]。std()
例:
df ["有効投票総数"]。std()
基本的な文字列関数
それでは、日常業務に役立つ非常に便利な文字列関数について説明しましょう。 ただし、これらの文字列関数を適用する前に、列タイプがStringであることを確認してください。
文字列の長さを見つける
列の最小値を見つけたい場合は、 std()関数を使用できます
構文:
Dataframe [“ Column_name”]。str.len()
例:
df [“ Constituency Name”]。str.len()
数値を含むリストを返します。これらの数値は、対応する文字列の長さを表します。 データ内の文字列の長さを表示する場合は、このリストを新しい列として追加できます。
各単語の最初の文字を大文字にする
ご存知のように、Excelではタイトルケース(各単語の最初の文字を大文字にする)関数を使用できませんが、Pythonにはあります。 したがって、そのためにはtitle()関数を使用します
構文:
Dataframe [“ Column_name”]。str.title()
例:
df [“候補者名”]。str.title()
大文字
upper()関数を使用して、文字列文字を大文字にすることができます
構文:
Dataframe [“ Column_name”]。str.upper()
例:
df [“候補者名”]。str.upper()
小文字
lower()関数を使用して、文字列文字を小文字にすることができます
構文:
Dataframe [“ Column_name”]。str.lower()
例:
df [“候補者名”]。str.lower()
特定の記録を取得する
データから特定のレコードを取得するには、データに一意の値を持つ列が少なくとも1つあることを確認できます。 概念はSQLの主キーに似ています。 複数の列を混同して特定のレコードを取得することもできます。
私の例のように、次のコードのConstituencyNameとCandidateNameを使用してレコードを抽出します。
df [(df ["Constituency Name"] == "Sultanpur Lodhi")&(df ["Candidate Name"] == "SAJJAN SINGH CHEEMA")]
レコードのグループを取得する
同じカテゴリに属するデータを抽出したい場合があります。 次の例のように、 Sultanpur Lodhi Constituencyのデータを抽出し、タイトルケースに候補者名を入れて、このデータをsultapur-lodhi-2017.csvとしてエクスポートします。
現在、sultapur-lodhi-2017.csvファイルには、SultanpurLodhiConstituencyからのデータのみが含まれています。
まとめ
そのため、このブログでは、膨大な量のデータを分析するためのいくつかの基本的な機能を学びました。 Pythonでのデータ分析について簡単に説明しました。 発見され、探求することがたくさんあります。
その他のブログを読むには、www.webdew.comにアクセスしてください。 あなたがウェブデザインとウェブ開発サービスを探しているなら、私たちのウェブチームはあなたが望むものを手に入れることにワクワクします! 詳細については、お問い合わせください。
編集者:アムルサ