파이썬을 사용하여 많은 양의 데이터를 처리하는 방법: 빠른 가이드

게시 됨: 2022-06-12

우리 모두는 데이터에 둘러싸여 있습니다. 데이터는 이산화탄소가 우리 환경에서 자라는 것과 똑같이 성장하는 마법 같은 것입니다. 다만, 데이터가 지구 온난화가 증가하는 것만큼 나쁘지 않고 우리에게 이롭다는 차이점이 있습니다. 우리가 엄청난 양의 데이터를 가지고 있다면 미래에 더 나은 결정을 내릴 수 있는 힘이 생길 것이기 때문입니다.

전문가처럼 WordPress 랜딩 페이지를 만드는 12가지 필수 팁

우리 모두는 누군가의 게시물을 좋아하거나 다른 사람의 게시물에 댓글을 달거나 소셜 사이트에 새 게시물을 업로드할 때 매일 새로운 데이터를 생성합니다.

오늘날 기업은 더 나은 결정을 내리기 위해 데이터를 수집, 저장, 처리 및 분석하는 것이 중요하기 때문에 데이터에 매우 민감합니다. 모든 회사는 모든 것이 현재 온라인 상태이고 미래에도 온라인 상태가 될 것이기 때문에 웹 개발을 진지하게 받아들여야 합니다.

위에서 언급한 작업을 수행하는 데 도움이 되는 많은 도구와 프로그래밍 언어가 있습니다. Excel은 데이터 분석을 수행하기 위한 강력한 스프레드시트 도구입니다.

하지만 방대한 양의 데이터를 처리하기에는 너무 많은 한계가 있습니다. 대부분의 회사는 EXCEL + VBA 스크립팅을 사용하여 복잡한 계산을 수행하지만 다양한 제한 사항도 있습니다.

따라서 데이터 분석가는 항상 작업 속도를 높이고 품질 분석을 생성하는 데 도움이 되는 새로운 방법을 채택하려고 합니다. 이를 위해 데이터 분석가는 다른 스프레드시트 도구보다 훨씬 강력한 프로그래밍 언어를 사용합니다. Python과 R은 데이터 분석을 수행하는 데 가장 선호되는 프로그래밍 언어입니다.

이 블로그에서는 R 프로그래밍 언어에 대해 이야기하지 않겠지만 Python의 힘을 탐구할 것입니다. 이 블로그를 통해 실제 예제를 사용하여 전체 개념을 배우게 됩니다.

프로그래밍을 시작하기 위한 요구 사항

실제 프로그래밍을 시작하기 전에 필요한 것:

시스템에 Python이 설치되어 있어야 합니다.
파이썬 코드를 작성하는 편집기가 있어야 합니다. Jupyter Notebook 을 설치하는 것이 좋습니다.
코딩을 시작하기 전에 Numpy 및 Pandas 라이브러리를 설치하십시오.
마지막으로 가장 중요한 점은 데이터 사용의 한계를 뛰어넘는 호기심이 있어야 한다는 것입니다. 호기심이 핵심!

이제 모든 요구 사항이 조정되었으므로 데이터 분석 여정을 시작하겠습니다.

작업 공간 설정

Jupyter 노트북을 열고 다음 명령문을 가져옵니다.

numpy를 np로 가져오기
pandas를 pd로 가져오기
수입 OS

Shift + Enter 를 눌러 셀 실행

데이터 가져오기

데이터의 파일 형식을 봅니다. 그에 따라 코드를 추가합니다.

CSV 파일이 있는 경우 다음 코드를 작성합니다.

df = pd.read_csv(r“실제_경로_of_your_csv_file”)

Excel 파일이 있는 경우 다음 코드를 작성하십시오.

df = pd.read_excel(open(r"Actual_path_of_your_excel_file", "rb"), sheet_name="Name_of_sheet_which_you_want_to_import")

Excel 시트가 있으므로 다음 예에서 두 번째 옵션을 사용했습니다.

데이터에 대해 알아야 할 기본 기능

이제 데이터를 Python으로 가져왔습니다. 다음 단계는 데이터를 한눈에 볼 수 있도록 신청해야 한다는 것입니다.

모양 기능

모양 기능은 가져온 파일의 총 행과 열 수를 보여줍니다. Jupyter 노트북 셀에 df.shape 를 작성하고 Shift+Enter를 눌러 셀을 실행합니다.

행에만 관심이 있다면 df.shape[0] 을 작성하십시오.

열에만 관심이 있다면 df.shape[1] 을 작성하십시오.

헤드 기능

상위 몇 개의 레코드를 보려면 head()를 사용할 수 있습니다. Jupyter 노트북 셀에 df.head()를 작성하고 Shift+Enter를 눌러 셀을 실행합니다. 상위 5개 레코드가 있는 데이터 프레임을 반환합니다.

5개 이상의 레코드를 보려면 대괄호 df.head(10)에 숫자를 언급하면 상위 10개 레코드를 반환합니다.

꼬리 기능

아래에서 몇 개의 레코드를 보려면 tail() 을 사용할 수 있습니다. Jupyter 노트북 셀에 df.tail() 을 작성하고 Shift+Enter 를 눌러 셀을 실행합니다. 하위 5개 레코드가 있는 데이터 프레임을 반환합니다.

5개 이상의 레코드를 보려면 대괄호 df.tail(10) 에 숫자를 언급하면 됩니다. 이제 상위 10개 레코드를 반환합니다.

모든 열 이름 가져오기

모든 열의 이름을 얻으려면 df.columns 를 작성하기만 하면 모든 열 이름이 반환됩니다.

특정 열 가져오기

이름을 사용하여 모든 열을 추출할 수 있습니다. 아래 코드를 적용하면 열에 저장된 값 목록이 반환됩니다.

통사론:

데이터 프레임["열 이름"]

예시:

df[“후보자 이름”]

열의 데이터 유형 확인

이제 열에 데이터를 저장한다는 것을 알았으므로 열에 작업을 적용하기 전에 열의 데이터 유형에 대해 알고 싶습니다. 이를 위해 Jupyter Notebook 셀에 다음 코드를 작성합니다.

통사론:

데이터 프레임["Column_name"].dtype()

예시:

df[“후보자 나이”].dtype()

합계 함수 사용

데이터에 숫자 열이 있고 특정 열의 각 값을 추가하여 합계를 알고 싶다면 sum() 함수를 사용할 수 있습니다.

이 수식을 적용하기 전에 열 유형이 문자열 이 아닌지 확인하십시오.

통사론:

데이터 프레임["열 이름"].sum()

예시:

df[" 총 유효 투표수"].sum()

다음 예에서는 펀자브의 117개 선거구에서 투표한 모든 유효 투표를 요약합니다.

특정 열의 평균 찾기

열의 평균을 찾으려면 mean() 함수를 사용할 수 있습니다.

통사론:

데이터 프레임["Column_name"].mean()

예시:

df["총 유효 투표수"].mean()

다음 예에서는 각 후보자에 대해 투표된 평균 표를 얻었습니다.

특정 열에서 최대값 찾기

열의 최대값을 찾으려면 max() 함수를 사용할 수 있습니다.

통사론:

데이터 프레임["Column_name"].max()

예시:

df["총 유효 투표수"].max()

다음 예에서는 후보자에 대한 최대 득표수를 얻었습니다.

특정 열에서 최소값 찾기

열의 최소값을 찾으려면 min() 함수를 사용할 수 있습니다.

통사론:

데이터 프레임["Column_name"].min()

예시:

df[" 총 유효 투표수"].min()

다음 예에서는 후보자에 대해 투표된 최소 표를 얻었습니다.

특정 열의 표준 편차 찾기

열의 최소값을 찾으려면 std() 함수를 사용할 수 있습니다.

통사론:

데이터 프레임["열 이름"].std()

예시:

df["총 유효 투표수"].std()

기본 문자열 함수

이제 일상적인 작업에 도움이 되는 몇 가지 매우 유용한 문자열 함수에 대해 논의해 보겠습니다. 그러나 이러한 문자열 함수를 적용하기 전에 열 유형이 String 인지 확인하십시오.

웹 앱을 위한 8가지 최고의 이미지 최적화 도구

String의 길이 구하기

열의 최소값을 찾으려면 std() 함수를 사용할 수 있습니다.

통사론:

데이터 프레임["열 이름"].str.len()

예시:

df[“선거구명”].str.len()

숫자 값이 있는 목록을 반환하고 이 숫자 값은 해당 문자열의 길이를 나타냅니다. 데이터의 문자열 길이를 표시하려는 경우 이 목록을 새 열로 추가할 수 있습니다.

각 단어의 첫 글자를 대문자로

아시다시피 Excel에는 Title Case(각 단어의 첫 글자를 대문자로 표시) 기능이 없지만 파이썬에는 있습니다. 따라서 title() 함수를 사용하려면

통사론:

데이터 프레임["Column_name"].str.title()

예시:

df[“후보자 이름”].str.title()

대문자

upper() 함수를 사용하여 문자열 문자를 대문자로 만들 수 있습니다.

통사론:

데이터 프레임["Column_name"].str.upper()

예시:

df[“후보자 이름”].str.upper()

소문자

lower() 함수를 사용하여 문자열 문자를 소문자로 만들 수 있습니다.

통사론:

데이터 프레임["Column_name"].str.lower()

예시:

df[“후보자 이름”].str.lower()

특정 기록 가져오기

데이터에서 특정 레코드를 가져오려면 데이터에 고유한 값이 있는 열이 하나 이상 있는지 확인할 수 있습니다. 개념은 SQL의 기본 키 와 유사합니다. 특정 레코드를 얻기 위해 여러 열을 혼합할 수도 있습니다.

내 예에서와 같이 다음 코드에서 Constituency Name 및 Candidate Name 을 사용하여 레코드를 추출합니다.

df[(df["선거구 이름"] == "Sultanpur Lodhi ") & (df["후보 이름"] == "SAJJAN SINGH CHEEMA")]

레코드 그룹 가져오기

때로는 같은 범주에 속하는 데이터를 추출하고 싶을 수도 있습니다. 다음 예와 같이 Sultanpur Lodhi Constituency 에 대한 데이터를 추출하고 제목 케이스에 후보자 이름을 원하는 다음 이 데이터를 sultapur-lodhi-2017.csv로 내보냅니다.

이제 sultapur-lodhi-2017.csv 파일에는 Sultanpur Lodhi Constituency의 데이터만 포함됩니다.

마무리

그래서 이 블로그에서는 방대한 양의 데이터를 분석하기 위한 몇 가지 기본 기능을 배웠습니다. 방금 Python에서 데이터 분석에 대한 간단한 둘러보기를 제공했습니다. 밝혀지고 탐험해야 할 것들이 많이 있습니다.

더 많은 블로그를 읽으려면 www.webdew.com을 방문하십시오. 웹 디자인 및 웹 개발 서비스를 찾고 계시다면 저희 웹 팀이 원하는 것을 얻을 수 있도록 기쁘게 생각합니다! 자세히 알아보려면 저희에게 연락하십시오.

편집자: 암루타