
Pandas는 가장 인기 있고 강력한 Python용 데이터 분석 라이브러리 중 하나입니다. 사용하기 쉬운 데이터 구조와 구조화된 데이터 작업을 위한 도구를 제공합니다. 이 글에서는 데이터 분석에 Pandas를 사용하는 방법에 대한 실용적인 소개를 살펴보겠습니다.
Pandas 가져오기
Pandas를 사용하려면 먼저 Pandas를 가져와야 합니다.
import pandas as pd
일반적으로 pd를 약어로 사용하여 Pandas를 가져오는 것이 일반적입니다.
Pandas DataFrame 만들기
Pandas DataFrame은 다양한 데이터 유형(string, number, boolean 등)을 열에 저장할 수 있는 2차원 레이블이 지정된 데이터 구조입니다. 스프레드시트나 SQL 테이블과 비슷합니다.
dictionary에서 간단한 DataFrame을 만들어 보겠습니다.
data = {'Name': ['John', 'Mary', 'Peter', 'Jeff', 'Bill'],
'Age': [28, 32, 47, 19, 55],
'Gender': ['Male', 'Female', 'Male', 'Male', 'Male']
df = pd.DataFrame(data)
print(df)
Name Age Gender
0 John 28 Male
1 Mary 32 Female
2 Peter 47 Male
3 Jeff 19 Male
4 Bill 55 Male
dictionary 키는 열 이름이 되고 값은 열의 데이터가 됩니다.
열 선택하기
dictionary 키와 같은 열 이름을 사용하여 Pandas에서 열을 선택할 수 있습니다.
ages = df['Age']
print(ages)
0 28
1 32
2 47
3 19
4 55
Name: Age, dtype: int64
그러면 'Age' 열 데이터만 포함된 Pandas Series가 반환됩니다.
Pandas Series는 인덱싱된 데이터의 1 차원 배열입니다.
행 선택하기
integer 위치 또는 boolean 인덱싱을 통해 행을 선택할 수 있습니다. 처음 3개 행을 구해 보겠습니다.
print(df[0:3])
Name Age Gender
0 John 28 Male
1 Mary 32 Female
2 Peter 47 Male
그리고 'Age'가 30보다 큰 행은 다음과 같습니다.
print(df[df['Age'] > 30])
Name Age Gender
1 Mary 32 Female
2 Peter 47 Male
4 Bill 55 Male
CSV에서 데이터 로드하기
read_csv()를 사용하여 CSV 파일에서 DataFrame으로 데이터를 쉽게 로드할 수 있습니다.
df = pd.read_csv('data.csv')
그러면 'data.csv' 파일이 Pandas DataFrame에 로드됩니다. 날짜 구문 분석 및 누락된 값 처리와 같은 많은 추가 옵션을 지정할 수 있습니다.
기본 데이터 정리
Pandas를 사용하면 누락된 데이터를 쉽게 제거하고 지저분한 데이터를 정리할 수 있습니다.
# 누락된 값이 있는 행 삭제
df.dropna()
# 누락된 값 채우기
df.fillna(value)
# 열 이름 변경
df.rename(columns={'old_name': 'new_ name'})
유용한 연산
Pandas에는 데이터 정리를 빠르게 해주는 많은 벡터화된 기능이 포함되어 있습니다.
# Age 열의 합계 계산
df['Age'].sum()
# Age 열의 평균 계산
df['Age'].mean()
# Age 열의 최대값 얻기
df['Age'].max()
# Age 열을 기준으로 정렬
df.sort_values('Age')
데이터를 집계, 분할, 변환, 결합, 시각화하기 위한 더 많은 함수가 있습니다.
결론
지금까지 Python에서 실제 데이터 분석을 위해 Pandas를 사용하는 몇 가지 기본 사항을 다루었습니다. 핵심 내용은 다음과 같습니다.
- 표 형식 데이터 저장을 위한 DataFrame
- CSV 파일에서 데이터 읽기/쓰기
- 열 선택, 행 슬라이싱, boolean 인덱싱
- 데이터 정리, 병합, 변환을 위한 내장 메서드 제공
- 빠른 데이터 분석을 위한 벡터화된 연산
Pandas는 사용 편의성과 성능을 결합하여 데이터 과학 워크플로우에 없어서는 안 될 필수 요소입니다.
'Language > Python' 카테고리의 다른 글
| 알아두면 유용한 12가지 파이썬 라이브러리 (3) | 2024.11.12 |
|---|---|
| Pandas 마스터하기: 데이터 조작을 위한 고급 기술 (82) | 2024.01.28 |
| [Python] OpenCV Sharpening (0) | 2022.11.06 |
| [Python] Python 기초(2) (0) | 2022.10.09 |
| [Python] Python 기초(1) (0) | 2022.10.09 |
IT 기술과 개발 내용을 포스팅하는 블로그
포스팅이 좋았다면 "좋아요❤️" 또는 "구독👍🏻" 해주세요!