본문 바로가기
IT 기술

파이썬으로 데이터 분석 시작 (Pandas, Numpy 기초)

by hj90 2025. 6. 21.

 

파이썬으로 데이터 분석 시작하기 (Pandas, Numpy 기초)

왜 파이썬으로 데이터 분석을 배워야 할까?

데이터 분석은 이제 IT 개발자만의 기술이 아닙니다. 회사의 마케팅 담당자, 인사팀, 공공기관, 학생 등 누구나 데이터를 읽고, 가공하고, 이해하는 능력이 필요합니다. 파이썬은 이런 데이터 분석을 쉽고 빠르게 배울 수 있도록 도와주는 최적의 도구입니다.

파이썬 데이터 분석의 핵심 도구: Pandas와 Numpy

데이터 분석에서 가장 많이 사용하는 파이썬 라이브러리는 PandasNumpy입니다. 이 두 가지만 제대로 익혀도 실무에서 대부분의 데이터 분석 업무를 수행할 수 있습니다.

Pandas 설치 및 준비

pip install pandas numpy

간단한 명령어 한 줄이면 설치 완료!

Pandas: 엑셀처럼 데이터를 쉽게 다루자

Pandas는 표 형태의 데이터를 쉽게 다룰 수 있도록 도와줍니다. 엑셀을 써본 사람이라면 Pandas도 쉽게 익힐 수 있습니다.

CSV 파일 불러오기

import pandas as pd

data = pd.read_csv("매출데이터.csv")
print(data.head())

head()는 데이터의 상위 5개만 미리 보여줍니다.

데이터 간단히 살펴보기

print(data.shape)   # (행 수, 열 수)
print(data.columns)  # 컬럼 이름 보기
print(data.describe())  # 기본 통계 보기

조건에 맞는 데이터 추출

엑셀로는 수식이 복잡했던 것도 Pandas에선 한 줄입니다.

매출100만원이상 = data[data["매출"] >= 1000000]
print(매출100만원이상)

이처럼 조건 필터링이 매우 직관적입니다.

열 추가 및 수정

data["부가세포함매출"] = data["매출"] * 1.1
print(data.head())

엑셀처럼 새 컬럼도 자유롭게 추가할 수 있습니다.

그룹별 통계: 엑셀 피벗보다 쉽다

부서별매출 = data.groupby("부서")["매출"].sum()
print(부서별매출)

단 한 줄로 그룹별 집계가 완성됩니다.

Numpy: 숫자 계산의 최강자

수학적 연산이 필요한 경우 Numpy가 등장합니다. Pandas가 엑셀이라면, Numpy는 계산기입니다.

기본 사용법

import numpy as np

배열 = np.array([1, 2, 3, 4, 5])
print(배열.mean())  # 평균
print(배열.std())  # 표준편차

행렬 계산, 통계, 과학 연산까지 손쉽게 가능해집니다.

시각화도 가능하다: 시각화 입문

데이터 분석에서 결과를 시각적으로 보여주는 건 매우 중요합니다. matplotlibseaborn이 많이 쓰입니다.

import matplotlib.pyplot as plt

data["매출"].plot(kind="hist")
plt.show()

몇 줄의 코드로 차트까지 만들어낼 수 있습니다.

파이썬 데이터 분석의 장점

  • 엑셀보다 자유로운 데이터 처리 가능
  • 대용량 데이터도 빠르게 처리
  • 반복 업무를 자동화 가능 (RPA 연결)
  • AI/머신러닝 확장성 확보

처음부터 너무 복잡할 필요 없다

파이썬으로 데이터 분석을 배우는 대부분의 사람들은 처음엔 이렇게 시작합니다:

  1. CSV 파일 읽기
  2. 조건 검색
  3. 간단한 수식 계산
  4. 차트로 시각화

이 4가지만 익혀도 대부분의 현업 데이터 분석은 가능합니다.

파이썬 데이터 분석 실습 추천 자료

결론: 데이터 읽을 줄 아는 사람이 되자

이제는 단순히 데이터를 보는 시대가 아닙니다. 데이터를 다룰 줄 아는 사람이 가장 큰 경쟁력을 갖게 됩니다. 파이썬과 Pandas, Numpy는 비전공자도 충분히 익힐 수 있는 기술입니다. 오늘부터 pd.read_csv() 한 줄로 도전해 보세요. 데이터가 재미있어지는 순간이 금방 옵니다!