본문 바로가기
카테고리 없음

numpy, pandas, scikit-learn

by daebali 2025. 4. 4.

🔹 NumPy (Numerical Python)

1. 핵심 개념

  • 다차원 배열 객체 ndarray를 제공
  • 수학적, 통계적 연산을 빠르게 수행 가능
  • 반복문 없이 벡터화된 연산(빠르고 간결함)
  • 과학적 계산을 위한 기반

2. 주요 기능

    • 빠른 배열 연산 (+, -, *, /, dot, mean, std, ...)
    • 선형대수(행렬 곱, 역행렬), 푸리에 변환, 난수 생성 등 가능
    • 리스트보다 빠르고 메모리 효율적

 

🔹 Pandas (Panel Data)

1. 핵심 개념

  • 표 형식의 데이터를 다루기 위한 고급 데이터 구조
  • 핵심 객체: Series (1차원), DataFrame (2차원)
  • 엑셀처럼 행/열로 데이터 조작, 필터링, 집계 가능

2. 주요 기능

  • 엑셀, CSV, SQL 등 다양한 데이터 소스와 연동
  • 결측치 처리, 그룹별 연산, 피벗 테이블 등
  • 인덱싱, 슬라이싱, 조건 필터링이 매우 직관적
🔹 scikit-learn

"머신러닝 알고리즘과 도구들을 간단하게 구현할 수 있는 라이브러리"

1. 데이터 전처리 (Preprocessing)

  • 표준화(Standardization), 정규화(Normalization)
  • 원-핫 인코딩, 결측값 처리 등

2. 지도학습(Supervised Learning)

  • 분류(Classification): SVC, RandomForestClassifier, LogisticRegression, ...
  • 회귀(Regression): LinearRegression, SVR, Ridge, ...

3. 비지도학습(Unsupervised Learning)

  • 군집(Clustering): KMeans, DBSCAN, ...
  • 차원 축소(Dimensionality Reduction): PCA, t-SNE, ...

4. 모델 평가 (Model Evaluation)

  • 정확도(accuracy), 정밀도(precision), 재현율(recall), F1 등
  • 교차 검증(cross-validation), confusion matrix

5. 모델 선택과 튜닝

  • GridSearchCV, RandomizedSearchCV로 최적의 하이퍼파라미터 탐색

댓글