본문 바로가기

카테고리 없음

numpy, pandas, scikit-learn

by daebali 2025. 4. 4.

🔹 NumPy (Numerical Python)

1. 핵심 개념

다차원 배열 객체 ndarray를 제공
수학적, 통계적 연산을 빠르게 수행 가능
반복문 없이 벡터화된 연산(빠르고 간결함)
과학적 계산을 위한 기반

2. 주요 기능

빠른 배열 연산 (+, -, *, /, dot, mean, std, ...)
선형대수(행렬 곱, 역행렬), 푸리에 변환, 난수 생성 등 가능
리스트보다 빠르고 메모리 효율적

🔹 Pandas (Panel Data)

1. 핵심 개념

표 형식의 데이터를 다루기 위한 고급 데이터 구조
핵심 객체: Series (1차원), DataFrame (2차원)
엑셀처럼 행/열로 데이터 조작, 필터링, 집계 가능

2. 주요 기능

엑셀, CSV, SQL 등 다양한 데이터 소스와 연동
결측치 처리, 그룹별 연산, 피벗 테이블 등
인덱싱, 슬라이싱, 조건 필터링이 매우 직관적

🔹 scikit-learn

"머신러닝 알고리즘과 도구들을 간단하게 구현할 수 있는 라이브러리"

1. 데이터 전처리 (Preprocessing)

표준화(Standardization), 정규화(Normalization)
원-핫 인코딩, 결측값 처리 등

2. 지도학습(Supervised Learning)

분류(Classification): SVC, RandomForestClassifier, LogisticRegression, ...
회귀(Regression): LinearRegression, SVR, Ridge, ...

3. 비지도학습(Unsupervised Learning)

군집(Clustering): KMeans, DBSCAN, ...
차원 축소(Dimensionality Reduction): PCA, t-SNE, ...

4. 모델 평가 (Model Evaluation)

정확도(accuracy), 정밀도(precision), 재현율(recall), F1 등
교차 검증(cross-validation), confusion matrix

5. 모델 선택과 튜닝

GridSearchCV, RandomizedSearchCV로 최적의 하이퍼파라미터 탐색

저작자표시 (새창열림)

댓글

티스토리툴바