🔹 NumPy (Numerical Python)
1. 핵심 개념
- 다차원 배열 객체 ndarray를 제공
- 수학적, 통계적 연산을 빠르게 수행 가능
- 반복문 없이 벡터화된 연산(빠르고 간결함)
- 과학적 계산을 위한 기반
2. 주요 기능
- 빠른 배열 연산 (+, -, *, /, dot, mean, std, ...)
- 선형대수(행렬 곱, 역행렬), 푸리에 변환, 난수 생성 등 가능
- 리스트보다 빠르고 메모리 효율적
🔹 Pandas (Panel Data)
1. 핵심 개념
- 표 형식의 데이터를 다루기 위한 고급 데이터 구조
- 핵심 객체: Series (1차원), DataFrame (2차원)
- 엑셀처럼 행/열로 데이터 조작, 필터링, 집계 가능
2. 주요 기능
- 엑셀, CSV, SQL 등 다양한 데이터 소스와 연동
- 결측치 처리, 그룹별 연산, 피벗 테이블 등
- 인덱싱, 슬라이싱, 조건 필터링이 매우 직관적
🔹 scikit-learn
"머신러닝 알고리즘과 도구들을 간단하게 구현할 수 있는 라이브러리"
1. 데이터 전처리 (Preprocessing)
- 표준화(Standardization), 정규화(Normalization)
- 원-핫 인코딩, 결측값 처리 등
2. 지도학습(Supervised Learning)
- 분류(Classification): SVC, RandomForestClassifier, LogisticRegression, ...
- 회귀(Regression): LinearRegression, SVR, Ridge, ...
3. 비지도학습(Unsupervised Learning)
- 군집(Clustering): KMeans, DBSCAN, ...
- 차원 축소(Dimensionality Reduction): PCA, t-SNE, ...
4. 모델 평가 (Model Evaluation)
- 정확도(accuracy), 정밀도(precision), 재현율(recall), F1 등
- 교차 검증(cross-validation), confusion matrix
5. 모델 선택과 튜닝
- GridSearchCV, RandomizedSearchCV로 최적의 하이퍼파라미터 탐색
댓글