분류 전체보기7 LSA (Latent Semantic Analysis) LSA (Latent Semantic Analysis)는 자연어 처리(NLP)에서 문장이나 문서의 잠재 의미를 분석하는 방법 중 하나이다. 예를 들어, 단어의 수를 $n$, 문장의 수를 $d$라고 하면, 문서들을 $n \times d$ 행렬 $A$로 표현할 수 있다. 이 행렬에 대해 특이값 분해(SVD)를 수행하면 다음과 같이 표현된다: $A = U \Sigma V^T$ 이때 $U$, $\Sigma$, $V$를 활용하여 다양한 분석이 가능하다. 예를 들어: - $U^T A = \Sigma V^T \in \mathbb{R}^{k \times d}$: 의미축(latent semantic directions) 기준으로 문장들을 투영한 결과 - $AV = U \Sigma \in \mathbb{R}^{.. 2025. 5. 27. Regression(회귀) Metric 머신러닝 회귀 문제에서는 모델이 예측한 값과 실제 값 사이의 차이를 기반으로 성능을 평가한다. 회귀는 결과가 연속적인 숫자이기 때문에, 분류와는 다른 평가지표(metric)를 사용한다. 대표적인 회귀 메트릭으로는 MAE, MSE, RMSE, R² (R-squared) 등이 있다. 1. MAE (Mean Absolute Error) MAE는 예측값과 실제값 사이의 절대값 차이의 평균이다. 오차를 직관적으로 해석할 수 있고, 이상치에 덜 민감하다. $$\text{MAE} = \frac{1}{n} \sum_{i=1}^{n} |y_i - \hat{y}_i|$$ 2. MSE (Mean Squared Error) MSE는 예측값과 실제값의 차이를 제곱해서 평균을 낸 것이다. 큰 오차에 더 큰 벌점을 주기 때문에, .. 2025. 5. 25. Classification(분류) Metric 머신러닝 분류 문제에서 모델이 얼마나 잘 작동하는지를 평가하기 위해 다양한 메트릭(metric)이 사용된다. 가장 기본적인 메트릭은 Accuracy(정확도)이지만, 데이터의 특성이나 목적에 따라 Precision(정밀도), Recall(재현율), F1 Score 등 다른 지표들이 더 유용한 경우도 많다. 1. Accuracy (정확도) Accuracy는 전체 데이터 중에서 모델이 정답을 맞춘 비율을 의미한다. 가장 직관적인 메트릭이며, 클래스 비율이 균형 잡힌 데이터셋에서는 성능을 평가하기에 좋은 지표다. $$\text{Accuracy} = \frac{TP + TN}{TP + FP + FN + TN}$$ TP: True Positive TN: True Negative FP: False Positi.. 2025. 5. 25. 샘플링과 리샘플링 1. 샘플링전체 데이터 집합(모집단)에서 일부 데이터를 선택(Sampling)하여 분석하는 과정으로 전체 데이터를 분석하기 어렵거나 비용이 많이 들 때, 대표적인 일부만 분석하여 전체를 추정하는 과정이다.샘플링은 다음과 같은 종류로 나뉘는데, 단순 무작위 샘플링 (Simple Random Sampling): 모든 개체가 동일한 확률로 선택층화 샘플링 (Stratify Sampling): 모집단을 여러 층(집단)으로 나눈 후 각 층에서 샘플을 추출군집 샘플링 (Cluster Sampling): 모집단을 여러 개의 군집으로 나누고, 일부 군집을 무작위로 선택계통 샘플링 (Systematic Sampling): 일정한 간격으로 데이터를 선택 (예: 10번째마다)2. 리샘플링이미 확보된 데이터(샘플)에서 반복적.. 2025. 5. 25. 이전 1 2 다음