본문 바로가기
공부/통계 및 수학

샘플링과 리샘플링

by ctrlab 2025. 5. 25.

1. 샘플링

전체 데이터 집합(모집단)에서 일부 데이터를 선택(Sampling)하여 분석하는 과정으로 전체 데이터를 분석하기 어렵거나 비용이 많이 들 때, 대표적인 일부만 분석하여 전체를 추정하는 과정이다.

샘플링은 다음과 같은 종류로 나뉘는데, 

  • 단순 무작위 샘플링 (Simple Random Sampling)
    : 모든 개체가 동일한 확률로 선택
  • 층화 샘플링 (Stratify Sampling)
    : 모집단을 여러 층(집단)으로 나눈 후 각 층에서 샘플을 추출
  • 군집 샘플링 (Cluster Sampling)
    : 모집단을 여러 개의 군집으로 나누고, 일부 군집을 무작위로 선택
  • 계통 샘플링 (Systematic Sampling)
    : 일정한 간격으로 데이터를 선택 (예: 10번째마다)

2. 리샘플링

이미 확보된 데이터(샘플)에서 반복적으로 데이터를 추출하거나 재구성하여 분석하는 방법으로 모델의 성능 평가, 불확실성 추정, 검증용 데이터 생성을 위해 사용하는 과정이다.

리샘플링은 다음과 같은 종류들로 나뉘는데,

  • 교차 검증 (Cross-Validation)
    : 데이터를 여러 번 나누어 학습과 검증을 반복 → 모델 성능을 안정적으로 추정
    : K-Fold Cross Validation, Stratified K-Fold, Leave-One-Out Cross Validation
  • 부트스트래핑 (Bootstrapping)
    : 복원 추출로 여러 샘플을 만들어서 통계량의 분포와 신뢰구간을 추정
    : 작은 데이터로도 통계적 추정이 가능하고, 앙상블 기법(Random Forest 등)에 사용 → 모집단을 몰라도 샘플에서 여러번 리샘플링한 데이터를 이용하여 학습하게 되면 모집단에서 여러번 샘플링한 것과 같은 효과를 낼 수 있음

 

'공부 > 통계 및 수학' 카테고리의 다른 글

고유값과 고유벡터  (0) 2025.05.20