본문 바로가기

ML/Statistics

[ML] Statistics - 기술 통계: 요약 지표

알아야 하는 이유

인공지능 모델은 데이터를 학습하고 패턴을 찾아내는 과정에서 "데이터가 어떻게 분포되어 있는지"를 이해해야 한다.

 

평균과 기대값은 데이터의 중심(전형적인 값)을 알려주고,
분산과 표준편차는 데이터가 얼마나 퍼져 있는지(불확실성, 변동성)를 보여준다.
공분산과 상관계수는 두 변수 사이의 관계(어느 방향으로 함께 변하는지)를 설명한다.

 

이런 통계적 지표들은 모델이 데이터를 제대로 학습하고 있는지 평가하거나, 데이터 전처리(정규화 등) 과정에서 자주 사용된다.

예를 들어,

  • 모델 학습 전에 입력 데이터의 평균과 분산을 이용해 정규화하면 학습 속도와 성능이 향상된다.
  • 피처 간 상관관계를 보면 중복된 정보를 줄이거나 새로운 feature를 만들 때 도움이 된다.

이처럼 인공지능 모델을 제대로 만들고 성능을 높이기 위해서는 기본적인 요약 지표들(평균, 분산, 상관계수 등)을 이해하는 것이 필수적이다.


✅ 평균과 기댓값

평균

  • 산술 평균(arthmetic mean): 실제로 관측된 모든 값을 더해 모든 개수로 나눈 것
    • 단순히 모든 값을 개수로 나눈 것이므로 특정한 데이터 집단을 대표하기엔 어렵다.
    • 예시) 미국의 노스캐롤라니아 대학의 졸업생 평균 연봉이 가장 높은 학과는?
      • 전문직 종사자가 많은 학과가 아닌, 지리학과가 1등을 한 적이 있었다.
      • 당시 마이클 조던이 지리학과 졸업생이었기 때문이다.
  • 중앙값(median): 주어진 값들을 순서대로 정렬했을 때, 가장 중앙에 위치하는 값이다.
    • 예시) 3, 5, 100이 있을 때 평균은 36이지만, 중앙값은 5이다.
  • 평균과 중앙값은 아래 상황에서 사용하는 것이 효과적이다.
    • 평균: 데이터의 분포가 정규분포처럼 대칭적인 경우
    • 중앙값: 데이터의 분포가 비대칭인 경우

 

기댓값(Expectation)

  • 각 사건에 대해 확률 변수와 확률 값을 곱하여, 전체 사건에 대해 모두 더한 값이다.
  • 즉, 확률적으로 예측되는 평균값이다.

 

평균과 기댓값 예시

  • 어떤 가게에서 동전을 던져서 앞면이 나오면 1000원 주고, 뒷면이 나오면 0원을 준다고 한다.
  • 평균
    • 실제로 동전을 10번 던졌더니 6번 앞면(1000원), 4번 뒷면(0원)이 나왔다고 가정했을 때,
    • 받은 총 금액: 6,000원
    • 평균 수익: 6,000원 ÷ 10번 = 600원
    • 즉, 이미 관측된 값에 대해 통계적인 특성을 "분석"할 때 사용
  • 기댓값
    • 동전은 앞면, 뒷면 나올 확률이 각각 50%이다.
    • 이때 동전을 한 번 던질 때 기대할 수 있는 수익 = (1000원 × 0.5) + (0원 × 0.5) = 500원
    • 즉, 새로운 데이터가 관측되었을 때, 그 데이터가 확률적으로 어떤 값을 가질지 "예측"할 때 사용

✅ 분산과 표준편차

분산(Variance)

  • 평균과 관측치에 대해서 편차(difference) 제곱의 평균 값을 의미한다.
  • 데이터가 퍼져있는 정도를 수치로 확인할 때 사용된다.
    • 분산이 작다: 데이터들이 평균에 근접하여 모여 있을수록
    • 분산이 크다: 데이터들이 평균에서 멀리 퍼져 있을수록

 

표준 편차(Standard Deviation)

  • 분산은 편차의 제곱을 사용하기 때문에, 값이 너무 커지는 경향이 있다.
  • 그래서 분산에 제곱근을 씌워 "표준화"한 것이 표준 편차이다.

 

 


공분산과 상관계수

공분산(Covariance)

  • 두 변수가 함께 어떻게 변하는지를 나타내는 지표
  • 데이터가 어떻게 분포되어 있는지에 대한 크기와 방향성을 같이 보여준다.
    • 크기: 원점에서 얼마나 멀리 떨어져 있는지에 대한 수치
    • 방향: 양수/음수에 따라 어느 방향을 가지는지에 대한 수치
  • ML에서는 feature들의 관계를 학습할 때 공분산이 사용된다.

 

🍔 햄버거와 감자튀김

햄버거를 많이 팔면 감자튀김도 많이 팔릴까요?

  • 어떤 날은 햄버거도 많이 팔리고, 감자튀김도 많이 팔려요.
  • 다른 날은 햄버거도 안 팔리고, 감자튀김도 안 팔려요.
    → 이런 경우엔 둘이 같이 움직이니까 공분산이 양수입니다.

반대로,

  • 햄버거가 잘 팔리면 감자튀김은 안 팔리고, 햄버거가 안 팔리면 감자튀김이 잘 팔린다
    → 이런 경우엔 서로 반대 방향으로 움직이니까 공분산은 음수입니다.

그리고,

  • 햄버거 판매와 감자튀김 판매가 아무 상관도 없다면
     공분산은 0에 가까운 값이 됩니다.