[ML] Statistics - ⭐️ 확률 변수 간 관계

ML/Statistics

제이널 2025. 6. 7. 12:52

알아야 하는 이유

인공지능 모델은 보통 주어진 조건(입력)을 바탕으로 예측 결과(출력)를 만들어낸다.
이 과정 자체가 조건부 확률 개념에 기반한다.

예를 들어, 이메일 필터링 모델이 이메일 제목과 본문이 주어졌을 때 스팸일 확률을 예측하거나,
의료 인공지능이 환자의 검사 결과가 주어졌을 때 특정 질병일 확률을 추론하는 것도 조건부 확률의 활용이다.

또한 베이즈 정리를 통해 관측된 결과(데이터)를 바탕으로 원인을 추론하거나,
딥러닝 모델의 불확실성(uncertainty)을 평가할 때 중요한 역할을 한다.

이처럼 딥러닝 모델을 잘 이해하고 성능을 높이기 위해서는 조건부 확률과 베이즈 정리에 대한 이해가 반드시 필요하다.

독립 변수: 다른 변수에 의하여 영향을 받지 않는 변수
종속 변수: 어떠한 변수에 의해 종속적으로 영향을 받는 변수
예시 1) 공부 시간이 많으면, 성적이 높아진다는 나오는 경향이 있다.
- 공부 시간 = 독립 변수, 성적 = 종속 변수
예시 2) 이미지 x에 따라 분류 모델의 출력 결과가 달라진다.
- 이미지 = 독립 변수, 출력 결과 = 종속 변수
예시 3) 회귀 문제를 예로 들 수 있다.
- 회귀(Regression)란 여러 개의 독립 변수와 한 개의 종속 변수 간의 상관 관계를 모델링하는 기법
- 모델링한다는 의미는 데이터의 관계를 수식이나 규칙으로 만들어서 예측하거나 설명할 수 있게 만드는 것
- 예를 들어, 공부시간, 수면시간, 학원 유무가 시험 점수에 어떤 영향을 주는지 수식으로 표현한다면
  - "시험 점수 = a * 공부시간 + b * 수면 시간 + 학원 여부 + d"와 같은 수식으로 표현할 수 있다.

결합 확률: 두 사건 X와 Y가 동시에 발생할 확률로, 두 확률 변수의 교집합이 발생할 확률
예시) 랜덤으로 1 ~ 9까지의 수 중에서 하나를 출력하는 프로그램이 있을 때
- 그 수가 짝수이면 X = 0, 홀수이면 X = 1
- 그 수가 소수가 아니면 Y = 0, 소수이면 Y = 1
- 그 수가 짝수이면서 소수가 아닐 확률 = f(0, 0) = 3 / 9

주변 확률: 다른 변수는 고려하지 않고, 특정 변수 하나에 대한 확률
즉, 여러 확률 변수 중에서 하나의 확률 변수에 대해서만 확률 분포를 나타낸 함수
예시) 랜덤으로 1 ~ 9까지의 수 중에서 하나를 출력하는 프로그램이 있을 때
- 그 수가 짝수이면 X = 0, 홀수이면 X = 1
- 그 수가 소수가 아니면 Y = 0, 소수이면 Y = 1
- 이 중 그 수가 짝수인 확률 = 4 / 9

확률을 출력하는 모델을 확률 모델이라 한다.
일반적으로 분류 모델 P(y | x)는 다음과 같은 공식으로 예측 결과 ŷ (와이 햇(hat), Predicted Value)을 계산한다.
- ŷ = argmax P(y | x) * P(x) / P(y)