ML/Statistics
[ML] Statistics - ⭐️ 확률 변수 간 관계
제이널
2025. 6. 7. 12:52
알아야 하는 이유
인공지능 모델은 보통 주어진 조건(입력)을 바탕으로 예측 결과(출력)를 만들어낸다.
이 과정 자체가 조건부 확률 개념에 기반한다.
예를 들어, 이메일 필터링 모델이 이메일 제목과 본문이 주어졌을 때 스팸일 확률을 예측하거나,
의료 인공지능이 환자의 검사 결과가 주어졌을 때 특정 질병일 확률을 추론하는 것도 조건부 확률의 활용이다.
또한 베이즈 정리를 통해 관측된 결과(데이터)를 바탕으로 원인을 추론하거나,
딥러닝 모델의 불확실성(uncertainty)을 평가할 때 중요한 역할을 한다.
이처럼 딥러닝 모델을 잘 이해하고 성능을 높이기 위해서는 조건부 확률과 베이즈 정리에 대한 이해가 반드시 필요하다.
독립 변수와 종속 변수
- 독립 변수: 다른 변수에 의하여 영향을 받지 않는 변수
- 종속 변수: 어떠한 변수에 의해 종속적으로 영향을 받는 변수
- 예시 1) 공부 시간이 많으면, 성적이 높아진다는 나오는 경향이 있다.
- 공부 시간 = 독립 변수, 성적 = 종속 변수
- 예시 2) 이미지 x에 따라 분류 모델의 출력 결과가 달라진다.
- 이미지 = 독립 변수, 출력 결과 = 종속 변수
- 예시 3) 회귀 문제를 예로 들 수 있다.
- 회귀(Regression)란 여러 개의 독립 변수와 한 개의 종속 변수 간의 상관 관계를 모델링하는 기법
- 모델링한다는 의미는 데이터의 관계를 수식이나 규칙으로 만들어서 예측하거나 설명할 수 있게 만드는 것
- 예를 들어, 공부시간, 수면시간, 학원 유무가 시험 점수에 어떤 영향을 주는지 수식으로 표현한다면
- "시험 점수 = a * 공부시간 + b * 수면 시간 + 학원 여부 + d"와 같은 수식으로 표현할 수 있다.
✅ 결합 확률과 주변 확률
독립 사건
- 두 사건 X와 Y가 동시에 발생했을 때 서로 독립이다. (필요충분조건)
- 두 변수가 서로 영향을 주지 않는다는 뜻
- 예시) 비가 내리는 사건과 밥을 먹고 있는 사건은 독립적이다.
종속 사건
- 두 사건 X와 Y가 동시에 발생했을 때 한 사건의 결과가 다른 사건에 영향을 준다.
- 예시) 비가 내리는 사건과 옷이 비에 젖은 사건은 종속적이다.
배반 사건
- 두 사건 X와 Y가 동시에 일어나지 않고, 교집합이 없다.
- 예시 1) 나의 수학 성적이 50점 이상인 사건과 나의 수학 성적이 50점 미만인 사건
- 예시 2) 동전을 던졌을 때, 앞면 뒷면이 동시에 나올 수 없으므로, 앞면이 나오는 사건과 뒷면이 나오는 사건은 배반 사건이다.
다변수 확률 변수
- 확률 변수가 두 개 이상 있는 경우
- 두 확률 변수를 모두 고려한 "복합적인" 확률 분포를 계산할 수 있다.
- ML에서 입력 변수인 feature가 여러 개인 경우를 예로 들 수 있다.
결합 확률 질량 함수
- 결합 확률: 두 사건 X와 Y가 동시에 발생할 확률로, 두 확률 변수의 교집합이 발생할 확률
- 예시) 랜덤으로 1 ~ 9까지의 수 중에서 하나를 출력하는 프로그램이 있을 때
- 그 수가 짝수이면 X = 0, 홀수이면 X = 1
- 그 수가 소수가 아니면 Y = 0, 소수이면 Y = 1
- 그 수가 짝수이면서 소수가 아닐 확률 = f(0, 0) = 3 / 9
주변 확률 질량 함수
- 주변 확률: 다른 변수는 고려하지 않고, 특정 변수 하나에 대한 확률
- 즉, 여러 확률 변수 중에서 하나의 확률 변수에 대해서만 확률 분포를 나타낸 함수
- 예시) 랜덤으로 1 ~ 9까지의 수 중에서 하나를 출력하는 프로그램이 있을 때
- 그 수가 짝수이면 X = 0, 홀수이면 X = 1
- 그 수가 소수가 아니면 Y = 0, 소수이면 Y = 1
- 이 중 그 수가 짝수인 확률 = 4 / 9
⭐️ 조건부 확률
- 어떠한 사건이 발생했을 때, 다른 사건이 발생할 확률
- 예시) 분류 모델에 이미지 x가 주어졌을 때, 클래스 y가 나올 확률 = P(Y = y | X = x)
- 다음과 같은 이메일이 있다고 하자.
- 학교 계정이 보낸 이메일, 회사 계정이 보낸 이메일
- 스팸 메일, 일반 메일
- 하나의 이메일을 뽑았을 때, 학교 계정으로 온 메일이면서 동시에 스펨 메일일 확률 = 결합 확률
- 하나의 이메일을 뽑았을 때, 학교 계정으로 온 메일일 확율 = 조건부 확률
- 조건부 확률 공식: P(A | B) = P(A ∩ B) / P(B)
⭐️ 베이즈 정리
- 어떤 상황에서 조건부 확률을 구하고자 할 때, 직접적으로 P(Y | X)을 계산할 수 없을 때 사용된다.
- 예시) 지금까지 받은 메일을 확인해보니, 70%는 스팸 메일, 30%는 정상 메일이었다.
- 스팸 메일 중에 90%는 "대출"이라는 단어가 포함되어 있었고,
- 정상 메일 중에 3%는 "대출"이라는 단어가 포함되어 있었다.
- 이때, "대출"이라는 단어가 들어있는 메일이 스팸 메일일 확률은?
- P(스팸 | 대출) = P(대출 | 스팸) * P(대출) / P(스팸)
- P(스팸) = 0.7
- P(정상) = 0.3
- P(대출 | 스팸) = 0.9
- P(대출 | 정상) = 0.03
- P(대출) = P(대출 ∩ 스팸) + P(대출 ∩ 정상)
- 조건부 확률 공식에 의해 아래와 같이 계산됨
- P(대출 ∩ 스팸) = P(대출 | 스팸) * P(스팸)
- P(대출 ∩ 정상) = P(대출 | 정상) * P(정상)
- (0.9 * 0.7) + (0.03 * 0.3) = 0.639
- 대출이 고정되어 있으므로 주변 확률이다.
- P(스팸 | 대출) = P(대출 | 스팸) * P(대출) / P(스팸)
- 이때, "대출"이라는 단어가 들어있는 메일이 스팸 메일일 확률은?
확률 모델
- 확률을 출력하는 모델을 확률 모델이라 한다.
- 일반적으로 분류 모델 P(y | x)는 다음과 같은 공식으로 예측 결과 ŷ (와이 햇(hat), Predicted Value)을 계산한다.
- ŷ = argmax P(y | x) * P(x) / P(y)