본문 바로가기

ML/Statistics

(5)
[ML] Statistics - 기술 통계: 요약 지표 알아야 하는 이유인공지능 모델은 데이터를 학습하고 패턴을 찾아내는 과정에서 "데이터가 어떻게 분포되어 있는지"를 이해해야 한다. 평균과 기대값은 데이터의 중심(전형적인 값)을 알려주고,분산과 표준편차는 데이터가 얼마나 퍼져 있는지(불확실성, 변동성)를 보여준다.공분산과 상관계수는 두 변수 사이의 관계(어느 방향으로 함께 변하는지)를 설명한다. 이런 통계적 지표들은 모델이 데이터를 제대로 학습하고 있는지 평가하거나, 데이터 전처리(정규화 등) 과정에서 자주 사용된다.예를 들어,모델 학습 전에 입력 데이터의 평균과 분산을 이용해 정규화하면 학습 속도와 성능이 향상된다.피처 간 상관관계를 보면 중복된 정보를 줄이거나 새로운 feature를 만들 때 도움이 된다.이처럼 인공지능 모델을 제대로 만들고 성능을 높이..
[ML] Statistics - ⭐️ 확률 변수 간 관계 알아야 하는 이유인공지능 모델은 보통 주어진 조건(입력)을 바탕으로 예측 결과(출력)를 만들어낸다.이 과정 자체가 조건부 확률 개념에 기반한다. 예를 들어, 이메일 필터링 모델이 이메일 제목과 본문이 주어졌을 때 스팸일 확률을 예측하거나,의료 인공지능이 환자의 검사 결과가 주어졌을 때 특정 질병일 확률을 추론하는 것도 조건부 확률의 활용이다. 또한 베이즈 정리를 통해 관측된 결과(데이터)를 바탕으로 원인을 추론하거나,딥러닝 모델의 불확실성(uncertainty)을 평가할 때 중요한 역할을 한다. 이처럼 딥러닝 모델을 잘 이해하고 성능을 높이기 위해서는 조건부 확률과 베이즈 정리에 대한 이해가 반드시 필요하다.독립 변수와 종속 변수독립 변수: 다른 변수에 의하여 영향을 받지 않는 변수종속 변수: 어떠한 변..
[ML] Statistics - ⭐️ 연속 확률 분포 알아야 하는 이유 예를 들어, 인공지능 모델이 사람의 키, 몸무게, 온도 같은 연속적인 수치 데이터를 예측하거나 분류할 때가 많다.이런 경우 예측값이나 실제 데이터가 딱 떨어지는 정수나 이산값이 아니라, 실수 값으로 나타나므로,이산확률분포 대신 연속확률분포를 이해하고 활용해야 한다. 이산확률분포가 “성공/실패 같은 명확한 결과의 횟수”를 다룬다면,연속확률분포는 “측정값이나 예측값처럼 실수 범위에 있는 값들의 분포와 불확실성”을 이해하고 다루는 데 필수적이다.따라서 딥러닝에서 데이터 특성에 맞는 확률분포를 선택하고 활용하려면 연속확률분포에 대한 이해가 꼭 필요하다.⭐️ 연속 확률 분포(Contrinuous Probability Distribution)확률 변수 X가 취할 수 있는 값이 무한한 경우에 사용됨..
[ML] Statistics - 이산 확률 분포 알아야 하는 이유 예를 들어, 고양이 이미지를 분류하는 인공지능 모델이 있다고 가정해보자.이 모델이 5장의 이미지 중 4장을 정확하게 분류한다고 할 때,10장의 고양이 이미지 중 정확히 7장을 맞출 확률은 얼마나 될까? 이는 분류 성공/실패 두 가지 결과로 이루어진 이산 확률 문제이며,이 경우 이산 확률 분포 중 하나인 이항 분포를 통해 확률을 계산할 수 있다.베르누이 시행(Bernoulli Trial)결과가 두 가지 중 하나로만 나오는 시행을 의미한다.예시 1) 입학 시험: 합격 / 불합격예시 2) 동전 던지기: 앞면 / 뒷면 베르누이 시행의 확률 변수0(실패)과 1(성공)로 나타낼 수 있다.이 확률 변수는 0 또는 1만 가지므로, 이산 확률 변수이다. 베르누이 확률 분포베르누이 확률 변수의 분포를 ..
[ML] Statistics - 확률 기초 확률을 알아야 하는 이유일반적으로 기계학습 모델의 출력은 확률 형태를 띤다. 이미지 분류 모델이 이미지 x에 대해서 75% 확률로 고양이일 것이라고 예측했다.글 쓰기 모델은 "나는 밥을" 이후에 "먹었다"라는 단어가 나올 확률을 42%로 예측했다. 그렇다면 모델은 어떤 기준으로 "확률"을 출력했을까?이는 확률 분포와 관련이 있는데, 확률 분포를 이해하려면 확률의 개념을 알아야 한다.확률이란?확률(Probability)- 특정한 사건이 일어날 가능성을 수로 표현한 것- 확률은 0부터 1(100%) 사이의 실수로 표현실수(Real Number)- 수직선 위에 표시할 수 있는 모든 수- 자연수(1, 2, ...), 정수(-1, 0, 1, ...), 유리수(분수), 무리수(π 등)를 포함하는 모든 수 경우의 수..