본문 바로가기

ML

(10)
[ML] 학습의 종류 왜 다양한 학습 방식이 존재할까?머신러닝 모델은 "데이터"를 통해 학습합니다. 그런데 데이터가 항상 ‘완벽하게 준비’된 건 아닙니다.따라서 머신러닝은 데이터 구성과 학습 목적에 따라 다양한 방식으로 발전해왔습니다.지도 학습 (Supervised Learning)정의: 입력과 그에 대응되는 정답(라벨)이 있는 데이터를 사용목적: 입력을 기반으로 정확한 출력을 예측예시:이메일 → 스팸/비스팸 분류고양이/강아지 이미지 분류대표 알고리즘: Logistic Regression, SVM, CNN, BERT (Fine-tuning 시)비지도 학습 (Unsupervised Learning)정의: 정답(라벨) 없이 입력 데이터만 가지고 패턴이나 구조를 학습목적: 데이터 군집화, 차원 축소, 이상 탐지 등예시:뉴스 기사 ..
[ML] CNN vs RNN vs GAN CNN (Convolutional Neural Network) - 합성곱 신경망주요 용도: 이미지 인식, 객체 탐지, 영상 처리핵심 아이디어: 이미지의 공간적 특성을 보존하면서 특징 추출구조 특징:컨벌루션 계층: 입력 영상을 일련의 컨벌루션 필터에 통과시킵니다. 각 필터는 영상에서 특정 특징을 활성화합니다.ReLU(Rectified Linear Unit) 계층: 음수 값은 0에 매핑하고 양수 값은 그대로 두어서 더 빠르고 효과적인 훈련이 이루어지도록 합니다. 이때 활성화된 특징만 다음 계층으로 전달되므로 이를활성화라고도 합니다.풀링 계층: 비선형 다운샘플링을 수행하여 신경망이 학습해야 하는 파라미터의 개수를 줄임으로써 출력을 단순화합니다.이러한 연산이 수십 또는 수백 개의 계층에 대해 반복되며, 각 계층..
[ML] AI vs ML vs DL AI(Artificial Intelligence)?인간처럼 생각하고, 학습하고, 문제를 해결하는 '지능'을 컴퓨터에 구현하는 모든 기술을 통칭합니다.ML이 아닌 AI의 경우엔 규칙 기반(Rule Base)으로, 사람이 특징을 구체적으로 지정해 준다는 차이점이 있습니다.예를 들어, 고양이와 강아지를 분류할 때 둘의 특징을 사람이 파악해서 알려줘야 합니다.예시: 바둑 두는 컴퓨터, 음성 인식, 자율주행 자동차, 챗봇 등 ML(Machine Learning)?AI의 한 분야입니다.컴퓨터가 "데이터"를 통해 "스스로" 규칙을 학습하고, 예측이나 분류를 할 수 있도록 만드는 기술입니다.사람이 규칙을 알려주지 않아도, 스스로 데이터에서 패턴을 찾아내는 것이 특징입니다.예시: 스팸 메일 분류, 영화 추천 시스템, 고..
[PyTorch] 단순 뉴런부터 깊은 모델 만들어보기 테스트 환경구글 코랩런타임 유형: GPU """샘플 날씨 데이터 셋 다운로드"""# Commented out IPython magic to ensure Python compatibility.!git clone https://github.com/ndb796/weather_dataset# %cd weather_dataset """라이브러리 import"""import torchimport torchvisionimport torchvision.transforms as transformsimport torchvision.models as modelsimport torchvision.datasets as datasetsimport torch.optim as optimimport torch.nn as nnimpor..
[PyTorch] PyTorch란 PyTorch?PyTorch는 오픈 소스 딥러닝 프레임워크로, Python 언어와 Torch 라이브러리를 기반으로 만들어졌습니다.주로 신경망(Neural Network) 모델을 만들고 학습시키는 데 사용되며, 이미지 인식, 자연어 처리 등 다양한 인공지능 분야에서 활용됩니다.Meta(구 Facebook) AI Research에서 개발되었고, 현재는 PyTorch Foundation에서 관리하고 있습니다.Numpy와 유사한 텐서(Tensor) 연산 기능을 제공하면서, GPU 가속을 통해 대용량 데이터 처리와 빠른 연산이 가능합니다.Numpy와 유사하지만 자동 미분으로 역전파를 쉽게 계산할 수 있다는 점이 특징입니다.왜 PyTorch를 사용하는가? 딥러닝 프레임워크는 여러 가지가 있지만, 그중에서도 PyTo..
[ML] Statistics - 기술 통계: 요약 지표 알아야 하는 이유인공지능 모델은 데이터를 학습하고 패턴을 찾아내는 과정에서 "데이터가 어떻게 분포되어 있는지"를 이해해야 한다. 평균과 기대값은 데이터의 중심(전형적인 값)을 알려주고,분산과 표준편차는 데이터가 얼마나 퍼져 있는지(불확실성, 변동성)를 보여준다.공분산과 상관계수는 두 변수 사이의 관계(어느 방향으로 함께 변하는지)를 설명한다. 이런 통계적 지표들은 모델이 데이터를 제대로 학습하고 있는지 평가하거나, 데이터 전처리(정규화 등) 과정에서 자주 사용된다.예를 들어,모델 학습 전에 입력 데이터의 평균과 분산을 이용해 정규화하면 학습 속도와 성능이 향상된다.피처 간 상관관계를 보면 중복된 정보를 줄이거나 새로운 feature를 만들 때 도움이 된다.이처럼 인공지능 모델을 제대로 만들고 성능을 높이..
[ML] Statistics - ⭐️ 확률 변수 간 관계 알아야 하는 이유인공지능 모델은 보통 주어진 조건(입력)을 바탕으로 예측 결과(출력)를 만들어낸다.이 과정 자체가 조건부 확률 개념에 기반한다. 예를 들어, 이메일 필터링 모델이 이메일 제목과 본문이 주어졌을 때 스팸일 확률을 예측하거나,의료 인공지능이 환자의 검사 결과가 주어졌을 때 특정 질병일 확률을 추론하는 것도 조건부 확률의 활용이다. 또한 베이즈 정리를 통해 관측된 결과(데이터)를 바탕으로 원인을 추론하거나,딥러닝 모델의 불확실성(uncertainty)을 평가할 때 중요한 역할을 한다. 이처럼 딥러닝 모델을 잘 이해하고 성능을 높이기 위해서는 조건부 확률과 베이즈 정리에 대한 이해가 반드시 필요하다.독립 변수와 종속 변수독립 변수: 다른 변수에 의하여 영향을 받지 않는 변수종속 변수: 어떠한 변..
[ML] Statistics - ⭐️ 연속 확률 분포 알아야 하는 이유 예를 들어, 인공지능 모델이 사람의 키, 몸무게, 온도 같은 연속적인 수치 데이터를 예측하거나 분류할 때가 많다.이런 경우 예측값이나 실제 데이터가 딱 떨어지는 정수나 이산값이 아니라, 실수 값으로 나타나므로,이산확률분포 대신 연속확률분포를 이해하고 활용해야 한다. 이산확률분포가 “성공/실패 같은 명확한 결과의 횟수”를 다룬다면,연속확률분포는 “측정값이나 예측값처럼 실수 범위에 있는 값들의 분포와 불확실성”을 이해하고 다루는 데 필수적이다.따라서 딥러닝에서 데이터 특성에 맞는 확률분포를 선택하고 활용하려면 연속확률분포에 대한 이해가 꼭 필요하다.⭐️ 연속 확률 분포(Contrinuous Probability Distribution)확률 변수 X가 취할 수 있는 값이 무한한 경우에 사용됨..