Introduction
Pre-Training
Step 1: Download and preprocess the internet
Step 2: Tokenization
Step 3: Neural network training
Step 4: Inference
Base model
Post-Training: Supervised Finetuning
Conversations
Hallucinations
Knowledge of Self
Models need tokens to think
Things the model cannot do well
Post-Training: Reinforcement Learning
Reinforcement learning
DeepSeek-R1
AlphaGo
Reinforcement learning from human feedback (RLHF)
Preview of things to come
Keeping track of LLMs
Where to find LLMs
대규모 언어 모델(LLM)은 보통 아래 세 가지 주요 학습 단계를 순서대로 거치며 발전.
🔹 훈련 방식: 인터넷 문서를 학습하여 다음 단어를 예측하는 방식
🔹 목적: 언어의 패턴을 익히고 문맥을 이해하는 능력을 갖추기
🔹 특징
✅ 방대한 지식 습득 (다양한 주제 학습)
✅ 자연스러운 문장 생성 가능
⚠️ 그러나, 단순한 인터넷 문서 예측 모델 → 실용성이 낮음
🔹 훈련 방식:
인터넷 문서 대신 사람이 직접 작성한 대화 데이터셋 사용
사람이 질문(프롬프트)과 이상적인 답변(정답 데이터) 제공
🔹 특징
✅ 더 자연스럽고 유용한 대화 가능
✅ 전문가의 답변을 학습하여 특정 작업 수행 능력 향상
⚠️ 하지만, 단순한 모방 학습이라 새로운 문제 해결 능력이 부족
🔹 훈련 방식:
모델이 스스로 해결 방법을 찾아가는 방식
문제(프롬프트)와 정답(출력값)은 주어지지만, 해결 과정은 직접 탐색
인간 피드백을 반영한 강화학습 기법(RLHF) 사용
🔹 특징
✅ 창의적 문제 해결 가능 (새로운 질문에도 유연한 대응)
✅ 환각(Hallucination) 문제 감소 (사실과 다른 정보 생성 방지)
⚠️ 훈련 비용과 시간이 많이 소요됨
지도학습(SFT) 모델은 단순한 전문가 모방
강화학습을 통해 더 신뢰성 높은 답변과 창의적인 해결책 제공 가능
OpenAI 같은 기업에서는 각 학습 단계마다 전문 팀을 운영하며 모델을 개선.
1️⃣ 사전 훈련 팀 → 인터넷 문서 학습, 기본 모델 구축
2️⃣ 지도학습 미세조정 팀 → 인간이 제공한 데이터 학습, AI 비서로 최적화
3️⃣ 강화학습 팀 → 모델의 응답 품질을 높여 더 신뢰할 수 있도록 개선
대규모 언어 모델의 학습 과정은 학교 공부 방식과 유사.
📖 사전 훈련 → 교과서 읽기
학생이 교과서를 읽으며 배경 지식을 습득하는 과정
AI도 인터넷 문서를 학습하며 언어 지식을 습득
📝 지도학습 미세조정 → 예제 풀이
학생이 모범 답안을 보며 문제 해결법을 배우는 과정
AI도 인간이 제공한 데이터를 학습하여 더 나은 답변 생성
🎯 강화학습 → 연습 문제 풀이
학생이 스스로 연습 문제를 풀며 해결 방법을 찾는 과정
AI도 여러 해결책을 시도하며 최적의 답변을 찾아감