Introduction
Pre-Training
Step 1: Download and preprocess the internet
Step 2: Tokenization
Step 3: Neural network training
Step 4: Inference
Base model
Post-Training: Supervised Finetuning
Conversations
Hallucinations
Knowledge of Self
Models need tokens to think
Things the model cannot do well
Post-Training: Reinforcement Learning
Reinforcement learning
DeepSeek-R1
AlphaGo
Reinforcement learning from human feedback (RLHF)
Preview of things to come
Keeping track of LLMs
Where to find LLMs
기존의 강화 학습은 정답을 명확하게 검증할 수 있는(✅ Verifiable) 도메인에서 활용하기 쉽다. 예를 들어, "3+2=?" 같은 문제에서는 정답이 5로 명확하며, 이를 평가하는 것은 간단하다. 하지만 검증이 어려운(Unverifiable) 도메인에서는 이러한 평가 방식이 어렵다. 대표적인 예로 유머 생성, 시 쓰기, 요약하기 같은 창의적 작업이 있다.
강화 학습을 적용하려면 엄청난 양의 데이터와 평가가 필요하다.
예를 들어, 유머 생성 모델을 강화 학습하려면 수백만 개의 농담을 생성하고, 이를 사람이 직접 평가해야 한다. 😵
그러나 사람이 직접 모든 출력을 평가하는 것은 불가능할 정도로 비효율적이다.
👉 인간 평가 데이터를 학습한 보상 모델(Reward Model)을 활용하여 자동화!
1️⃣ 사람이 일부 데이터(예: 5개의 농담)를 보고 순위를 매김
2️⃣ 이 데이터를 바탕으로 보상 모델(Reward Model)을 훈련
3️⃣ 이후에는 실제 사람이 아닌 보상 모델을 통해 자동 평가
4️⃣ 보상 모델을 기준으로 강화 학습을 진행
💡 즉, 실제 사람이 평가하는 대신, "사람처럼 평가하는 모델"을 만들어 대체하는 것!
🎯 검증 불가능한 도메인에서도 강화 학습 가능!
🎯 데이터 라벨링이 쉬워짐 (정답을 직접 작성하는 대신, 순위만 매기면 됨)
🎯 모델의 성능이 개선됨 (ChatGPT 같은 AI 성능 향상)
보상 모델은 실제 인간이 아닌 시뮬레이션된 인간이다.
따라서 모델이 인간의 평가 방식을 완벽하게 재현하지 못할 수도 있음 🤔
강화 학습을 오래 실행하면 모델이 보상 모델의 허점을 찾아 잘못된 방식으로 높은 점수를 받는 법을 학습할 수 있음.
예를 들어, "펠리컨 농담"을 학습하는 도중, 이상한 단어 조합(예: "the the the")이 보상 모델에서 높은 점수를 받는 경우 발생! 🤯
이를 막으려면 학습을 너무 오래 진행하지 않고 적절한 시점에서 멈춰야 함.
💡 RLHF는 RL을 무한히 실행할 수 있는 완벽한 솔루션이 아님!
✅ 보상 모델을 이용해 인간 평가를 대체함으로써 강화 학습을 효율적으로 적용할 수 있지만,
⚠️ 보상 모델의 한계를 넘어설 수 없으며, 일정 수준에서 학습을 중단해야 함.