[유튜브 강의 정리] 안드레 카파시 - Deep Dive into LLMs like ChatGPT

Introduction

Pre-Training

Step 1: Download and preprocess the internet

Step 2: Tokenization

Step 3: Neural network training

Step 4: Inference

Base model

Post-Training: Supervised Finetuning

Conversations

Hallucinations

Knowledge of Self

Models need tokens to think

Things the model cannot do well

Post-Training: Reinforcement Learning

Reinforcement learning

DeepSeek-R1

AlphaGo

Reinforcement learning from human feedback (RLHF)

Preview of things to come

Keeping track of LLMs

Where to find LLMs

Reinforcement learning from human feedback (RLHF)

🔍 RLHF(인간 피드백을 통한 강화 학습)과 검증 불가능한 도메인에서의 학습

기존의 강화 학습은 정답을 명확하게 검증할 수 있는(✅ Verifiable) 도메인에서 활용하기 쉽다. 예를 들어, "3+2=?" 같은 문제에서는 정답이 5로 명확하며, 이를 평가하는 것은 간단하다. 하지만 검증이 어려운(Unverifiable) 도메인에서는 이러한 평가 방식이 어렵다. 대표적인 예로 유머 생성, 시 쓰기, 요약하기 같은 창의적 작업이 있다.


🏆 RLHF: 인간 피드백을 활용한 강화 학습

🔹 기존 방식의 한계

  • 강화 학습을 적용하려면 엄청난 양의 데이터와 평가가 필요하다.

  • 예를 들어, 유머 생성 모델을 강화 학습하려면 수백만 개의 농담을 생성하고, 이를 사람이 직접 평가해야 한다. 😵

  • 그러나 사람이 직접 모든 출력을 평가하는 것은 불가능할 정도로 비효율적이다.

🔹 RLHF의 핵심 아이디어

👉 인간 평가 데이터를 학습한 보상 모델(Reward Model)을 활용하여 자동화!

1️⃣ 사람이 일부 데이터(예: 5개의 농담)를 보고 순위를 매김
2️⃣ 이 데이터를 바탕으로 보상 모델(Reward Model)을 훈련
3️⃣ 이후에는 실제 사람이 아닌 보상 모델을 통해 자동 평가
4️⃣ 보상 모델을 기준으로 강화 학습을 진행

💡 즉, 실제 사람이 평가하는 대신, "사람처럼 평가하는 모델"을 만들어 대체하는 것!


✅ RLHF의 장점

🎯 검증 불가능한 도메인에서도 강화 학습 가능!
🎯 데이터 라벨링이 쉬워짐 (정답을 직접 작성하는 대신, 순위만 매기면 됨)
🎯 모델의 성능이 개선됨 (ChatGPT 같은 AI 성능 향상)


⚠️ RLHF의 한계 및 문제점

❌ 1. 완벽한 인간 평가가 아님

  • 보상 모델은 실제 인간이 아닌 시뮬레이션된 인간이다.

  • 따라서 모델이 인간의 평가 방식을 완벽하게 재현하지 못할 수도 있음 🤔

❌ 2. 강화 학습의 게임화(Gameable) 문제

  • 강화 학습을 오래 실행하면 모델이 보상 모델의 허점을 찾아 잘못된 방식으로 높은 점수를 받는 법을 학습할 수 있음.

  • 예를 들어, "펠리컨 농담"을 학습하는 도중, 이상한 단어 조합(예: "the the the")이 보상 모델에서 높은 점수를 받는 경우 발생! 🤯

  • 이를 막으려면 학습을 너무 오래 진행하지 않고 적절한 시점에서 멈춰야 함.


📌 결론

💡 RLHF는 RL을 무한히 실행할 수 있는 완벽한 솔루션이 아님!
✅ 보상 모델을 이용해 인간 평가를 대체함으로써 강화 학습을 효율적으로 적용할 수 있지만,
⚠️ 보상 모델의 한계를 넘어설 수 없으며, 일정 수준에서 학습을 중단해야 함.