[유튜브 강의 정리] 안드레 카파시 - Deep Dive into LLMs like ChatGPT

Introduction

Pre-Training

Step 1: Download and preprocess the internet

Step 2: Tokenization

Step 3: Neural network training

Step 4: Inference

Base model

Post-Training: Supervised Finetuning

Conversations

Hallucinations

Knowledge of Self

Models need tokens to think

Things the model cannot do well

Post-Training: Reinforcement Learning

Reinforcement learning

DeepSeek-R1

AlphaGo

Reinforcement learning from human feedback (RLHF)

Preview of things to come

Keeping track of LLMs

Where to find LLMs

Post-Training: Supervised Finetuning

1️⃣ Base Model의 한계

  • 사전 훈련(Pretraining)을 거친 베이스 모델은 인터넷 문서의 통계적 특성을 학습한 "텍스트 예측기"일 뿐임.

  • 즉, 특정 질문을 하면 의미 있는 답을 주는 것이 아니라, 그저 인터넷 문서와 유사한 텍스트를 생성할 가능성이 큼.

  • 이러한 모델을 직접 활용하면 비효율적이며, 원하는 방식으로 동작하지 않을 수 있음.


2️⃣ 후 훈련(Post-training)의 필요성

  • 단순한 텍스트 생성이 아니라 사용자 질문에 유용한 답변을 제공하는 "AI 어시스턴트"로 발전시키기 위해 후 훈련이 필요.

  • 베이스 모델이 단순히 문서를 시뮬레이션하는 수준에서 벗어나, 대화형 AI로 활용될 수 있도록 정제하는 과정임.

  • 후 훈련을 통해 모델이 보다 논리적이고 일관된 응답을 제공하며, 인간의 기대에 맞게 행동하도록 조정됨.