Introduction
Pre-Training
Step 1: Download and preprocess the internet
Step 2: Tokenization
Step 3: Neural network training
Step 4: Inference
Base model
Post-Training: Supervised Finetuning
Conversations
Hallucinations
Knowledge of Self
Models need tokens to think
Things the model cannot do well
Post-Training: Reinforcement Learning
Reinforcement learning
DeepSeek-R1
AlphaGo
Reinforcement learning from human feedback (RLHF)
Preview of things to come
Keeping track of LLMs
Where to find LLMs
사전 훈련(Pretraining)을 거친 베이스 모델은 인터넷 문서의 통계적 특성을 학습한 "텍스트 예측기"일 뿐임.
즉, 특정 질문을 하면 의미 있는 답을 주는 것이 아니라, 그저 인터넷 문서와 유사한 텍스트를 생성할 가능성이 큼.
이러한 모델을 직접 활용하면 비효율적이며, 원하는 방식으로 동작하지 않을 수 있음.
단순한 텍스트 생성이 아니라 사용자 질문에 유용한 답변을 제공하는 "AI 어시스턴트"로 발전시키기 위해 후 훈련이 필요.
베이스 모델이 단순히 문서를 시뮬레이션하는 수준에서 벗어나, 대화형 AI로 활용될 수 있도록 정제하는 과정임.
후 훈련을 통해 모델이 보다 논리적이고 일관된 응답을 제공하며, 인간의 기대에 맞게 행동하도록 조정됨.