Introduction
Pre-Training
Step 1: Download and preprocess the internet
Step 2: Tokenization
Step 3: Neural network training
Step 4: Inference
Base model
Post-Training: Supervised Finetuning
Conversations
Hallucinations
Knowledge of Self
Models need tokens to think
Things the model cannot do well
Post-Training: Reinforcement Learning
Reinforcement learning
DeepSeek-R1
AlphaGo
Reinforcement learning from human feedback (RLHF)
Preview of things to come
Keeping track of LLMs
Where to find LLMs
문제를 해결할 때 고려해야 할 두 가지 요소:
1️⃣ 정답 도출 – 정확한 답을 도출하는 것이 최우선 목표
2️⃣ 가독성 및 논리적 설명 – 사람이 이해하기 쉽게 설명하는 것
정답 도출의 관점에서 보자면, 인간과 LLM의 사고방식이 다르기 때문에 인간이 최적의 답변 방식을 미리 정의하는 것은 어렵다.
따라서, LLM은 강화 학습을 통해 스스로 가장 효과적인 해결 방법을 찾아야 한다.
강화 학습(RL, Reinforcement Learning)은 LLM이 스스로 최적의 답변을 학습하는 과정이다.
기본적인 학습 방식은 다음과 같다:
1️⃣ 모델이 다양한 방식으로 문제를 해결하고 답을 생성
2️⃣ 정답을 맞힌 경우(✅)와 틀린 경우(❌)를 평가
3️⃣ 정답을 도출한 해결 방식(토큰 시퀀스)을 강화하고, 잘못된 방식은 피하도록 조정
4️⃣ 이 과정을 수천~수백만 번 반복하여 최적의 문제 해결 패턴을 학습
결과적으로, LLM이 스스로 실험하고 경험을 축적하면서 가장 효과적인 문제 해결 방법을 발견하게 됨.
LLM의 학습 방식은 사람이 지식을 습득하는 과정과 유사.
① 사전 학습 (Pre-training): 대량의 텍스트 데이터를 학습해 지식을 축적교과서를 읽으며 개념과 이론을 익힘
② 지도 학습 (Supervised Fine-tuning, SFT): 전문가의 정답 예제(워크드 솔루션)를 학습선생님의 예제 풀이를 보고 따라함
③ 강화 학습 (Reinforcement Learning, RL): 다양한 문제를 직접 풀어보면서 최적의 해결 방법을 학습연습 문제를 풀어보면서 스스로 해결 능력을 키움
지도 학습(SFT)만으로는 LLM이 단순히 정답을 흉내 낼 뿐, 깊이 이해하지 못함.
강화 학습을 통해 스스로 최적의 해결 방법을 찾는 능력을 갖추게 됨.