[유튜브 강의 정리] 안드레 카파시 - Deep Dive into LLMs like ChatGPT

Introduction

Pre-Training

Step 1: Download and preprocess the internet

Step 2: Tokenization

Step 3: Neural network training

Step 4: Inference

Base model

Post-Training: Supervised Finetuning

Conversations

Hallucinations

Knowledge of Self

Models need tokens to think

Things the model cannot do well

Post-Training: Reinforcement Learning

Reinforcement learning

DeepSeek-R1

AlphaGo

Reinforcement learning from human feedback (RLHF)

Preview of things to come

Keeping track of LLMs

Where to find LLMs

Reinforcement learning

📌 1. LLM(대형 언어 모델)의 문제 해결 방식

문제를 해결할 때 고려해야 할 두 가지 요소:

1️⃣ 정답 도출 – 정확한 답을 도출하는 것이 최우선 목표
2️⃣ 가독성 및 논리적 설명 – 사람이 이해하기 쉽게 설명하는 것

정답 도출의 관점에서 보자면, 인간과 LLM의 사고방식이 다르기 때문에 인간이 최적의 답변 방식을 미리 정의하는 것은 어렵다.
따라서, LLM은 강화 학습을 통해 스스로 가장 효과적인 해결 방법을 찾아야 한다.


🔍 2. 강화 학습을 활용한 최적의 해결 방법 찾기

강화 학습(RL, Reinforcement Learning)은 LLM이 스스로 최적의 답변을 학습하는 과정이다.
기본적인 학습 방식은 다음과 같다:

🔄 강화 학습의 과정

1️⃣ 모델이 다양한 방식으로 문제를 해결하고 답을 생성
2️⃣ 정답을 맞힌 경우(✅)와 틀린 경우(❌)를 평가
3️⃣ 정답을 도출한 해결 방식(토큰 시퀀스)을 강화하고, 잘못된 방식은 피하도록 조정
4️⃣ 이 과정을 수천~수백만 번 반복하여 최적의 문제 해결 패턴을 학습

결과적으로, LLM이 스스로 실험하고 경험을 축적하면서 가장 효과적인 문제 해결 방법을 발견하게 됨.


📚 3. LLM 학습 과정 (사람의 학습 방식과 비교)

LLM의 학습 방식은 사람이 지식을 습득하는 과정과 유사.

① 사전 학습 (Pre-training): 대량의 텍스트 데이터를 학습해 지식을 축적교과서를 읽으며 개념과 이론을 익힘
② 지도 학습 (Supervised Fine-tuning, SFT): 전문가의 정답 예제(워크드 솔루션)를 학습선생님의 예제 풀이를 보고 따라함
③ 강화 학습 (Reinforcement Learning, RL): 다양한 문제를 직접 풀어보면서 최적의 해결 방법을 학습연습 문제를 풀어보면서 스스로 해결 능력을 키움

지도 학습(SFT)만으로는 LLM이 단순히 정답을 흉내 낼 뿐, 깊이 이해하지 못함.
강화 학습을 통해 스스로 최적의 해결 방법을 찾는 능력을 갖추게 됨.