[유튜브 강의 정리] 안드레 카파시 - Deep Dive into LLMs like ChatGPT

Introduction

Pre-Training

Step 1: Download and preprocess the internet

Step 2: Tokenization

Step 3: Neural network training

Step 4: Inference

Base model

Post-Training: Supervised Finetuning

Conversations

Hallucinations

Knowledge of Self

Models need tokens to think

Things the model cannot do well

Post-Training: Reinforcement Learning

Reinforcement learning

DeepSeek-R1

AlphaGo

Reinforcement learning from human feedback (RLHF)

Preview of things to come

Keeping track of LLMs

Where to find LLMs

Post-Training: Reinforcement Learning

1. 대규모 언어 모델의 학습 과정

대규모 언어 모델(LLM)은 보통 아래 세 가지 주요 학습 단계를 순서대로 거치며 발전.

📌 1.1 사전 훈련 (Pre-training) – 기본 모델 구축

🔹 훈련 방식: 인터넷 문서를 학습하여 다음 단어를 예측하는 방식
🔹 목적: 언어의 패턴을 익히고 문맥을 이해하는 능력을 갖추기
🔹 특징
✅ 방대한 지식 습득 (다양한 주제 학습)
✅ 자연스러운 문장 생성 가능
⚠️ 그러나, 단순한 인터넷 문서 예측 모델 → 실용성이 낮음


📌 1.2 지도학습 미세조정 (SFT) – AI 비서로 발전

🔹 훈련 방식:

  • 인터넷 문서 대신 사람이 직접 작성한 대화 데이터셋 사용

  • 사람이 질문(프롬프트)과 이상적인 답변(정답 데이터) 제공

🔹 특징
✅ 더 자연스럽고 유용한 대화 가능
✅ 전문가의 답변을 학습하여 특정 작업 수행 능력 향상
⚠️ 하지만, 단순한 모방 학습이라 새로운 문제 해결 능력이 부족


📌 1.3 강화학습 (RL) – 신뢰성 향상 및 최적화

🔹 훈련 방식:

  • 모델이 스스로 해결 방법을 찾아가는 방식

  • 문제(프롬프트)와 정답(출력값)은 주어지지만, 해결 과정은 직접 탐색

  • 인간 피드백을 반영한 강화학습 기법(RLHF) 사용

🔹 특징
✅ 창의적 문제 해결 가능 (새로운 질문에도 유연한 대응)
✅ 환각(Hallucination) 문제 감소 (사실과 다른 정보 생성 방지)
⚠️ 훈련 비용과 시간이 많이 소요됨


2. 강화학습의 필요성 및 기업 활용

📌 2.1 강화학습이 필요한 이유

  • 지도학습(SFT) 모델은 단순한 전문가 모방

  • 강화학습을 통해 더 신뢰성 높은 답변과 창의적인 해결책 제공 가능


📌 2.2 기업에서의 활용 (예: OpenAI)

OpenAI 같은 기업에서는 각 학습 단계마다 전문 팀을 운영하며 모델을 개선.

1️⃣ 사전 훈련 팀 → 인터넷 문서 학습, 기본 모델 구축
2️⃣ 지도학습 미세조정 팀 → 인간이 제공한 데이터 학습, AI 비서로 최적화
3️⃣ 강화학습 팀 → 모델의 응답 품질을 높여 더 신뢰할 수 있도록 개선


3. 텍스트북 예시: 학습 과정의 비유

대규모 언어 모델의 학습 과정은 학교 공부 방식과 유사.

📖 사전 훈련 → 교과서 읽기

  • 학생이 교과서를 읽으며 배경 지식을 습득하는 과정

  • AI도 인터넷 문서를 학습하며 언어 지식을 습득

📝 지도학습 미세조정 → 예제 풀이

  • 학생이 모범 답안을 보며 문제 해결법을 배우는 과정

  • AI도 인간이 제공한 데이터를 학습하여 더 나은 답변 생성

🎯 강화학습 → 연습 문제 풀이

  • 학생이 스스로 연습 문제를 풀며 해결 방법을 찾는 과정

  • AI도 여러 해결책을 시도하며 최적의 답변을 찾아감