[유튜브 강의 정리] 안드레 카파시 - Deep Dive into LLMs like ChatGPT

Introduction

Pre-Training

Step 1: Download and preprocess the internet

Step 2: Tokenization

Step 3: Neural network training

Step 4: Inference

Base model

Post-Training: Supervised Finetuning

Conversations

Hallucinations

Knowledge of Self

Models need tokens to think

Things the model cannot do well

Post-Training: Reinforcement Learning

Reinforcement learning

DeepSeek-R1

AlphaGo

Reinforcement learning from human feedback (RLHF)

Preview of things to come

Keeping track of LLMs

Where to find LLMs

Step 4: Inference

추론 과정 (Inference): 훈련이 끝난 후, 모델을 사용하여 새로운 텍스트를 생성하는 과정.

핵심 원리: 일부 텍스트(프롬프트)를 입력하면, 가장 가능성 높은 다음 토큰을 하나씩 생성하여 문장을 완성.

📌 예제

➡️ 반복하면 문장이 점점 확장됨. ChatGPT는 이런 식으로 사용자의 입력(프롬프트)에 따라 자연스럽게 문장을 이어나가며 대화를 생성함.