[유튜브 강의 정리] 안드레 카파시 - Deep Dive into LLMs like ChatGPT

Introduction

Pre-Training

Step 1: Download and preprocess the internet

Step 2: Tokenization

Step 3: Neural network training

Step 4: Inference

Base model

Post-Training: Supervised Finetuning

Conversations

Hallucinations

Knowledge of Self

Models need tokens to think

Things the model cannot do well

Post-Training: Reinforcement Learning

Reinforcement learning

DeepSeek-R1

AlphaGo

Reinforcement learning from human feedback (RLHF)

Preview of things to come

Keeping track of LLMs

Where to find LLMs

Models need tokens to think

1. AI 모델의 기본 연산 구조

✔ AI 모델은 왼쪽에서 오른쪽으로 순차적으로 단어(토큰)를 생성하며 사고한다.
한 번의 토큰 생성에서 처리할 수 있는 계산량이 제한적이다.
✔ 즉, 복잡한 문제를 한 번에 해결하려 하면 정확도가 떨어질 가능성이 높다.


2. 좋은 답변 vs. 나쁜 답변 (수학 문제 예시)

💡 문제:
Emily가 사과 3개와 오렌지 2개를 샀다. 오렌지 1개는 $2, 총 가격은 $13. 사과 한 개의 가격은?

🚫 나쁜 답변 ("정답을 바로 말하는 경우")

"정답은 3"

🔴 이유:

  • 모델이 모든 계산을 한 번에 수행해야 하므로, 연산량이 과부하됨.

  • 복잡한 문제에서 오답 가능성이 높아짐.

✅ 좋은 답변 ("단계별 계산 과정 포함")

"오렌지 2개의 가격은 $4. 총 가격에서 $4를 빼면 $9. 사과 3개의 가격이므로, 사과 1개는 $3."

🟢 이유:

  • 모델이 단계별로 사고하도록 유도하여 학습 효과가 향상됨.

  • 모델이 복잡한 문제를 논리적으로 해결할 수 있도록 돕는 방식.


3. 모델이 복잡한 계산을 어려워하는 이유

🚨 모델은 한 번의 연산(토큰 예측)에서 너무 많은 계산을 수행할 수 없다.
📉 숫자가 커질수록 오답 가능성이 증가한다.

해결책

  • 단계별 계산 과정을 포함한 답변을 생성하도록 유도

  • 중간 결과를 포함해 논리적인 접근을 하도록 가이드


cf) 코드 실행 기능을 활용하면 더 정확한 답을 얻을 수 있다

🤖 AI 모델의 계산 능력은 제한적이지만, 코드를 작성하는 능력은 뛰어나다.
💡 Python 같은 프로그래밍 언어를 활용하면 보다 정확한 계산이 가능하다.

예시:
"사과 한 개의 가격을 계산하는 Python 코드를 작성해줘"
➡ 모델이 price = (13 - 2*2) / 3 같은 코드를 실행하여 정확한 답을 도출할 수 있음.

📌 결론:

  • 모델이 직접 계산하는 대신, 코드 실행 기능을 활용하면 정확도가 올라간다.

  • 복잡한 계산 문제에서는 Python 코드 실행을 적극 활용하는 것이 좋다.