Introduction
Pre-Training
Step 1: Download and preprocess the internet
Step 2: Tokenization
Step 3: Neural network training
Step 4: Inference
Base model
Post-Training: Supervised Finetuning
Conversations
Hallucinations
Knowledge of Self
Models need tokens to think
Things the model cannot do well
Post-Training: Reinforcement Learning
Reinforcement learning
DeepSeek-R1
AlphaGo
Reinforcement learning from human feedback (RLHF)
Preview of things to come
Keeping track of LLMs
Where to find LLMs
✔ AI 모델은 왼쪽에서 오른쪽으로 순차적으로 단어(토큰)를 생성하며 사고한다.
✔ 한 번의 토큰 생성에서 처리할 수 있는 계산량이 제한적이다.
✔ 즉, 복잡한 문제를 한 번에 해결하려 하면 정확도가 떨어질 가능성이 높다.
💡 문제:
Emily가 사과 3개와 오렌지 2개를 샀다. 오렌지 1개는 $2, 총 가격은 $13. 사과 한 개의 가격은?
"정답은 3"
🔴 이유:
모델이 모든 계산을 한 번에 수행해야 하므로, 연산량이 과부하됨.
복잡한 문제에서 오답 가능성이 높아짐.
"오렌지 2개의 가격은 $4. 총 가격에서 $4를 빼면 $9. 사과 3개의 가격이므로, 사과 1개는 $3."
🟢 이유:
모델이 단계별로 사고하도록 유도하여 학습 효과가 향상됨.
모델이 복잡한 문제를 논리적으로 해결할 수 있도록 돕는 방식.
🚨 모델은 한 번의 연산(토큰 예측)에서 너무 많은 계산을 수행할 수 없다.
📉 숫자가 커질수록 오답 가능성이 증가한다.
✔ 해결책
단계별 계산 과정을 포함한 답변을 생성하도록 유도
중간 결과를 포함해 논리적인 접근을 하도록 가이드
🤖 AI 모델의 계산 능력은 제한적이지만, 코드를 작성하는 능력은 뛰어나다.
💡 Python 같은 프로그래밍 언어를 활용하면 보다 정확한 계산이 가능하다.
✔ 예시:
"사과 한 개의 가격을 계산하는 Python 코드를 작성해줘"
➡ 모델이 price = (13 - 2*2) / 3
같은 코드를 실행하여 정확한 답을 도출할 수 있음.
📌 결론:
모델이 직접 계산하는 대신, 코드 실행 기능을 활용하면 정확도가 올라간다.
복잡한 계산 문제에서는 Python 코드 실행을 적극 활용하는 것이 좋다.