Introduction
Pre-Training
Step 1: Download and preprocess the internet
Step 2: Tokenization
Step 3: Neural network training
Step 4: Inference
Base model
Post-Training: Supervised Finetuning
Conversations
Hallucinations
Knowledge of Self
Models need tokens to think
Things the model cannot do well
Post-Training: Reinforcement Learning
Reinforcement learning
DeepSeek-R1
AlphaGo
Reinforcement learning from human feedback (RLHF)
Preview of things to come
Keeping track of LLMs
Where to find LLMs
🔍 핵심 포인트
OpenAI는 강화학습(RL) 기반의 LLM 훈련 방식과 모델을 공개하지 않음.
반면, DeepSeek은 강화학습을 적용한 모델(DR1)을 오픈소스로 공개, 연구자들이 직접 활용할 수 있도록 함.
이는 AI 연구 커뮤니티에서 강화학습 기반 LLM 연구를 가속화하는 전환점이 됨.
📈 강화학습 적용 후 변화
수학 문제 해결 능력 대폭 향상
다양한 방법으로 접근하며 정확도가 점진적으로 증가
모델이 스스로 추론 과정을 형성
🧐 "잠깐, 다시 확인해 볼게."
🤔 "이 접근이 맞는지 다른 방법으로 검증해 보자."
✅ "이제 정답을 확신할 수 있어!"
🤯 모델이 인간과 유사한 사고 과정을 학습하며 자연스럽게 문제 해결 전략을 구축하는 것이 핵심!
💻 오픈 소스 모델로 공개됨
직접 다운로드하여 실행 가능 (⚠️ 고성능 장비 필요)
☁️ 클라우드 서비스 활용 가능
DeepSeek 공식 웹사이트
Together.ai에서 딥시크 R1 실행 가능
🔬 구글의 Gemini 2.0 Flash (Thinking Experimental) 모델도 유사한 기능 제공
🎯 어떤 상황에서 어떤 모델을 사용할까?
📚 일반적인 지식 질문: 기존 LLM 사용 (⚡ 빠른 답변)
🧠 수학, 논리적 사고가 필요한 문제: reasoning 모델 사용 (📈 높은 정확도)