[유튜브 강의 정리] 안드레 카파시 - Deep Dive into LLMs like ChatGPT

Introduction

Pre-Training

Step 1: Download and preprocess the internet

Step 2: Tokenization

Step 3: Neural network training

Step 4: Inference

Base model

Post-Training: Supervised Finetuning

Conversations

Hallucinations

Knowledge of Self

Models need tokens to think

Things the model cannot do well

Post-Training: Reinforcement Learning

Reinforcement learning

DeepSeek-R1

AlphaGo

Reinforcement learning from human feedback (RLHF)

Preview of things to come

Keeping track of LLMs

Where to find LLMs

DeepSeek-R1

1. 딥시크 R1(DeepSeek-R1)의 중요성과 의의

  • 🔍 핵심 포인트

    • OpenAI는 강화학습(RL) 기반의 LLM 훈련 방식과 모델을 공개하지 않음.

    • 반면, DeepSeek은 강화학습을 적용한 모델(DR1)을 오픈소스로 공개, 연구자들이 직접 활용할 수 있도록 함.

    • 이는 AI 연구 커뮤니티에서 강화학습 기반 LLM 연구를 가속화하는 전환점이 됨.


2. 딥시크 R1의 실제 적용 및 실험 결과

  • 📈 강화학습 적용 후 변화

    • 수학 문제 해결 능력 대폭 향상

    • 다양한 방법으로 접근하며 정확도가 점진적으로 증가

    • 모델이 스스로 추론 과정을 형성

      • 🧐 "잠깐, 다시 확인해 볼게."

      • 🤔 "이 접근이 맞는지 다른 방법으로 검증해 보자."

      • ✅ "이제 정답을 확신할 수 있어!"

  • 🤯 모델이 인간과 유사한 사고 과정을 학습하며 자연스럽게 문제 해결 전략을 구축하는 것이 핵심!


3. 딥시크 R1 사용 방법

  • 💻 오픈 소스 모델로 공개됨

    • 직접 다운로드하여 실행 가능 (⚠️ 고성능 장비 필요)

    • ☁️ 클라우드 서비스 활용 가능

      • DeepSeek 공식 웹사이트

      • Together.ai에서 딥시크 R1 실행 가능

    • 🔬 구글의 Gemini 2.0 Flash (Thinking Experimental) 모델도 유사한 기능 제공


4. 실전 활용법

  • 🎯 어떤 상황에서 어떤 모델을 사용할까?

    • 📚 일반적인 지식 질문: 기존 LLM 사용 (⚡ 빠른 답변)

    • 🧠 수학, 논리적 사고가 필요한 문제: reasoning 모델 사용 (📈 높은 정확도)