[유튜브 강의 정리] 안드레 카파시 - Deep Dive into LLMs like ChatGPT

Introduction

Pre-Training

Step 1: Download and preprocess the internet

Step 2: Tokenization

Step 3: Neural network training

Step 4: Inference

Base model

Post-Training: Supervised Finetuning

Conversations

Hallucinations

Knowledge of Self

Models need tokens to think

Things the model cannot do well

Post-Training: Reinforcement Learning

Reinforcement learning

DeepSeek-R1

AlphaGo

Reinforcement learning from human feedback (RLHF)

Preview of things to come

Keeping track of LLMs

Where to find LLMs

AlphaGo

📄 관련 논문: AlphaGo Zero 논문
📊 참고 그래프


1️⃣ AI 업계에서 강화 학습(RL)은 새로운 개념이 아니다

  • 강화 학습(🎯)이 강력한 학습 방법이라는 사실은 이미 AI 업계에서 널리 알려진 사실

  • AlphaGo는 이를 바둑에 적용해 성공한 대표적인 사례

2️⃣ 지도 학습 vs. 강화 학습

  • 📌 지도 학습(Supervised Learning, 보라색 선)

    • 인간 전문가들의 기보 데이터를 학습해 모방

    • 일정 수준까지는 향상되지만, 인간 최고 수준을 뛰어넘지는 못함

  • 📌 강화 학습(Reinforcement Learning, 파란색 선)

    • 스스로 바둑을 두며 최적의 전략을 찾아감

    • 시간이 지날수록 인간을 초월하는 실력 도달

    • 최종적으로 AlphaGo Lee(파란 점선)보다 더 강한 성능 달성

3️⃣ AlphaGo의 혁신적인 한 수: ‘Move 37’

  • AlphaGo는 인간이 거의 두지 않는(1/10,000 확률) 독창적인 수를 발견함

  • 당시 전문가들은 실수라고 판단했지만, 결과적으로 혁신적인 전략이었음

  • 이는 강화 학습이 인간을 초월한 창의적 사고가 가능함을 보여주는 사례

4️⃣ 강화 학습의 확장 가능성 🚀

  • 현재 대형 언어 모델(LLM)에도 RL이 적용되며, 단순한 인간 모방을 넘어설 가능성 있음

  • 새로운 논리 패턴 발견, 창의적인 문제 해결, 심지어 새로운 언어 생성 가능성도 있음

  • 바둑처럼 정답이 있는 게임을 넘어, ‘열린 문제(Open Problem)’에서도 AI가 발전할 수 있도록 연구 진행 중

📌 AlphaGo의 사례는 AI가 단순히 인간을 따라 하는 것이 아니라, 독자적인 학습을 통해 인간의 한계를 초월할 수 있음을 보여준 혁신적인 사건이다! 🚀