Introduction
Pre-Training
Step 1: Download and preprocess the internet
Step 2: Tokenization
Step 3: Neural network training
Step 4: Inference
Base model
Post-Training: Supervised Finetuning
Conversations
Hallucinations
Knowledge of Self
Models need tokens to think
Things the model cannot do well
Post-Training: Reinforcement Learning
Reinforcement learning
DeepSeek-R1
AlphaGo
Reinforcement learning from human feedback (RLHF)
Preview of things to come
Keeping track of LLMs
Where to find LLMs
📄 관련 논문: AlphaGo Zero 논문
📊 참고 그래프
강화 학습(🎯)이 강력한 학습 방법이라는 사실은 이미 AI 업계에서 널리 알려진 사실
AlphaGo는 이를 바둑에 적용해 성공한 대표적인 사례
📌 지도 학습(Supervised Learning, 보라색 선)
인간 전문가들의 기보 데이터를 학습해 모방
일정 수준까지는 향상되지만, 인간 최고 수준을 뛰어넘지는 못함
📌 강화 학습(Reinforcement Learning, 파란색 선)
스스로 바둑을 두며 최적의 전략을 찾아감
시간이 지날수록 인간을 초월하는 실력 도달
최종적으로 AlphaGo Lee(파란 점선)보다 더 강한 성능 달성
AlphaGo는 인간이 거의 두지 않는(1/10,000 확률) 독창적인 수를 발견함
당시 전문가들은 실수라고 판단했지만, 결과적으로 혁신적인 전략이었음
이는 강화 학습이 인간을 초월한 창의적 사고가 가능함을 보여주는 사례
현재 대형 언어 모델(LLM)에도 RL이 적용되며, 단순한 인간 모방을 넘어설 가능성 있음
새로운 논리 패턴 발견, 창의적인 문제 해결, 심지어 새로운 언어 생성 가능성도 있음
바둑처럼 정답이 있는 게임을 넘어, ‘열린 문제(Open Problem)’에서도 AI가 발전할 수 있도록 연구 진행 중
📌 AlphaGo의 사례는 AI가 단순히 인간을 따라 하는 것이 아니라, 독자적인 학습을 통해 인간의 한계를 초월할 수 있음을 보여준 혁신적인 사건이다! 🚀