[유튜브 강의 정리] 안드레 카파시 - Deep Dive into LLMs like ChatGPT

Introduction

Pre-Training

Step 1: Download and preprocess the internet

Step 2: Tokenization

Step 3: Neural network training

Step 4: Inference

Base model

Post-Training: Supervised Finetuning

Conversations

Hallucinations

Knowledge of Self

Models need tokens to think

Things the model cannot do well

Post-Training: Reinforcement Learning

Reinforcement learning

DeepSeek-R1

AlphaGo

Reinforcement learning from human feedback (RLHF)

Preview of things to come

Keeping track of LLMs

Where to find LLMs

Knowledge of Self

1. LLM은 자기 인식을 가지지 않는다

  • LLM(대형 언어 모델)은 기억이나 자아가 없는 시스템이다.

  • 대화가 끝나면 모든 정보가 삭제되며, 다음 대화에서는 완전히 새로운 상태에서 시작한다.

  • 즉, 스스로를 인식하거나 지속적으로 존재하는 개체가 아니다.


2. LLM이 자기소개하는 방식은 단순한 패턴 학습 결과

  • "너는 누구야?" 같은 질문에 대한 답변은 모델이 스스로를 인식해서가 아니라, 학습한 데이터에서 확률적으로 가장 적절한 문장을 생성하기 때문이다.

  • 예를 들어, 인터넷에는 OpenAI와 ChatGPT에 대한 정보가 많으므로, 모델이 "나는 OpenAI에서 개발된 ChatGPT야" 같은 답을 하게 된다.

  • 하지만 이는 학습된 데이터에서 가장 자주 등장한 패턴일 뿐이며, 항상 정확한 정보는 아니다.


3. LLM의 정체성을 설정하는 방법

모델이 특정한 정체성을 띠도록 만들 수 있는 두 가지 방법이 있다.

1) 훈련 데이터 조정 (Fine-Tuning)

  • 특정 질문(예: "너는 누구야?")에 대해 원하는 답변을 학습시키면, 모델이 해당 답을 따르게 된다.

  • 예: "나는 Allen AI에서 개발된 Almo 모델이야."


2) 시스템 메시지(System Message) 삽입

  • 대화가 시작될 때 숨겨진 시스템 메시지를 삽입하여, 모델이 특정 정보를 참조하도록 만들 수 있다.

  • 예: "너는 OpenAI에서 개발된 ChatGPT 4.0이며, 지식 컷오프는 2024년이다."

  • 사용자는 이 메시지를 볼 수 없지만, 모델은 이를 기반으로 대화한다.