Introduction
Pre-Training
Step 1: Download and preprocess the internet
Step 2: Tokenization
Step 3: Neural network training
Step 4: Inference
Base model
Post-Training: Supervised Finetuning
Conversations
Hallucinations
Knowledge of Self
Models need tokens to think
Things the model cannot do well
Post-Training: Reinforcement Learning
Reinforcement learning
DeepSeek-R1
AlphaGo
Reinforcement learning from human feedback (RLHF)
Preview of things to come
Keeping track of LLMs
Where to find LLMs
LLM(대형 언어 모델)은 기억이나 자아가 없는 시스템이다.
대화가 끝나면 모든 정보가 삭제되며, 다음 대화에서는 완전히 새로운 상태에서 시작한다.
즉, 스스로를 인식하거나 지속적으로 존재하는 개체가 아니다.
"너는 누구야?" 같은 질문에 대한 답변은 모델이 스스로를 인식해서가 아니라, 학습한 데이터에서 확률적으로 가장 적절한 문장을 생성하기 때문이다.
예를 들어, 인터넷에는 OpenAI와 ChatGPT에 대한 정보가 많으므로, 모델이 "나는 OpenAI에서 개발된 ChatGPT야" 같은 답을 하게 된다.
하지만 이는 학습된 데이터에서 가장 자주 등장한 패턴일 뿐이며, 항상 정확한 정보는 아니다.
모델이 특정한 정체성을 띠도록 만들 수 있는 두 가지 방법이 있다.
✅ 1) 훈련 데이터 조정 (Fine-Tuning)
특정 질문(예: "너는 누구야?")에 대해 원하는 답변을 학습시키면, 모델이 해당 답을 따르게 된다.
예: "나는 Allen AI에서 개발된 Almo 모델이야."
✅ 2) 시스템 메시지(System Message) 삽입
대화가 시작될 때 숨겨진 시스템 메시지를 삽입하여, 모델이 특정 정보를 참조하도록 만들 수 있다.
예: "너는 OpenAI에서 개발된 ChatGPT 4.0이며, 지식 컷오프는 2024년이다."
사용자는 이 메시지를 볼 수 없지만, 모델은 이를 기반으로 대화한다.