Introduction
Pre-Training
Step 1: Download and preprocess the internet
Step 2: Tokenization
Step 3: Neural network training
Step 4: Inference
Base model
Post-Training: Supervised Finetuning
Conversations
Hallucinations
Knowledge of Self
Models need tokens to think
Things the model cannot do well
Post-Training: Reinforcement Learning
Reinforcement learning
DeepSeek-R1
AlphaGo
Reinforcement learning from human feedback (RLHF)
Preview of things to come
Keeping track of LLMs
Where to find LLMs
"Base 모델은 특정한 인간 피드백 없이, 대량의 텍스트 데이터를 활용하여 학습된 대규모 언어 모델로, 주어진 문맥에서 다음 단어나 문장을 확률적으로 예측하는 역할을 한다."
지도 학습 없이 훈련됨
인간이 직접 데이터 라벨링을 하지 않음
인터넷, 책, 논문 등에서 수집한 대량의 텍스트 데이터를 기반으로 학습
목적 없이 학습된 모델
특정한 질문에 답하거나, 특정한 작업을 수행하도록 훈련되지 않음
단순히 주어진 문맥을 보고, 다음 단어(토큰)를 예측하는 모델
단순한 "토큰 예측기"
입력된 텍스트의 패턴을 바탕으로 확률적으로 다음 단어(토큰)를 생성
예측된 문장은 훈련 데이터의 통계적 유사성을 기반으로 생성된 것
규칙 기반이 아님
언어적 규칙을 직접 학습하는 것이 아니라, 확률적 패턴을 따름
논리적 사고나 의도를 갖지 않으며, 훈련 데이터에서 본 패턴을 재현하는 수준
단순한 "문장 예측기"일 뿐, 논리적 사고나 질문-답변 능력이 없음
인터넷에서 학습한 내용만을 바탕으로 예측하므로, 훈련되지 않은 정보는 생성할 뿐 사실이 아닐 수 있음 (📌 "환각(hallucination)" 문제)
특정 업무 수행(예: 번역, 요약, 코딩) 같은 능력을 갖추지 않음
"Base 모델" 자체로는 실용적인 AI가 아님 → 인간과 상호작용하려면 추가적인 후처리 학습(Post-Training) 필요
📌 즉, Base 모델은 "인터넷 문서의 확률적 재현기"이지, 대화형 AI나 특정 업무 수행 모델이 아니다.
📌 Base 모델을 실용적인 AI로 만들기 위해선 반드시 후처리가 필요하다.
프롬프트를 잘 설계하면 특정 작업 수행 가능
예제 입력:
apple → 사과
banana → 바나나
teacher → ?
위와 같은 패턴을 학습하여 모델이 자동으로 "선생님"을 예측하도록 유도
웹페이지 형태로 대화 스크립트를 입력하면 AI처럼 행동 가능
인간: 안녕! 너는 누구야?
AI: 안녕하세요! 저는 AI 어시스턴트입니다. 질문에 답하고 설명을 제공하며 다양한 작업을 도와드릴 수 있어요. 무엇을 도와드릴까요?
인간: 광합성이 어떻게 작동하는지 설명해줄 수 있어?
AI: 물론이죠! 광합성은 식물, 조류, 일부 박테리아가 빛 에너지를 화학 에너지로 변환하는 과정이에요.
기본적인 화학식은 다음과 같습니다:
6CO₂ + 6H₂O + 빛 에너지 → C₆H₁₂O₆ + 6O₂
이 과정은 우리가 숨 쉬는 산소를 공급하고, 대부분의 생태계에서 에너지원이 되는 중요한 과정이에요. 더 자세히 설명해드릴까요?
인간: 아니 괜찮아. 대신 짧은 이메일을 작성하는 걸 도와줄 수 있어?
AI: 물론이죠! 이메일을 누구에게 보내고 싶나요? 그리고 어떤 내용을 포함해야 하나요?
인간: 매니저에게 다음 주에 하루 휴가를 요청하는 이메일을 쓰고 싶어.
AI: 다음과 같은 초안을 제안드릴 수 있어요:
**Subject:** Request for Day Off Next Week
**Dear [Manager’s Name],**
I hope this message finds you well. I am writing to request a day off on [specific date]. Please let me know if this works for the team’s schedule or if there are any concerns.
Thank you for considering my request. Please let me know if you need further details.
**Best regards,**
[Your Name]
이 초안이 괜찮은가요, 아니면 수정하고 싶은 부분이 있나요?
인간:
여기에 이어서 원하는 프롬프트를 넣으면, 대화형 AI처럼 활용 가능
📌 하지만 본질적으로 Base 모델은 챗봇이 아니므로, 후처리 없이 완벽한 대화형 AI가 될 수 없음
Base 모델 = 인터넷 문장의 확률적 예측기
단순 자동완성 엔진으로, 질문을 이해하거나 논리적 사고 불가
실용적인 AI가 되려면 후처리(Post-Training)가 필수
프롬프트 엔지니어링을 활용하면 제한적으로 활용 가능
➡ Base 모델은 AI의 첫 단계이며, 이를 개선해야 실용적인 AI로 사용할 수 있다. 🚀