Introduction
Pre-Training
Step 1: Download and preprocess the internet
Step 2: Tokenization
Step 3: Neural network training
Step 4: Inference
Base model
Post-Training: Supervised Finetuning
Conversations
Hallucinations
Knowledge of Self
Models need tokens to think
Things the model cannot do well
Post-Training: Reinforcement Learning
Reinforcement learning
DeepSeek-R1
AlphaGo
Reinforcement learning from human feedback (RLHF)
Preview of things to come
Keeping track of LLMs
Where to find LLMs
사전 훈련의 첫 단계는 인터넷에서 방대한 양의 텍스트 데이터를 수집하는 것.
대표적인 데이터 소스: Common Crawl
Common Crawl은 2007년부터 웹을 크롤링하여 27억 개 이상의 웹 페이지를 저장한 공용 데이터베이스.
다양한 웹사이트에서 가져온 원시 텍스트를 포함.
기타 데이터 소스: Wikipedia, 책, 논문, 뉴스, 코드 저장소(GitHub), 블로그 등.
수집한 원시 데이터에는 불필요한 정보도 포함되어 있으므로 다양한 필터링 단계를 거쳐 고품질 데이터 세트를 구축.
신뢰할 수 없는 웹사이트를 제거하기 위해 블랙리스트 도메인 필터링 적용.
필터링 대상: 스팸, 악성코드, 마케팅 사이트, 성인 콘텐츠, 혐오 발언이 포함된 웹사이트 등.
원시 데이터는 HTML 코드와 함께 저장되므로, 순수 텍스트만 추출하는 과정 필요.
웹사이트의 구조(CSS, JavaScript, 광고 등)를 제거하여 텍스트 데이터만 남김.
특정 언어로 모델을 학습시키기 위해 언어 감지 모델을 적용.
예: FineWeb 데이터세트는 영어 비율이 65% 이상인 데이터만 유지.
다국어 모델을 원하면 다양한 언어를 포함한 데이터셋을 사용 가능.
동일한 문서나 유사한 문장이 여러 번 포함되면 모델이 특정 데이터를 과대 학습(overfitting)할 위험이 있음.
유사 문서를 탐지하여 제거하는 중복 필터링 기법 적용.
웹사이트에는 개인정보(PII, Personally Identifiable Information)가 포함될 수 있음.
개인정보(예: 이름, 주소, 전화번호, 신용카드 번호, 사회보장번호 등)를 감지하여 제거.