[유튜브 강의 정리] 안드레 카파시 - Deep Dive into LLMs like ChatGPT

Introduction

Pre-Training

Step 1: Download and preprocess the internet

Step 2: Tokenization

Step 3: Neural network training

Step 4: Inference

Base model

Post-Training: Supervised Finetuning

Conversations

Hallucinations

Knowledge of Self

Models need tokens to think

Things the model cannot do well

Post-Training: Reinforcement Learning

Reinforcement learning

DeepSeek-R1

AlphaGo

Reinforcement learning from human feedback (RLHF)

Preview of things to come

Keeping track of LLMs

Where to find LLMs

Step 1: Download and preprocess the internet

1. 데이터 수집 (Data Collection)

  • 사전 훈련의 첫 단계는 인터넷에서 방대한 양의 텍스트 데이터를 수집하는 것.

  • 대표적인 데이터 소스: Common Crawl

    • Common Crawl은 2007년부터 웹을 크롤링하여 27억 개 이상의 웹 페이지를 저장한 공용 데이터베이스.

    • 다양한 웹사이트에서 가져온 원시 텍스트를 포함.

  • 기타 데이터 소스: Wikipedia, 책, 논문, 뉴스, 코드 저장소(GitHub), 블로그 등.


2. 데이터 필터링 (Data Filtering)

수집한 원시 데이터에는 불필요한 정보도 포함되어 있으므로 다양한 필터링 단계를 거쳐 고품질 데이터 세트를 구축.

① URL 필터링 (Domain Filtering)

  • 신뢰할 수 없는 웹사이트를 제거하기 위해 블랙리스트 도메인 필터링 적용.

  • 필터링 대상: 스팸, 악성코드, 마케팅 사이트, 성인 콘텐츠, 혐오 발언이 포함된 웹사이트 등.

② 텍스트 추출 (Text Extraction)

  • 원시 데이터는 HTML 코드와 함께 저장되므로, 순수 텍스트만 추출하는 과정 필요.

  • 웹사이트의 구조(CSS, JavaScript, 광고 등)를 제거하여 텍스트 데이터만 남김.

③ 언어 필터링 (Language Filtering)

  • 특정 언어로 모델을 학습시키기 위해 언어 감지 모델을 적용.

  • 예: FineWeb 데이터세트는 영어 비율이 65% 이상인 데이터만 유지.

  • 다국어 모델을 원하면 다양한 언어를 포함한 데이터셋을 사용 가능.

④ 중복 제거 (Deduplication)

  • 동일한 문서나 유사한 문장이 여러 번 포함되면 모델이 특정 데이터를 과대 학습(overfitting)할 위험이 있음.

  • 유사 문서를 탐지하여 제거하는 중복 필터링 기법 적용.

⑤ 개인 정보 보호 필터링 (PII Removal)

  • 웹사이트에는 개인정보(PII, Personally Identifiable Information)가 포함될 수 있음.

  • 개인정보(예: 이름, 주소, 전화번호, 신용카드 번호, 사회보장번호 등)를 감지하여 제거.