<h3>🔍 RLHF(인간 피드백을 통한 강화 학습)과 검증 불가능한 도메인에서의 학습</h3>기존의 강화 학습은 정답을 명확하게 검증할 수 있는(✅ Verifiable) 도메인에서 활용하기 쉽다. 예를 들어, "3+2=?" 같은 문제에서는 정답이 5로 명확하며, 이를 평가하는 것은 간단하다. 하지만 검증이 어려운(Unverifiable) 도메인에서는 이러한 평가 방식이 어렵다. 대표적인 예로 유머 생성, 시 쓰기, 요약하기 같은 창의적 작업이 있다.<h2>🏆 RLHF: 인간 피드백을 활용한 강화 학습</h2><h3>🔹 기존 방식의 한계</h3><ul><li>강화 학습을 적용하려면 엄청난 양의 데이터와 평가가 필요하다.</li><li>예를 들어, 유머 생성 모델을 강화 학습하려면 수백만 개의 농담을 생성하고, 이를 사람이 직접 평가해야 한다. 😵</li><li>그러나 사람이 직접 모든 출력을 평가하는 것은 불가능할 정도로 비효율적이다.</li></ul><h3>🔹 RLHF의 핵심 아이디어</h3>👉 인간 평가 데이터를 학습한 보상 모델(Reward Model)을 활용하여 자동화!1️⃣ 사람이 일부 데이터(예: 5개의 농담)를 보고 순위를 매김 2️⃣ 이 데이터를 바탕으로 보상 모델(Reward Model)을 훈련 3️⃣ 이후에는 실제 사람이 아닌 보상 모델을 통해 자동 평가 4️⃣ 보상 모델을 기준으로 강화 학습을 진행💡 즉, 실제 사람이 평가하는 대신, "사람처럼 평가하는 모델"을 만들어 대체하는 것!<h2>✅ RLHF의 장점</h2>🎯 검증 불가능한 도메인에서도 강화 학습 가능! 🎯 데이터 라벨링이 쉬워짐 (정답을 직접 작성하는 대신, 순위만 매기면 됨) 🎯 모델의 성능이 개선됨 (ChatGPT 같은 AI 성능 향상)<h2>⚠️ RLHF의 한계 및 문제점</h2><h3>❌ 1. 완벽한 인간 평가가 아님</h3><ul><li>보상 모델은 실제 인간이 아닌 시뮬레이션된 인간이다.</li><li>따라서 모델이 인간의 평가 방식을 완벽하게 재현하지 못할 수도 있음 🤔</li></ul><h3>❌ 2. 강화 학습의 게임화(Gameable) 문제</h3><ul><li>강화 학습을 오래 실행하면 모델이 보상 모델의 허점을 찾아 잘못된 방식으로 높은 점수를 받는 법을 학습할 수 있음.</li><li>예를 들어, "펠리컨 농담"을 학습하는 도중, 이상한 단어 조합(예: "the the the")이 보상 모델에서 높은 점수를 받는 경우 발생! 🤯</li><li>이를 막으려면 학습을 너무 오래 진행하지 않고 적절한 시점에서 멈춰야 함.</li></ul><h2>📌 결론</h2>💡 RLHF는 RL을 무한히 실행할 수 있는 완벽한 솔루션이 아님! ✅ 보상 모델을 이용해 인간 평가를 대체함으로써 강화 학습을 효율적으로 적용할 수 있지만, ⚠️ 보상 모델의 한계를 넘어설 수 없으며, 일정 수준에서 학습을 중단해야 함.

원본 영상 링크: <a target="_blank" rel="noopener noreferrer nofollow" href="https://www.youtube.com/watch?v=7xTGNNLPyMI&amp;t=11381s">https://www.youtube.com/watch?v=7xTGNNLPyMI&amp;t=11381s</a>영상의 주제: ChatGPT와 같은 대형 언어 모델(LLM; Large Language Model)이 어떻게 작동하는지에 대한 포괄적인 설명<ul><li>일반인도 이해할 수 있는 수준으로 설명하는 것이 목표</li></ul>

Introduction

<ul><li>Step 1: 인터넷 데이터 다운로드 및 전처리</li><li>Step 2: 토큰화(Tokenization)</li><li>Step 3: 뉴럴 네트워크 훈련</li><li>Step 4: 추론(Inference)</li></ul>

Pre-Training

<h3>1. 데이터 수집 (Data Collection)</h3><ul><li>사전 훈련의 첫 단계는 인터넷에서 방대한 양의 텍스트 데이터를 수집하는 것.</li><li>대표적인 데이터 소스: Common Crawl<ul><li>Common Crawl은 2007년부터 웹을 크롤링하여 27억 개 이상의 웹 페이지를 저장한 공용 데이터베이스.</li><li>다양한 웹사이트에서 가져온 원시 텍스트를 포함.</li></ul></li><li>기타 데이터 소스: Wikipedia, 책, 논문, 뉴스, 코드 저장소(GitHub), 블로그 등.</li></ul><h3>2. 데이터 필터링 (Data Filtering)</h3>수집한 원시 데이터에는 불필요한 정보도 포함되어 있으므로 다양한 필터링 단계를 거쳐 고품질 데이터 세트를 구축.<h4>① URL 필터링 (Domain Filtering)</h4><ul><li>신뢰할 수 없는 웹사이트를 제거하기 위해 블랙리스트 도메인 필터링 적용.</li><li>필터링 대상: 스팸, 악성코드, 마케팅 사이트, 성인 콘텐츠, 혐오 발언이 포함된 웹사이트 등.</li></ul><h4>② 텍스트 추출 (Text Extraction)</h4><ul><li>원시 데이터는 HTML 코드와 함께 저장되므로, 순수 텍스트만 추출하는 과정 필요.</li><li>웹사이트의 구조(CSS, JavaScript, 광고 등)를 제거하여 텍스트 데이터만 남김.</li></ul><h4>③ 언어 필터링 (Language Filtering)</h4><ul><li>특정 언어로 모델을 학습시키기 위해 언어 감지 모델을 적용.</li><li>예: FineWeb 데이터세트는 영어 비율이 65% 이상인 데이터만 유지.</li><li>다국어 모델을 원하면 다양한 언어를 포함한 데이터셋을 사용 가능.</li></ul><h4>④ 중복 제거 (Deduplication)</h4><ul><li>동일한 문서나 유사한 문장이 여러 번 포함되면 모델이 특정 데이터를 과대 학습(overfitting)할 위험이 있음.</li><li>유사 문서를 탐지하여 제거하는 중복 필터링 기법 적용.</li></ul><h4>⑤ 개인 정보 보호 필터링 (PII Removal)</h4><ul><li>웹사이트에는 개인정보(PII, Personally Identifiable Information)가 포함될 수 있음.</li><li>개인정보(예: 이름, 주소, 전화번호, 신용카드 번호, 사회보장번호 등)를 감지하여 제거.</li></ul>

Step 1: Download and preprocess the internet

<h2>1. 토큰화(Tokenization)란?</h2>대형 언어 모델(LLM)이 텍스트를 처리하기 위해 문장을 작은 단위(토큰)로 변환하는 과정.<h2>2. 토큰화의 필요성</h2><ol><li>모델이 이해할 수 있도록 텍스트를 숫자로 변환</li><li>자주 등장하는 단어 조합을 하나의 토큰으로 만들어 시퀀스 길이를 줄임</li></ol><h2>3. 토큰화 과정</h2>① UTF-8 인코딩: 모든 문자를 바이트 단위로 변환<ul><li>하지만, 단순히 모든 문자를 바이트 단위로 변환하면 너무 긴 시퀀스가 생성됨.</li><li>➡️ 따라서 더 효율적인 토큰화 방법이 필요함! (=BPE)</li></ul>② Byte Pair Encoding (BPE): 빈번하게 등장하는 문자 쌍을 하나의 토큰으로 등록 → 시퀀스를 줄임예시<ul><li>Original: <code>"internationalization"</code></li><li>UTF-8: <code>['i', 'n', 't', 'e', 'r', 'n', 'a', 't', 'i', 'o', 'n', 'a', 'l', 'i', 'z', 'a', 't', 'i', 'o', 'n']</code></li><li>BPE 적용 후: <code>['international', 'ization']</code></li></ul>➡️ 같은 단어라도 더 적은 토큰 수로 변환 가능, 즉 시퀀스 길이가 최적화됨!<h2>4. 실제 GPT 모델에서의 토큰화</h2><ul><li>GPT-4의 토큰 개수: 100,277개</li><li>토큰 ID 변환 과정:<ul><li><code>"Hello world"</code> → <code>["Hello", " world"]</code> → <code>[15339, 1917]</code></li></ul></li></ul>✅ 중요한 특징<ul><li>공백(space)도 하나의 토큰으로 처리됨 (<code>" world"</code> vs. <code>"world"</code>)</li><li>대소문자 차이도 토큰화 결과에 영향을 미침 (<code>"Hello"</code> vs. <code>"hello"</code>)</li><li>의미 있는 부분을 최소한의 토큰으로 변환하여 시퀀스를 줄임</li></ul>📌 Tiktoken을 활용한 실제 토큰화 예제 사이트: <a target="_blank" rel="noopener noreferrer nofollow" href="https://tiktokenizer.vercel.app/">Tiktokenizer</a><h2>5. 토큰화를 활용한 모델 입력</h2><ul><li>모델이 입력을 받을 때, 텍스트를 토큰 ID 시퀀스로 변환함.</li><li>예제:<ul><li><code>"The quick brown fox"</code> → <code>[324, 9821, 4321, 294]</code> (토큰 ID로 변환)</li></ul></li><li>모델이 예측하는 것은 다음 토큰의 ID 값.</li></ul>

Step 2: Tokenization

<img src="https://whayplgihzorucjvkpam.supabase.co/storage/v1/object/public/images/1739240967117-dca6ba47-ca91-49b1-922e-8e90e0b79f32.png"><h2>1. 신경망의 입력 (Neural Network Input)</h2>✅ 입력 데이터: 토큰 시퀀스<ul><li>모델은 텍스트가 아닌 숫자(Token ID 시퀀스)를 입력으로 받음.</li><li>예제: <code>"Hello world" → ["Hello", " world"] → [15339, 1917] (토큰 ID)</code></li><li>윈도우 길이: 모델은 입력된 문장을 고정된 길이의 토큰 시퀀스(윈도우)로 분할하여 처리함. (위 예시 사진의 경우 윈도우 크기 4)</li></ul><h2>2. 신경망의 출력 (Neural Network Output)</h2>✅ 출력 데이터: 다음 토큰 확률 분포<ul><li>모델은 모든 가능한 토큰에 대한 확률(Probability Distribution)을 예측함.</li><li>가장 확률이 높은 토큰을 선택하여 문장을 완성(Greedy Decoding)</li><li>또는 일정 확률에 따라 샘플링하여 다양한 문장을 생성(Temperature Sampling).</li></ul><h2>3. 훈련 과정 (Training Process)</h2>💡 모델이 훈련되는 방식은 "다음 토큰 예측"을 반복하는 과정!<ol><li>입력: 윈도우(Window) 크기의 토큰 시퀀스 제공</li><li>출력: 다음 토큰의 확률 분포 예측</li><li>정답(실제 다음 토큰)과 비교하여 손실(Loss) 계산</li><li>손실을 줄이도록 신경망 가중치(Weights) 업데이트</li></ol>📌 예제<code>입력: ["The", "quick", "brown", "fox"] </code> <code>출력: 확률 분포 {"jumps": 85%, "runs": 10%, "flies": 5%} </code> <code>정답: "jumps" </code> <code>손실 계산: 1 - 0.85 = 0.15 </code> <code>가중치 업데이트: 정답 확률을 높이는 방향으로 조정</code>➡️ 이 과정을 수십억 개의 문장에 대해 반복하여 모델이 언어 패턴을 학습함.

Step 3: Neural network training

추론 과정 (Inference): 훈련이 끝난 후, 모델을 사용하여 새로운 텍스트를 생성하는 과정.✅ 핵심 원리: 일부 텍스트(프롬프트)를 입력하면, 가장 가능성 높은 다음 토큰을 하나씩 생성하여 문장을 완성.📌 예제<img src="https://whayplgihzorucjvkpam.supabase.co/storage/v1/object/public/images/1739506359954-2705002a-a92d-4e71-9106-993ddd65a403.png">➡️ 반복하면 문장이 점점 확장됨. ChatGPT는 이런 식으로 사용자의 입력(프롬프트)에 따라 자연스럽게 문장을 이어나가며 대화를 생성함.

Step 4: Inference

<h2>🔹 Base 모델이란?</h2><blockquote>"Base 모델은 특정한 인간 피드백 없이, 대량의 텍스트 데이터를 활용하여 학습된 대규모 언어 모델로, 주어진 문맥에서 다음 단어나 문장을 확률적으로 예측하는 역할을 한다."</blockquote><h3>✅ Base 모델의 핵심 특징</h3><ol><li>지도 학습 없이 훈련됨<ul><li>인간이 직접 데이터 라벨링을 하지 않음</li><li>인터넷, 책, 논문 등에서 수집한 대량의 텍스트 데이터를 기반으로 학습</li></ul></li><li>목적 없이 학습된 모델<ul><li>특정한 질문에 답하거나, 특정한 작업을 수행하도록 훈련되지 않음</li><li>단순히 주어진 문맥을 보고, 다음 단어(토큰)를 예측하는 모델</li></ul></li><li>단순한 "토큰 예측기"<ul><li>입력된 텍스트의 패턴을 바탕으로 확률적으로 다음 단어(토큰)를 생성</li><li>예측된 문장은 훈련 데이터의 통계적 유사성을 기반으로 생성된 것</li></ul></li><li>규칙 기반이 아님<ul><li>언어적 규칙을 직접 학습하는 것이 아니라, 확률적 패턴을 따름</li><li>논리적 사고나 의도를 갖지 않으며, 훈련 데이터에서 본 패턴을 재현하는 수준</li></ul></li></ol><h2>🔹 Base 모델의 한계</h2><ul><li>단순한 "문장 예측기"일 뿐, 논리적 사고나 질문-답변 능력이 없음</li><li>인터넷에서 학습한 내용만을 바탕으로 예측하므로, 훈련되지 않은 정보는 생성할 뿐 사실이 아닐 수 있음 (📌 "환각(hallucination)" 문제)</li><li>특정 업무 수행(예: 번역, 요약, 코딩) 같은 능력을 갖추지 않음</li><li>"Base 모델" 자체로는 실용적인 AI가 아님 → 인간과 상호작용하려면 추가적인 후처리 학습(Post-Training) 필요</li></ul>📌 즉, Base 모델은 "인터넷 문서의 확률적 재현기"이지, 대화형 AI나 특정 업무 수행 모델이 아니다. 📌 Base 모델을 실용적인 AI로 만들기 위해선 반드시 후처리가 필요하다.<h2>🔹 Base 모델 활용법</h2><h3>✅ 1️⃣ Few-shot Learning (프롬프트 엔지니어링)</h3><ul><li>프롬프트를 잘 설계하면 특정 작업 수행 가능</li><li>예제 입력:<pre><code>apple → 사과 
banana → 바나나 
teacher → ?</code></pre><ul><li>위와 같은 패턴을 학습하여 모델이 자동으로 "선생님"을 예측하도록 유도</li></ul></li></ul><h3>✅ 2️⃣ Base 모델을 대화형 AI처럼 활용</h3><ul><li>웹페이지 형태로 대화 스크립트를 입력하면 AI처럼 행동 가능<pre><code>인간: 안녕! 너는 누구야? 
AI: 안녕하세요! 저는 AI 어시스턴트입니다. 질문에 답하고 설명을 제공하며 다양한 작업을 도와드릴 수 있어요. 무엇을 도와드릴까요? 

인간: 광합성이 어떻게 작동하는지 설명해줄 수 있어? 
AI: 물론이죠! 광합성은 식물, 조류, 일부 박테리아가 빛 에너지를 화학 에너지로 변환하는 과정이에요. 
 기본적인 화학식은 다음과 같습니다: 

 6CO₂ + 6H₂O + 빛 에너지 → C₆H₁₂O₆ + 6O₂ 

 이 과정은 우리가 숨 쉬는 산소를 공급하고, 대부분의 생태계에서 에너지원이 되는 중요한 과정이에요. 더 자세히 설명해드릴까요? 

인간: 아니 괜찮아. 대신 짧은 이메일을 작성하는 걸 도와줄 수 있어? 
AI: 물론이죠! 이메일을 누구에게 보내고 싶나요? 그리고 어떤 내용을 포함해야 하나요? 

인간: 매니저에게 다음 주에 하루 휴가를 요청하는 이메일을 쓰고 싶어. 
AI: 다음과 같은 초안을 제안드릴 수 있어요: 

 **Subject:** Request for Day Off Next Week 
 
 **Dear [Manager’s Name],** 
 
 I hope this message finds you well. I am writing to request a day off on [specific date]. Please let me know if this works for the team’s schedule or if there are any concerns. 
 
 Thank you for considering my request. Please let me know if you need further details. 
 
 **Best regards,** 
 [Your Name] 

 이 초안이 괜찮은가요, 아니면 수정하고 싶은 부분이 있나요? 

인간: </code></pre><ul><li>여기에 이어서 원하는 프롬프트를 넣으면, 대화형 AI처럼 활용 가능</li></ul></li></ul>📌 하지만 본질적으로 Base 모델은 챗봇이 아니므로, 후처리 없이 완벽한 대화형 AI가 될 수 없음<h2>🔹 결론</h2><ul><li>Base 모델 = 인터넷 문장의 확률적 예측기</li><li>단순 자동완성 엔진으로, 질문을 이해하거나 논리적 사고 불가</li><li>실용적인 AI가 되려면 후처리(Post-Training)가 필수</li><li>프롬프트 엔지니어링을 활용하면 제한적으로 활용 가능</li></ul>➡ Base 모델은 AI의 첫 단계이며, 이를 개선해야 실용적인 AI로 사용할 수 있다. 🚀

Base model

<h4>1️⃣ Base Model의 한계</h4><ul><li>사전 훈련(Pretraining)을 거친 베이스 모델은 인터넷 문서의 통계적 특성을 학습한 "텍스트 예측기"일 뿐임.</li><li>즉, 특정 질문을 하면 의미 있는 답을 주는 것이 아니라, 그저 인터넷 문서와 유사한 텍스트를 생성할 가능성이 큼.</li><li>이러한 모델을 직접 활용하면 비효율적이며, 원하는 방식으로 동작하지 않을 수 있음.</li></ul><h4>2️⃣ 후 훈련(Post-training)의 필요성</h4><ul><li>단순한 텍스트 생성이 아니라 사용자 질문에 유용한 답변을 제공하는 "AI 어시스턴트"로 발전시키기 위해 후 훈련이 필요.</li><li>베이스 모델이 단순히 문서를 시뮬레이션하는 수준에서 벗어나, 대화형 AI로 활용될 수 있도록 정제하는 과정임.</li><li>후 훈련을 통해 모델이 보다 논리적이고 일관된 응답을 제공하며, 인간의 기대에 맞게 행동하도록 조정됨.</li></ul>

Post-Training: Supervised Finetuning

대형 언어 모델(LLM)은 인터넷 문서 기반으로 사전 훈련(Pre-Training) 되어 있지만, 이 상태에서는 단순한 텍스트 예측기일 뿐, 자연스러운 대화형 AI 어시스턴트로 동작하지 못함.이를 해결하기 위해 Post-Training(후속 훈련) 과정에서 새로운 대화 데이터셋(Conversations Dataset)을 사용하여 모델을 미세 조정(Fine-Tuning)함.<h2>1. Conversation Data (대화 데이터) 생성 과정</h2><h3>🔹 1.1. 대화 데이터의 구성</h3>대화 데이터셋은 기본적으로 "사용자 질문 (User Query) → AI의 이상적인 응답 (Assistant Response)" 형태로 구성됨.<ul><li>예시:<ul><li>사용자: "2 + 2는 얼마야?"</li><li>어시스턴트: "2 + 2는 4입니다."</li><li>사용자: "그럼 '+' 대신 '*'이면?"</li><li>어시스턴트: "2 × 2는 4입니다."</li></ul></li></ul><h3>🔹 1.2. 데이터 생성 방식</h3>대화 데이터는 주로 인간 라벨러(Human Labelers)에 의해 생성되며, 최근에는 AI가 일부 자동 생성하는 방식도 사용됨.<h4>(1) 인간 라벨러(Human Labelers) 활용</h4><ul><li>전문성을 가진 라벨러들이 직접 대화를 생성함.<ul><li>예: 프로그래밍 질문은 개발자가, 과학 질문은 과학자가 답변.</li></ul></li><li>대화 데이터 예시:<ul><li>"내 경력에 대한 열정을 되찾는 5가지 방법은?"</li><li>"다음 문장을 스페인어로 번역해줘."</li><li>"파리에 가면 꼭 봐야 할 5대 랜드마크는?"</li></ul></li></ul><h4>(2) AI + 인간 검수 (Synthetic Data + Human Review) 활용</h4><ul><li>최근에는 AI가 먼저 응답을 생성하고, 라벨러가 이를 검토 &amp; 수정하는 방식이 일반적.</li><li>대부분의 최신 대화 데이터셋은 AI가 생성한 "합성 데이터(Synthetic Data)" 로 구축됨.</li><li>예: OpenAssistant 프로젝트 등은 크라우드소싱 방식으로 사용자들이 직접 질문과 답변을 생성하고 검수.</li></ul><h2>2. 모델 학습 과정 (Fine-Tuning on Conversations)</h2><ul><li>대화는 모델이 이해할 수 있도록 토큰 시퀀스(Token Sequences) 로 변환됨.</li><li>예를 들어:</li></ul><code>&lt;|im_start|&gt;user&lt;|im_sep|&gt; 파리에서 꼭 가야 할 5대 랜드마크는? &lt;|im_end|&gt;&lt;|im_start|&gt; assistant &lt;|im_sep|&gt; 1. 에펠탑 2. 루브르 박물관 3. 노트르담 대성당 4. 샹젤리제 거리 5. 몽마르뜨 &lt;|im_end|&gt;</code><ul><li>모델은 이를 기반으로 패턴을 학습하고, 다음 번 대화에서 유사한 방식으로 응답할 수 있도록 함.</li></ul><h2>3. ChatGPT의 응답 원리</h2><ul><li>사용자가 질문하면, 모델은 "라벨러가 이 질문에 어떻게 답했을까?" 를 통계적으로 예측하여 답변을 생성함.</li><li>즉, AI가 스스로 사고하는 것이 아니라 라벨러의 응답을 시뮬레이션하는 것.</li><li>훈련 데이터에 유사한 질문이 있다면 거의 동일한 응답을 생성할 확률이 높음.</li><li>훈련 데이터에 없는 질문이라도, 기존 지식을 바탕으로 "비슷한 느낌의 답변" 을 만들어냄.</li></ul>

Conversations

<h2>1. 환각(Hallucination)이 발생하는 이유</h2><ul><li>LLM은 훈련 데이터의 스타일을 모방하는 방식으로 학습됨.</li><li>예를 들어, "누가 ~~인가?"라는 질문에 대해 항상 정답을 포함한 답변이 제공됨.</li><li>이 때문에 모델이 모르는 질문을 받았을 때도 "I don’t know"라고 답하지 않고, 통계적으로 가장 그럴듯한 문장을 생성하려고 함.</li><li>예시: "Orson Kovats는 누구야?" → "미국의 작가입니다" (사실이 아님. Orson Kovats는 가상의 이름임.)</li></ul><h2>2. 환각 해결법</h2><h3>(1) "모른다"는 답을 학습시키기 (<a target="_blank" rel="noopener noreferrer nofollow" href="https://ai.meta.com/research/publications/the-llama-3-herd-of-models/">Meta 논문</a> 참고)</h3><ol><li>질문-답(QA) 데이터 생성<ul><li>훈련 데이터에서 특정 문서를 선택해 사실 기반 질문과 정답 세트 생성.</li><li>예: "이 사람이 어느 팀에서 뛰었나?" → "Buffalo Sabres"</li></ul></li><li>모델이 아는지 확인<ul><li>같은 질문을 3번 이상 물어보고, 모델이 일관되게 맞히는지 평가.</li><li>✅ 일관되게 정답 → 모델이 알고 있음</li><li>❌ 틀리거나 답변이 바뀜 → 모델이 모르는 것</li></ul></li><li>"모른다"는 답변 학습<ul><li>모델이 틀린 질문들을 모아서 <code>"I don’t know"</code>라고 답하도록 학습 데이터 추가.</li><li>이 과정에서 특정 뉴런이 불확실성(uncertainty)을 담당하게 형성됨.→ 이후 뉴런 값이 높으면, 모델이 "모른다"고 답하게 됨.</li></ul></li></ol><h3>(2) 검색(Search) 기능 추가</h3><ul><li>모델이 모르는 정보를 직접 검색할 수 있도록 웹 검색 기능을 활용.</li><li>방법:<ol><li>모델이 검색이 필요한 경우, 특정 토큰 <code>[SEARCH_START]</code>을 생성.<ul><li>예: <code>[SEARCH_START] Orson Kovats 경력 [SEARCH_END]</code></li></ul></li><li>검색 엔진(Bing, Google 등)이 검색을 수행 후 결과를 컨텍스트 창에 삽입.</li><li>모델이 검색 결과를 활용해 최종 답변 생성.</li></ol></li><li>학습 과정:<ul><li>모델이 "언제 검색해야 하는지" "어떻게 검색해야 하는지" 학습할 수 있도록 데이터 추가.</li><li>몇 천 개(few thousand) 정도의 데이터만 있어도 모델이 잘 수행함.</li></ul></li></ul>

Hallucinations

<h3>1. LLM은 자기 인식을 가지지 않는다</h3><ul><li>LLM(대형 언어 모델)은 기억이나 자아가 없는 시스템이다.</li><li>대화가 끝나면 모든 정보가 삭제되며, 다음 대화에서는 완전히 새로운 상태에서 시작한다.</li><li>즉, 스스로를 인식하거나 지속적으로 존재하는 개체가 아니다.</li></ul><h3>2. LLM이 자기소개하는 방식은 단순한 패턴 학습 결과</h3><ul><li>"너는 누구야?" 같은 질문에 대한 답변은 모델이 스스로를 인식해서가 아니라, 학습한 데이터에서 확률적으로 가장 적절한 문장을 생성하기 때문이다.</li><li>예를 들어, 인터넷에는 OpenAI와 ChatGPT에 대한 정보가 많으므로, 모델이 "나는 OpenAI에서 개발된 ChatGPT야" 같은 답을 하게 된다.</li><li>하지만 이는 학습된 데이터에서 가장 자주 등장한 패턴일 뿐이며, 항상 정확한 정보는 아니다.</li></ul><h3>3. LLM의 정체성을 설정하는 방법</h3>모델이 특정한 정체성을 띠도록 만들 수 있는 두 가지 방법이 있다.✅ 1) 훈련 데이터 조정 (Fine-Tuning)<ul><li>특정 질문(예: "너는 누구야?")에 대해 원하는 답변을 학습시키면, 모델이 해당 답을 따르게 된다.</li><li>예: "나는 Allen AI에서 개발된 Almo 모델이야."</li></ul>✅ 2) 시스템 메시지(System Message) 삽입<ul><li>대화가 시작될 때 숨겨진 시스템 메시지를 삽입하여, 모델이 특정 정보를 참조하도록 만들 수 있다.</li><li>예: "너는 OpenAI에서 개발된 ChatGPT 4.0이며, 지식 컷오프는 2024년이다."</li><li>사용자는 이 메시지를 볼 수 없지만, 모델은 이를 기반으로 대화한다.</li></ul>

Knowledge of Self

<h2>1. AI 모델의 기본 연산 구조</h2>✔ AI 모델은 왼쪽에서 오른쪽으로 순차적으로 단어(토큰)를 생성하며 사고한다. ✔ 한 번의 토큰 생성에서 처리할 수 있는 계산량이 제한적이다. ✔ 즉, 복잡한 문제를 한 번에 해결하려 하면 정확도가 떨어질 가능성이 높다.<h2>2. 좋은 답변 vs. 나쁜 답변 (수학 문제 예시)</h2>💡 문제: Emily가 사과 3개와 오렌지 2개를 샀다. 오렌지 1개는 $2, 총 가격은 $13. 사과 한 개의 가격은?<h3>🚫 나쁜 답변 ("정답을 바로 말하는 경우")</h3>"정답은 3"🔴 이유:<ul><li>모델이 모든 계산을 한 번에 수행해야 하므로, 연산량이 과부하됨.</li><li>복잡한 문제에서 오답 가능성이 높아짐.</li></ul><h3>✅ 좋은 답변 ("단계별 계산 과정 포함")</h3>"오렌지 2개의 가격은 $4. 총 가격에서 $4를 빼면 $9. 사과 3개의 가격이므로, 사과 1개는 $3."🟢 이유:<ul><li>모델이 단계별로 사고하도록 유도하여 학습 효과가 향상됨.</li><li>모델이 복잡한 문제를 논리적으로 해결할 수 있도록 돕는 방식.</li></ul><h2>3. 모델이 복잡한 계산을 어려워하는 이유</h2>🚨 모델은 한 번의 연산(토큰 예측)에서 너무 많은 계산을 수행할 수 없다. 📉 숫자가 커질수록 오답 가능성이 증가한다.✔ 해결책<ul><li>단계별 계산 과정을 포함한 답변을 생성하도록 유도</li><li>중간 결과를 포함해 논리적인 접근을 하도록 가이드</li></ul><h2>cf) 코드 실행 기능을 활용하면 더 정확한 답을 얻을 수 있다</h2>🤖 AI 모델의 계산 능력은 제한적이지만, 코드를 작성하는 능력은 뛰어나다. 💡 Python 같은 프로그래밍 언어를 활용하면 보다 정확한 계산이 가능하다.✔ 예시: "사과 한 개의 가격을 계산하는 Python 코드를 작성해줘" ➡ 모델이 <code>price = (13 - 2*2) / 3</code> 같은 코드를 실행하여 정확한 답을 도출할 수 있음.📌 결론:<ul><li>모델이 직접 계산하는 대신, 코드 실행 기능을 활용하면 정확도가 올라간다.</li><li>복잡한 계산 문제에서는 Python 코드 실행을 적극 활용하는 것이 좋다.</li></ul>

Models need tokens to think

<h3>1. Counting 문제 🔢</h3><ul><li>문제점: 개수를 정확하게 세지 못하는 경우가 많음.</li><li>이유: 개별 문자가 아니라 토큰 단위로 정보를 처리하기 때문.</li><li>예시: 여러 개의 점(<code>.</code>)을 나열하고 개수를 물어보면 잘못된 숫자를 예측함.</li><li>해결 방법: Python 코드 실행 기능을 활용하면 정확한 개수를 계산할 수 있음.</li></ul><h3>2. 철자 인식 오류 ✍️</h3><ul><li>문제점: 개별 문자 단위로 철자를 인식하거나 조작하는 작업에 취약함.</li><li>이유: 모델은 단어를 문자가 아니라 토큰 단위로 저장하고 처리함.</li><li>예시 1: <code>"ubiquitous"</code>에서 세 번째 글자마다 출력하는 문제를 해결하지 못함.</li><li>예시 2: <code>"strawberry"</code>에 포함된 <code>'r'</code>의 개수를 물어보면, 한동안 모델이 "2개"라고 틀린 답을 냄.<ul><li>이 문제는 한때 바이럴되었으며, 많은 사람들이 AI의 한계를 지적하는 사례로 언급함.</li><li>이유: <code>"strawberry"</code>가 단어 전체를 하나의 토큰으로 인식하면서 개별 문자를 분석하지 못했기 때문.</li></ul></li><li>해결 방법:<ul><li>Python 코드로 문자열을 조작하면 정확한 결과를 얻을 수 있음.</li><li>철자 검사 및 문자 세기는 AI 모델이 아닌 프로그래밍적 접근이 더 적절함.</li></ul></li></ul><h3>3. 단순한 논리 연산 오류 ❌</h3><ul><li>문제점: 간단한 숫자 비교(예: <code>9.11 &gt; 9.9</code>)에서도 틀린 답을 내놓을 수 있음.</li><li>이유:<ul><li>특정 숫자(예: <code>9.11</code>)가 성경 구절(Bible Verse)처럼 인식될 가능성이 있음.</li><li>숫자를 단순한 수학 연산이 아니라 문맥적 패턴으로 해석하면서 오류 발생.</li></ul></li><li>예시: <code>9.11 &gt; 9.9</code>를 물어보면 논리적으로 틀린 답을 내놓을 때가 있음.</li></ul><h3>결론 ✅</h3>✔️ 언어 모델은 숫자 세기, 철자 인식, 논리 연산에서 약점을 보일 수 있다. ✔️ 이러한 한계를 이해하고, 코드 실행 등의 보완 방법을 활용하면 정확도를 높일 수 있다. ✔️ 모델을 도구로 활용하되, 중요한 문제에서는 반드시 검증하는 습관이 필요하다. 🔍

Things the model cannot do well

<h2>1. 대규모 언어 모델의 학습 과정</h2>대규모 언어 모델(LLM)은 보통 아래 세 가지 주요 학습 단계를 순서대로 거치며 발전.<h3>📌 1.1 사전 훈련 (Pre-training) – 기본 모델 구축</h3>🔹 훈련 방식: 인터넷 문서를 학습하여 다음 단어를 예측하는 방식 🔹 목적: 언어의 패턴을 익히고 문맥을 이해하는 능력을 갖추기 🔹 특징 ✅ 방대한 지식 습득 (다양한 주제 학습) ✅ 자연스러운 문장 생성 가능 ⚠️ 그러나, 단순한 인터넷 문서 예측 모델 → 실용성이 낮음<h3>📌 1.2 지도학습 미세조정 (SFT) – AI 비서로 발전</h3>🔹 훈련 방식:<ul><li>인터넷 문서 대신 사람이 직접 작성한 대화 데이터셋 사용</li><li>사람이 질문(프롬프트)과 이상적인 답변(정답 데이터) 제공</li></ul>🔹 특징 ✅ 더 자연스럽고 유용한 대화 가능 ✅ 전문가의 답변을 학습하여 특정 작업 수행 능력 향상 ⚠️ 하지만, 단순한 모방 학습이라 새로운 문제 해결 능력이 부족<h3>📌 1.3 강화학습 (RL) – 신뢰성 향상 및 최적화</h3>🔹 훈련 방식:<ul><li>모델이 스스로 해결 방법을 찾아가는 방식</li><li>문제(프롬프트)와 정답(출력값)은 주어지지만, 해결 과정은 직접 탐색</li><li>인간 피드백을 반영한 강화학습 기법(RLHF) 사용</li></ul>🔹 특징 ✅ 창의적 문제 해결 가능 (새로운 질문에도 유연한 대응) ✅ 환각(Hallucination) 문제 감소 (사실과 다른 정보 생성 방지) ⚠️ 훈련 비용과 시간이 많이 소요됨<h2>2. 강화학습의 필요성 및 기업 활용</h2><h3>📌 2.1 강화학습이 필요한 이유</h3><ul><li>지도학습(SFT) 모델은 단순한 전문가 모방</li><li>강화학습을 통해 더 신뢰성 높은 답변과 창의적인 해결책 제공 가능</li></ul><h3>📌 2.2 기업에서의 활용 (예: OpenAI)</h3>OpenAI 같은 기업에서는 각 학습 단계마다 전문 팀을 운영하며 모델을 개선.1️⃣ 사전 훈련 팀 → 인터넷 문서 학습, 기본 모델 구축 2️⃣ 지도학습 미세조정 팀 → 인간이 제공한 데이터 학습, AI 비서로 최적화 3️⃣ 강화학습 팀 → 모델의 응답 품질을 높여 더 신뢰할 수 있도록 개선<h2>3. 텍스트북 예시: 학습 과정의 비유</h2>대규모 언어 모델의 학습 과정은 학교 공부 방식과 유사.📖 사전 훈련 → 교과서 읽기<ul><li>학생이 교과서를 읽으며 배경 지식을 습득하는 과정</li><li>AI도 인터넷 문서를 학습하며 언어 지식을 습득</li></ul>📝 지도학습 미세조정 → 예제 풀이<ul><li>학생이 모범 답안을 보며 문제 해결법을 배우는 과정</li><li>AI도 인간이 제공한 데이터를 학습하여 더 나은 답변 생성</li></ul>🎯 강화학습 → 연습 문제 풀이<ul><li>학생이 스스로 연습 문제를 풀며 해결 방법을 찾는 과정</li><li>AI도 여러 해결책을 시도하며 최적의 답변을 찾아감</li></ul>

Post-Training: Reinforcement Learning

<h2>📌 1. LLM(대형 언어 모델)의 문제 해결 방식</h2>문제를 해결할 때 고려해야 할 두 가지 요소:1️⃣ 정답 도출 – 정확한 답을 도출하는 것이 최우선 목표 2️⃣ 가독성 및 논리적 설명 – 사람이 이해하기 쉽게 설명하는 것정답 도출의 관점에서 보자면, 인간과 LLM의 사고방식이 다르기 때문에 인간이 최적의 답변 방식을 미리 정의하는 것은 어렵다. 따라서, LLM은 강화 학습을 통해 스스로 가장 효과적인 해결 방법을 찾아야 한다.<h2>🔍 2. 강화 학습을 활용한 최적의 해결 방법 찾기</h2>강화 학습(RL, Reinforcement Learning)은 LLM이 스스로 최적의 답변을 학습하는 과정이다. 기본적인 학습 방식은 다음과 같다:<h3>🔄 강화 학습의 과정</h3>1️⃣ 모델이 다양한 방식으로 문제를 해결하고 답을 생성 2️⃣ 정답을 맞힌 경우(✅)와 틀린 경우(❌)를 평가 3️⃣ 정답을 도출한 해결 방식(토큰 시퀀스)을 강화하고, 잘못된 방식은 피하도록 조정 4️⃣ 이 과정을 수천~수백만 번 반복하여 최적의 문제 해결 패턴을 학습결과적으로, LLM이 스스로 실험하고 경험을 축적하면서 가장 효과적인 문제 해결 방법을 발견하게 됨.<h2>📚 3. LLM 학습 과정 (사람의 학습 방식과 비교)</h2>LLM의 학습 방식은 사람이 지식을 습득하는 과정과 유사.① 사전 학습 (Pre-training): 대량의 텍스트 데이터를 학습해 지식을 축적교과서를 읽으며 개념과 이론을 익힘 ② 지도 학습 (Supervised Fine-tuning, SFT): 전문가의 정답 예제(워크드 솔루션)를 학습선생님의 예제 풀이를 보고 따라함 ③ 강화 학습 (Reinforcement Learning, RL): 다양한 문제를 직접 풀어보면서 최적의 해결 방법을 학습연습 문제를 풀어보면서 스스로 해결 능력을 키움<blockquote>지도 학습(SFT)만으로는 LLM이 단순히 정답을 흉내 낼 뿐, 깊이 이해하지 못함. 강화 학습을 통해 스스로 최적의 해결 방법을 찾는 능력을 갖추게 됨.</blockquote>

Reinforcement learning

<h3>1. 딥시크 R1(DeepSeek-R1)의 중요성과 의의</h3><ul><li>🔍 핵심 포인트<ul><li>OpenAI는 강화학습(RL) 기반의 LLM 훈련 방식과 모델을 공개하지 않음.</li><li>반면, DeepSeek은 강화학습을 적용한 모델(DR1)을 오픈소스로 공개, 연구자들이 직접 활용할 수 있도록 함.</li><li>이는 AI 연구 커뮤니티에서 강화학습 기반 LLM 연구를 가속화하는 전환점이 됨.</li></ul></li></ul><h3>2. 딥시크 R1의 실제 적용 및 실험 결과</h3><ul><li>📈 강화학습 적용 후 변화<ul><li>수학 문제 해결 능력 대폭 향상</li><li>다양한 방법으로 접근하며 정확도가 점진적으로 증가</li><li>모델이 스스로 추론 과정을 형성<ul><li>🧐 "잠깐, 다시 확인해 볼게."</li><li>🤔 "이 접근이 맞는지 다른 방법으로 검증해 보자."</li><li>✅ "이제 정답을 확신할 수 있어!"</li></ul></li></ul></li><li>🤯 모델이 인간과 유사한 사고 과정을 학습하며 자연스럽게 문제 해결 전략을 구축하는 것이 핵심!</li></ul><h3>3. 딥시크 R1 사용 방법</h3><ul><li>💻 오픈 소스 모델로 공개됨<ul><li>직접 다운로드하여 실행 가능 (⚠️ 고성능 장비 필요)</li><li>☁️ 클라우드 서비스 활용 가능<ul><li>DeepSeek 공식 웹사이트</li><li><a target="_blank" rel="noopener noreferrer nofollow" href="http://Together.ai">Together.ai</a>에서 딥시크 R1 실행 가능</li></ul></li><li>🔬 구글의 Gemini 2.0 Flash (Thinking Experimental) 모델도 유사한 기능 제공</li></ul></li></ul><h3>4. 실전 활용법</h3><ul><li>🎯 어떤 상황에서 어떤 모델을 사용할까?<ul><li>📚 일반적인 지식 질문: 기존 LLM 사용 (⚡ 빠른 답변)</li><li>🧠 수학, 논리적 사고가 필요한 문제: reasoning 모델 사용 (📈 높은 정확도)</li></ul></li></ul>

DeepSeek-R1

📄 관련 논문: <a target="_new" rel="noopener" href="https://discovery.ucl.ac.uk/id/eprint/10045895/1/agz_unformatted_nature.pdf">AlphaGo Zero 논문</a> 📊 참고 그래프<img src="https://whayplgihzorucjvkpam.supabase.co/storage/v1/object/public/images/1740541531968-d1218d78-f25b-4b7f-97da-a9e00c93eedc.png"><h3> 1️⃣ AI 업계에서 강화 학습(RL)은 새로운 개념이 아니다</h3><ul><li>강화 학습(🎯)이 강력한 학습 방법이라는 사실은 이미 AI 업계에서 널리 알려진 사실</li><li>AlphaGo는 이를 바둑에 적용해 성공한 대표적인 사례</li></ul><h3>2️⃣ 지도 학습 vs. 강화 학습</h3><ul><li>📌 지도 학습(Supervised Learning, 보라색 선)<ul><li>인간 전문가들의 기보 데이터를 학습해 모방</li><li>일정 수준까지는 향상되지만, 인간 최고 수준을 뛰어넘지는 못함</li></ul></li><li>📌 강화 학습(Reinforcement Learning, 파란색 선)<ul><li>스스로 바둑을 두며 최적의 전략을 찾아감</li><li>시간이 지날수록 인간을 초월하는 실력 도달</li><li>최종적으로 AlphaGo Lee(파란 점선)보다 더 강한 성능 달성</li></ul></li></ul><h3>3️⃣ AlphaGo의 혁신적인 한 수: ‘Move 37’</h3><ul><li>AlphaGo는 인간이 거의 두지 않는(1/10,000 확률) 독창적인 수를 발견함</li><li>당시 전문가들은 실수라고 판단했지만, 결과적으로 혁신적인 전략이었음</li><li>이는 강화 학습이 인간을 초월한 창의적 사고가 가능함을 보여주는 사례</li></ul><h3>4️⃣ 강화 학습의 확장 가능성 🚀</h3><ul><li>현재 대형 언어 모델(LLM)에도 RL이 적용되며, 단순한 인간 모방을 넘어설 가능성 있음</li><li>새로운 논리 패턴 발견, 창의적인 문제 해결, 심지어 새로운 언어 생성 가능성도 있음</li><li>바둑처럼 정답이 있는 게임을 넘어, ‘열린 문제(Open Problem)’에서도 AI가 발전할 수 있도록 연구 진행 중</li></ul>📌 AlphaGo의 사례는 AI가 단순히 인간을 따라 하는 것이 아니라, 독자적인 학습을 통해 인간의 한계를 초월할 수 있음을 보여준 혁신적인 사건이다! 🚀

AlphaGo

Reinforcement learning from human feedback (RLHF)

<h3>🚀 미래 AI 모델의 발전 방향과 전망 🔍</h3>AI 모델은 빠르게 발전하고 있으며, 앞으로 기대할 수 있는 변화들을 정리하면 다음과 같다.<h2>🔥 1. 멀티모달(Multimodal) AI</h2>현재 대부분의 AI 모델은 텍스트만 처리할 수 있지만, 앞으로는 오디오(음성), 이미지(시각), 영상(비디오)까지 자연스럽게 다룰 수 있는 모델이 등장할 예정이다. 🎙️📸🎥👉 어떻게 가능할까?<ul><li>음성은 스펙트로그램(음향 신호의 시각적 표현)을 이용해 토큰화할 수 있다. 🎵</li><li>이미지는 여러 개의 작은 패치(조각)로 나누어 토큰화할 수 있다. 🖼️</li><li>결국 텍스트, 음성, 이미지 등은 모두 토큰(token)으로 변환할 수 있으며, 언어 모델이 이를 처리할 수 있다. ✅</li></ul>이러한 변화로 인해 AI와 더욱 자연스럽고 직관적인 소통이 가능해질 것이다. 🤖💬<h2>🏗️ 2. 장기적 과업 수행이 가능한 AI(에이전트 AI)</h2>현재 AI 모델은 단기적인 질문에 대한 답변만 제공하지만, 앞으로는 긴 시간 동안 여러 작업을 수행하는 AI 에이전트(Agents)가 등장할 것으로 예상된다.👉 예상되는 변화<ul><li>여러 개의 작업을 스스로 조합하여 실행하는 AI가 등장할 것이다.</li><li>오류를 감지하고 수정하면서 작업을 지속할 수 있게 될 것이다.</li><li>인간은 AI를 감독하고 필요할 때 개입하는 역할을 하게 될 것이다.</li></ul>이러한 발전을 통해 AI는 단순한 정보 제공자가 아니라 실제 업무를 수행하는 디지털 비서의 역할을 하게 될 것이다. 🛠️🤖<h2>🕵️‍♂️ 3. Invisible AI</h2>AI는 앞으로 특정 애플리케이션이 아니라 일상 속 다양한 도구에 자연스럽게 통합될 것으로 보인다.✔️ AI가 키보드, 마우스 조작을 대신 수행할 수 있는 기능이 등장할 것이다. ✔️ 사용자의 습관을 학습하여 자동화된 작업을 수행하는 시스템이 개발될 것이다. ✔️ 다양한 소프트웨어에 AI 기능이 자연스럽게 내장될 것이다.예를 들어, ChatGPT의 Operator 기능처럼 AI가 직접 사용자의 컴퓨터를 조작하고 작업을 수행하는 시대가 올 가능성이 크다. 💻🖱️<h2>🧠 4. 실시간 학습이 가능한 AI(Test-Time Training)</h2>현재 AI 모델은 훈련이 끝난 후에는 더 이상 학습하지 않는다. 즉, 새로운 정보를 받아도 모델 자체는 변화하지 않으며, 단순히 입력을 기반으로 출력을 생성할 뿐이다.💡 그러나 앞으로는?<ul><li>AI가 사용 경험을 바탕으로 실시간으로 학습할 수 있을 것이다.</li><li>인간처럼 새로운 정보를 습득하고 업데이트하는 기능이 추가될 가능성이 있다.</li><li>긴 문맥을 처리해야 하는 상황에서 기존 방식보다 효율적인 해결책이 필요할 것이다.</li></ul>현재의 AI는 일정한 맥락(window) 내에서만 정보를 처리할 수 있지만, 장기적인 기억 및 학습 능력이 추가된다면 더욱 발전된 형태의 AI가 등장할 것이다. 🚀

Preview of things to come

<h3>🔍 LLM 동향 파악 방법 정리 🧠✨</h3>최신 대형 언어 모델(LLM) 정보를 효과적으로 추적하는 방법을 소개합니다<h2>1️⃣ El Marina: LLM 리더보드 🏆</h2>📌 <a target="_new" rel="noopener" href="https://elmarina.ai">El Marina</a>에서는 최고의 LLM 모델을 순위로 제공하며, 인간이 직접 모델의 응답을 비교하여 평가.🔹 랭킹 시스템:<ul><li>익명의 인간 평가자가 모델의 답변을 비교 후 더 나은 모델을 선택 👀</li><li>이를 통해 객관적인 순위가 매겨짐</li></ul>🔹 현재 상위 모델 (2025년 기준) 🥇 Google Gemini 🥈 OpenAI GPT 🥉 DeepSeek (MIT 오픈 라이선스 🎉) 👉 DeepSeek은 무료로 사용 가능한 강력한 오픈 웨이트 모델로 주목받고 있음!⚠️ 최근 몇 달 사이 순위 조작 가능성이 제기됨. 실제 사용하며 성능을 직접 확인하는 것이 중요!<h2>2️⃣ AI 뉴스레터 "AI News" 📩</h2>🔍 <a target="_new" rel="noopener" href="https://ainews.com">AI News</a><ul><li>Swix &amp; 팀이 운영하는 AI 관련 뉴스레터</li><li>거의 매일 새로운 정보 제공</li><li>일부는 LLM이 자동 생성, 일부는 사람이 직접 큐레이션</li></ul>📌 AI 뉴스 팔로우하면 중요한 소식 놓칠 일 없음! 👍<h2>3️⃣ 트위터(X) 활용 📢</h2>🔥 AI 전문가들이 가장 활발하게 활동하는 곳은 X(트위터)!<ul><li>AI 최신 뉴스 &amp; 분석 실시간으로 확인 가능</li><li>신뢰할 수 있는 AI 연구자 및 전문가 팔로우 추천</li></ul>

Keeping track of LLMs

<h3>🌍 LLM(대형 언어 모델) 어디서 찾을까? 🔎🤖</h3>LLM을 활용하고 실험하고 싶다면, 다음과 같은 플랫폼에서 찾을 수 있습니다! 🚀<h2>1️⃣ 상업용(프라이빗) LLMs 🔐</h2>유명한 대형 AI 모델들은 각 회사의 공식 웹사이트에서 직접 접근할 수 있습니다.✅ 대표적인 LLM 제공 사이트:<ul><li>OpenAI → <a target="_new" rel="noopener" href="https://chat.openai.com">ChatGPT</a></li><li>Google → <a target="_new" rel="noopener" href="https://gem.google.com">Gemini</a> / <a target="_new" rel="noopener" href="https://aistudio.google.com">AI Studio</a></li><li>Anthropic → Claude</li></ul>이들은 클라우드 기반으로 제공되며, 직접 웹사이트에 접속해 사용하면 됩니다!<h2>2️⃣ 오픈소스(Open Weights) LLMs 🌍🛠</h2>🔓 무료로 다운로드하고 사용할 수 있는 오픈 웨이트(가중치 공개) 모델은 여러 플랫폼에서 찾을 수 있습니다.✅ 오픈소스 LLM 제공 사이트:<ul><li><a target="_new" rel="noopener" href="https://together.ai">Together AI</a> → 다양한 오픈소스 LLM 실행 가능 💡</li><li>Hugging Face → 수많은 오픈소스 모델 제공</li><li><a target="_new" rel="noopener" href="https://hyperbolic.com">Hyperbolic</a> → Llama 3.1 Base 모델 제공</li></ul>🛠 Inference(추론) 제공 플랫폼에서는 여러 모델을 직접 선택해 테스트할 수 있음!<h2>3️⃣ 로컬 실행 가능한 LLMs 💻</h2>컴퓨터에서 직접 LLM을 실행할 수도 있습니다! 특히 가벼운(경량화된) 모델이나 저정밀(낮은 Precision) 모델을 사용하면 개인 PC에서도 작동 가능 🎯✅ 로컬 LLM 실행 방법: 1️⃣ LM Studio → <a target="_new" rel="noopener" href="https://lmstudio.ai">다운로드 링크</a><ul><li>💻 로컬에서 직접 AI 모델 실행 가능</li><li>📌 Mac, Windows 지원</li><li>UI/UX가 다소 어렵지만 익숙해지면 강력한 도구</li><li>다양한 모델을 선택해 실행할 수 있음</li></ul>2️⃣ Ollama → <a target="_new" rel="noopener" href="https://ollama.com">다운로드 링크</a><ul><li>🎯 간단한 명령어로 로컬에서 AI 모델 실행 가능</li><li>Llama 3, DeepSeek 등 최신 모델 지원</li><li>Mac에서 특히 성능이 좋음</li></ul>💡 로컬 실행 팁:<ul><li>작은 모델(경량화된 버전) 사용 → 메모리 부족 방지</li><li>낮은 Precision 설정(FP8, INT4 등) → 더 작은 PC에서도 실행 가능</li></ul>

[유튜브 강의 정리] 안드레 카파시 - Deep Dive into LLMs like ChatGPT

Reinforcement learning from human feedback (RLHF)

🔍 RLHF(인간 피드백을 통한 강화 학습)과 검증 불가능한 도메인에서의 학습

🏆 RLHF: 인간 피드백을 활용한 강화 학습

🔹 기존 방식의 한계

🔹 RLHF의 핵심 아이디어

✅ RLHF의 장점

⚠️ RLHF의 한계 및 문제점

❌ 1. 완벽한 인간 평가가 아님

❌ 2. 강화 학습의 게임화(Gameable) 문제

📌 결론