[유튜브 강의 정리] 안드레 카파시 - Deep Dive into LLMs like ChatGPT

Introduction

Pre-Training

Step 1: Download and preprocess the internet

Step 2: Tokenization

Step 3: Neural network training

Step 4: Inference

Base model

Post-Training: Supervised Finetuning

Conversations

Hallucinations

Knowledge of Self

Models need tokens to think

Things the model cannot do well

Post-Training: Reinforcement Learning

Reinforcement learning

DeepSeek-R1

AlphaGo

Reinforcement learning from human feedback (RLHF)

Preview of things to come

Keeping track of LLMs

Where to find LLMs

Preview of things to come

🚀 미래 AI 모델의 발전 방향과 전망 🔍

AI 모델은 빠르게 발전하고 있으며, 앞으로 기대할 수 있는 변화들을 정리하면 다음과 같다.


🔥 1. 멀티모달(Multimodal) AI

현재 대부분의 AI 모델은 텍스트만 처리할 수 있지만, 앞으로는 오디오(음성), 이미지(시각), 영상(비디오)까지 자연스럽게 다룰 수 있는 모델이 등장할 예정이다. 🎙️📸🎥

👉 어떻게 가능할까?

  • 음성은 스펙트로그램(음향 신호의 시각적 표현)을 이용해 토큰화할 수 있다. 🎵

  • 이미지는 여러 개의 작은 패치(조각)로 나누어 토큰화할 수 있다. 🖼️

  • 결국 텍스트, 음성, 이미지 등은 모두 토큰(token)으로 변환할 수 있으며, 언어 모델이 이를 처리할 수 있다. ✅

이러한 변화로 인해 AI와 더욱 자연스럽고 직관적인 소통이 가능해질 것이다. 🤖💬


🏗️ 2. 장기적 과업 수행이 가능한 AI(에이전트 AI)

현재 AI 모델은 단기적인 질문에 대한 답변만 제공하지만, 앞으로는 긴 시간 동안 여러 작업을 수행하는 AI 에이전트(Agents)가 등장할 것으로 예상된다.

👉 예상되는 변화

  • 여러 개의 작업을 스스로 조합하여 실행하는 AI가 등장할 것이다.

  • 오류를 감지하고 수정하면서 작업을 지속할 수 있게 될 것이다.

  • 인간은 AI를 감독하고 필요할 때 개입하는 역할을 하게 될 것이다.

이러한 발전을 통해 AI는 단순한 정보 제공자가 아니라 실제 업무를 수행하는 디지털 비서의 역할을 하게 될 것이다. 🛠️🤖


🕵️‍♂️ 3. Invisible AI

AI는 앞으로 특정 애플리케이션이 아니라 일상 속 다양한 도구에 자연스럽게 통합될 것으로 보인다.

✔️ AI가 키보드, 마우스 조작을 대신 수행할 수 있는 기능이 등장할 것이다.
✔️ 사용자의 습관을 학습하여 자동화된 작업을 수행하는 시스템이 개발될 것이다.
✔️ 다양한 소프트웨어에 AI 기능이 자연스럽게 내장될 것이다.

예를 들어, ChatGPT의 Operator 기능처럼 AI가 직접 사용자의 컴퓨터를 조작하고 작업을 수행하는 시대가 올 가능성이 크다. 💻🖱️


🧠 4. 실시간 학습이 가능한 AI(Test-Time Training)

현재 AI 모델은 훈련이 끝난 후에는 더 이상 학습하지 않는다.
즉, 새로운 정보를 받아도 모델 자체는 변화하지 않으며, 단순히 입력을 기반으로 출력을 생성할 뿐이다.

💡 그러나 앞으로는?

  • AI가 사용 경험을 바탕으로 실시간으로 학습할 수 있을 것이다.

  • 인간처럼 새로운 정보를 습득하고 업데이트하는 기능이 추가될 가능성이 있다.

  • 긴 문맥을 처리해야 하는 상황에서 기존 방식보다 효율적인 해결책이 필요할 것이다.

현재의 AI는 일정한 맥락(window) 내에서만 정보를 처리할 수 있지만, 장기적인 기억 및 학습 능력이 추가된다면 더욱 발전된 형태의 AI가 등장할 것이다. 🚀