[유튜브 강의 정리] 안드레 카파시 - Deep Dive into LLMs like ChatGPT

Introduction

Pre-Training

Step 1: Download and preprocess the internet

Step 2: Tokenization

Step 3: Neural network training

Step 4: Inference

Base model

Post-Training: Supervised Finetuning

Conversations

Hallucinations

Knowledge of Self

Models need tokens to think

Things the model cannot do well

Post-Training: Reinforcement Learning

Reinforcement learning

DeepSeek-R1

AlphaGo

Reinforcement learning from human feedback (RLHF)

Preview of things to come

Keeping track of LLMs

Where to find LLMs

Things the model cannot do well

1. Counting 문제 🔢

  • 문제점: 개수를 정확하게 세지 못하는 경우가 많음.

  • 이유: 개별 문자가 아니라 토큰 단위로 정보를 처리하기 때문.

  • 예시: 여러 개의 점(.)을 나열하고 개수를 물어보면 잘못된 숫자를 예측함.

  • 해결 방법: Python 코드 실행 기능을 활용하면 정확한 개수를 계산할 수 있음.


2. 철자 인식 오류 ✍️

  • 문제점: 개별 문자 단위로 철자를 인식하거나 조작하는 작업에 취약함.

  • 이유: 모델은 단어를 문자가 아니라 토큰 단위로 저장하고 처리함.

  • 예시 1: "ubiquitous"에서 세 번째 글자마다 출력하는 문제를 해결하지 못함.

  • 예시 2: "strawberry"에 포함된 'r'의 개수를 물어보면, 한동안 모델이 "2개"라고 틀린 답을 냄.

    • 이 문제는 한때 바이럴되었으며, 많은 사람들이 AI의 한계를 지적하는 사례로 언급함.

    • 이유: "strawberry"단어 전체를 하나의 토큰으로 인식하면서 개별 문자를 분석하지 못했기 때문.

  • 해결 방법:

    • Python 코드로 문자열을 조작하면 정확한 결과를 얻을 수 있음.

    • 철자 검사 및 문자 세기는 AI 모델이 아닌 프로그래밍적 접근이 더 적절함.


3. 단순한 논리 연산 오류

  • 문제점: 간단한 숫자 비교(예: 9.11 > 9.9)에서도 틀린 답을 내놓을 수 있음.

  • 이유:

    • 특정 숫자(예: 9.11)가 성경 구절(Bible Verse)처럼 인식될 가능성이 있음.

    • 숫자를 단순한 수학 연산이 아니라 문맥적 패턴으로 해석하면서 오류 발생.

  • 예시: 9.11 > 9.9를 물어보면 논리적으로 틀린 답을 내놓을 때가 있음.


결론

✔️ 언어 모델은 숫자 세기, 철자 인식, 논리 연산에서 약점을 보일 수 있다.
✔️ 이러한 한계를 이해하고, 코드 실행 등의 보완 방법을 활용하면 정확도를 높일 수 있다.
✔️ 모델을 도구로 활용하되, 중요한 문제에서는 반드시 검증하는 습관이 필요하다. 🔍