가장 쉽게 이해하는 베이즈 정리 2025 리마스터 II - 실전 업데이트와 나이브 베이즈

0) 1편 요약: 조건부확률 · 독립 · 베이즈 정리

1편에서 다룬 핵심은 다음과 같습니다.

조건부확률: \( P(A\mid B) = \dfrac{P(A\cap B)}{P(B)} \), \( P(B\mid A) = \dfrac{P(A\cap B)}{P(A)} \)
곱셈법칙: \( P(A\cap B) = P(A\mid B)P(B) = P(B\mid A)P(A) \)
독립: \( P(A\cap B) = P(A)P(B) \) (확장 시 임의의 부분집합 조합에 대해 곱으로 분해)
베이즈 정리: \[ P(B_j\mid A) = \frac{P(A\mid B_j)P(B_j)}{\sum_i P(A\mid B_i)P(B_i)} \]

이제 이 공식을 사전→사후 업데이트, 가능도비 누적, 나이브 베이즈로 확장해 실전 감각을 쌓습니다.

1편(정의/성질) 복습하기 →

개념 정리: 조건부 확률 · 독립 · 베이즈 정리

조건부 확률(Conditional Probability)

사건 \(B\)가 일어났다는 정보가 주어졌을 때, 사건 \(A\)가 일어날 확률을 조건부 확률이라고 합니다.

\( P(A\mid B) = \dfrac{P(A\cap B)}{P(B)} \), \( P(B\mid A) = \dfrac{P(A\cap B)}{P(A)} \) (단, \(P(B)>0, P(A)>0\))

즉, ‘둘 다 일어남(교집합)’을 ‘조건이 된 사건의 확률’로 나눈 값입니다. \(B\)가 사실일수록, \(A\)와의 겹치는 정도가 크면 \(P(A\mid B)\)가 커집니다.

곱셈 법칙과 직관

위 정의를 변형하면 \(P(A\cap B)=P(A\mid B)P(B)=P(B\mid A)P(A)\)를 얻습니다. 이는 ‘부분×전체’의 직관으로 이해할 수 있습니다. 전체 중 \(B\)의 비율만큼 먼저 줄이고, 그 안에서 다시 \(A\)의 비율만큼 줄이는 식입니다.

독립사건(Independence)

두 사건이 서로 영향을 주지 않는다면 \(P(A\cap B)=P(A)P(B)\)가 성립합니다. 여러 사건 \(A_1,\dots,A_n\)에 대해서도 임의의 부분집합의 교집합 확률이 각 확률의 곱으로 분해되면 상호 독립이라고 부릅니다.

직관적으로, 한 사건의 발생이 다른 사건의 확률을 바꾸지 않는 상태입니다(예: 완벽한 공정의 동전 던지기 결과와 내일 날씨).

분할(Partition)과 전확률의 법칙

표본공간 \(S\)를 서로 겹치지 않는 \(B_1,\dots,B_K\)로 완전 분할하면, 모든 사건 \(A\)는 \(A=(A\cap B_1)\cup\cdots\cup(A\cap B_K)\)로 쓸 수 있고

\( P(A) = \sum_{k=1}^{K} P(A\cap B_k) = \sum_{k=1}^{K} P(A\mid B_k)P(B_k) \)

이를 전확률의 법칙이라고 부릅니다. 다양한 원인(\(B_k\))이 뒤섞여 만들어낸 결과(\(A\))의 전체 확률을 ‘원인별 합’으로 계산합니다.

베이즈 정리(Bayes’ Theorem)

우리는 보통 원인을 알고 결과를 예측하는 \(P(A\mid B_k)\)를 쉽게 구합니다. 하지만 실제 궁금한 것은 그 반대, 결과를 보고 원인을 추정하는 \(P(B_j\mid A)\)인 경우가 많습니다. 이때 베이즈 정리는 다음을 말해줍니다.

\( P(B_j\mid A) = \dfrac{P(A\mid B_j)P(B_j)}{\sum_{k} P(A\mid B_k)P(B_k)} \)

즉, 사후확률(결과를 관측한 뒤 원인의 확률) = 가능도(원인 가정 하에서 결과의 그럴듯함) × 사전확률(원인에 대한 사전 신념) / 정규화 상수(전체 그럴듯함) 입니다.

예제: 주가 3일 연속 상승 관측

어떤 주식의 하루 상승확률을 \(\theta\)라 할 때, 사전으로 \(P(\theta=0.4)=0.5\), \(P(\theta=0.6)=0.5\)라고 합시다. 서로 다른 날의 등락은 독립이라고 가정합니다.

이제 3일 연속 상승(사건 \(A\))을 관측했습니다. 그러면

\( P(A\mid\theta=0.6) = 0.6^3,\quad P(A\mid\theta=0.4) = 0.4^3 \)

베이즈 정리에 의해

\( P(\theta=0.6\mid A) = \dfrac{(0.6)^3\cdot 0.5}{(0.6)^3\cdot 0.5 + (0.4)^3\cdot 0.5} = 0.7714 \)

즉, 동일한 관측도 사전 가정과 가능도에 따라 결과가 달라집니다. 데이터가 조금일 때는 사전의 영향이 큽니다.

왜 중요한가

베이즈 정리는 새로운 정보를 얼마나 반영해야 할지의 원리를 제공합니다. 우리는 종종 베이스레이트 무시나 과잉반응을 하곤 합니다. 베이즈 업데이트는 사전(기존 지식)과 가능도(새 정보)를 균형 있게 결합해 합리적인 의사결정을 돕습니다.

아래 상호작용 슬라이더로 사전/가능도/증거를 바꿔 보며 위 개념을 몸으로 익혀보세요.

1) 베타-베르누이 업데이트: 동전/성공률 추정

베르누이 성공확률을 \(\theta\)라 할 때, 베타 사전 \(\text{Beta}(a,b)\)와 데이터 \(s\)번 성공, \(f\)번 실패를 관측하면

사후는 \(\text{Beta}(a+s,\,b+f)\)가 됩니다. 평균/최빈값/분산 근사도 함께 확인하세요.

사전 a (성공 가중): 2

사전 b (실패 가중): 2

성공 s: 8

실패 f: 12

핵심 지표

사후 평균

—

사후 MAP

—

표준편차(근사)

—

95% 신뢰구간(근사)

—

근사: Var[Beta(a',b')] ≈ μ(1−μ)/(a'+b'+1)

왜 베타-베르누이인가?

성공확률 \(\theta\)를 가진 베르누이 시행에서 데이터 \(D=(s,f)\)를 관측하면 가능도는 \(\theta^s (1-\theta)^f\)에 비례합니다. 사전이 \(\text{Beta}(a,b)\)일 때 사후는

Posterior \(\propto \theta^s(1-\theta)^f\) × Prior \(\propto \theta^{a-1}(1-\theta)^{b-1}\) = \(\theta^{a+s-1}(1-\theta)^{b+f-1}\)

즉 \(\text{Beta}(a+s,b+f)\)가 되어 계산과 해석이 쉬워집니다. \(a,b\)는 가상의 성공/실패 횟수처럼 해석(유효 표본)할 수 있어 ‘사전 신념의 강도’를 조절합니다.

사전이 결과에 미치는 영향

데이터가 적을수록(\(s+f\)가 작을수록) 사후 평균 \(\dfrac{a+s}{a+b+s+f}\)은 사전에 더 끌려갑니다. 반대로 관측이 늘면 사전의 영향은 약해지고 빈도적 추정 \(s/(s+f)\)에 수렴합니다.

실무에서는 “초기 신뢰도”가 높은 상황(예: 이전 A/B 테스트, 장기간 운영된 시스템)에서는 큰 \(a+b\)를, 전혀 정보가 없다면 균일한 \(\text{Beta}(1,1)\) 같은 약한 사전을 씁니다.

2) 가능도비 체인: 증거를 곱해서 누적 업데이트

오즈 업데이트: \( O(H\mid E) = O(H) \times LR \). 여러 독립 증거 \(E_1,\dots,E_k\)에 대해

\( O(H\mid E_{1:k}) = O(H) \times \prod_{i=1}^k LR_i \), \( P = \dfrac{O}{1+O} \)로 변환합니다.

사전확률 P(H): 10%

양성 증거 개수(+): 2

음성 증거 개수(−): 1

LR(+): 5.0

LR(−): 0.2

업데이트 결과

사전 오즈

—

사후 오즈

—

사후 확률

—

총 LR

—

LR 해석과 직관

가능도비 \(LR=\dfrac{P(E\mid H)}{P(E\mid \neg H)}\)는 ‘증거가 가설 하에서 얼마나 더 그럴듯한가’를 수치화합니다. \(LR>1\)이면 H에 우호적, \(<1\)이면 반대입니다.

오즈 업데이트는 곱셈이므로 여러 독립 증거에 대해 로그 스케일(합)로 생각하면 직관이 좋아집니다. 즉 \(\log O(H\mid E_{1:k}) = \log O(H) + \sum_i \log LR_i\).

진료/검사, 부정행위 탐지, 신용평가 등에서 서로 다른 신호를 단계적으로 반영할 때 널리 쓰입니다.

3) 미니 나이브 베이즈: 스팸 판별 토이 모델

단어 존재 여부가 조건부 독립일 때, \( P(SPAM\mid d) \propto P(SPAM) \prod_i P(w_i\mid SPAM) \). 라플라스 스무딩 사용.

사전 스팸 확률 P(SPAM): 30%

단어 체크(존재)

free win offer meeting

사전 말뭉치(예시)에서 추정된 조건부 확률을 사용합니다.

결과

P(SPAM|문서)

—

P(HAM|문서)

—

로그-오즈

—

나이브 가정과 스무딩

나이브 베이즈는 특징 간 상관을 무시(조건부 독립)하여 계산을 단순화합니다. 현실에서는 완전 독립이 아니어도 surprisingly robust 합니다.

라플라스 스무딩은 관측이 0인 단어의 확률 붕괴를 막아주며, \(P(w\mid C)=\dfrac{\text{count}(w,C)+\alpha}{\sum_v \text{count}(v,C)+\alpha|V|}\) 형태를 자주 씁니다(\(\alpha=1\) 기본).

소규모 데이터에 강하고, 베이스라인 분류기로 유용합니다. 단, 긴 의존구조나 연속 변수를 다룰 때는 가우시안/멀티노미얼 변형 등으로 확장합니다.