본문 바로가기
프로그래밍 ( Programming )/머신러닝 ( ML )

Frequentist vs Bayesian (빈도주의자 vs 베이지안)

by Jayce_choi 2023. 4. 21.
반응형

두 개의 개념은 확률을 해석하는 관점의 차이에 있습니다. 

 

Frequentist

확률은 장기적으로 일어나는 사건의 빈도로 주장합니다. 

그리고 모수는 고정된 상수라고 가정하고 해석합니다. 

장점

  1. Objective Probability Statements: 빈도주의에서의 통계 접근은 긴 시간 동안의 event관찰을 통해서 객관적인 확률 statements를 제공할 수 있습니다. 즉, 결과 해석에 대해서 좀 더 빠르고 비 주관적으로 해석할 수 있습니다. 이는 곧 Robustness와 직결됩니다.
  2. Widely used: 베이지안 접근 보다 훨씬 다양한 상황에서 사용이 되며 대부분의 경우 샘플 수가 많기 때문에 더 많은 상황에서 사용이 가능하며 충분히 납득할만한 결과를 기대할 수 있습니다. 

단점

  1. Limited flexibility: 복잡한 모델과 파라미터를 다룰때 특정한 가정과 과정을 따르기 때문에 다양한 상황에 대해서 적용이 불가능할 수 있습니다.
  2. Lack of incorporation of prior knowledge: 빈도주의 통계는 사전 정보를 이용하지 않습니다. 때문에 기존에 존재하던 정보들을 분석에 반영할 수 없습니다. 
  3. Limited Probabilistic Statements: 빈도주의 적 접근은 p-value또는 신뢰구간과 같이 특정 상황에서 다음과 같은 개념들을 해석하는데 어려움을 가져올 수 있습니다.

 

 

Bayesian

데이터 관점에서 파라미터에 대한 신념의 변화를 분석합니다. 

여기서 신념 (Belief)이란 베이지안 통계에서는 Prior Probability Distribution을 의미하며 새로운 관찰 결과가 들어오기 전에 관심 대상의 확률이나 파라미터 정보에 대해서 이전에 알고 있던 지식, 가정, 주관적 의견들을 의미합니다. 즉 이러한 정보들은 분포로서 보일 수 있습니다. 

그리고 이러한 신념은 적절한 새로운 관찰 결과가 들어왔을 때 prior belief를 업데이트하여 갱신된 신념 또는 사후 신념 (posterior belief)을 얻게 되며 이를 기반으로 Estimation을 수행합니다.

https://stats.stackexchange.com/questions/529838/visualization-of-posterior-likelihood-and-prior

사전 분포를 기반으로 새로운 관측 결과가 왔을때 가능도를 점검하여서 사후 분포를 재 갱신합니다. 해당 과정에서는 베이즈 정리가 사용됩니다.

장점

  1. Incorporation of prior knowledge: 베이지안 통계는 사전 지식을 통합시켜서 믿음에 반영하기 때문에 만약 샘플 사이즈가 작은 경우 또는 사전 지식이 reliable 한 경우 더 정확한 베이지안 추론 과정을 이행할 수 있습니다.
  2. Flexibility: 빈도주의 분석보다는 더 유연하며 다양한 모델과 가정들을 이용할 수 있습니다.

단점

  1. Subjectivity: 베이지안 통계는 subjective prior 신념을 기반으로 합니다. 때문에 bias 또는 inconsistency를 불러올 수 있습니다. 즉, prior distribution을 결정하는 과정에 의견이 들어가기 때문에 이는 곧 최종 결과에 영향을 줄 수 있습니다.
  2. Computationally intensive: 베이지안 통계는 보통 상당한 연산을 동반합니다. 과거에는 환영을 받지 못하였지만, 최근에 들어서 연산 능력의 향상으로 머신러닝 및 통계에서 다양하게 사용되고 있습니다.
  3. Interpretation: 결과에 대한 해석이 빈도주의 접근보다 보통 더 어렵습니다. 상당한 모델링과 분포 계산을 동반하여서 결과가 나오기 때문입니다. 

 

Different approach between Bayesian and Frequentist

만약 한 도시에 얼마만큼의 비율로 사람들이 정치 후보에 대해서 지지하고 있는지를 추정하고 싶을 때, 우리가 500개의 설문조사를 랜덤 하게 개개인에게 조사하였다고 생각해 봅시다. 그리고 그중 250개가 정치 후보를 지지한다고 생각해 보겠습니다.

빈도주의 접근은 샘플 데이터를 기반으로 계산을 수행할 것입니다. 즉, 지지자의 비율은 250/500 = 0.5이며 95%의 신뢰구간을 만족하는 구간을 생각해 볼 때 binomial distribution을 고려하며 (0.45, 0.55)의 결과를 도출할 수 있습니다.

베이지안 접근은 사전 믿음을 바탕으로 시작합니다. 만약 우리가 사전에 지지자들이 0.4 비율로 지지하고 표준편차 0.1을 가지고 있다고 믿고 있을 때, 우리는 정규 분포를 이용하여 평균 0.4 및 표준편차 0.1로 prior distribution을 가정합니다. 그 후, 베이즈 이론을 이용하여 500개의 설문 조사 결과를 다시 반영하여 믿음을 재갱신하여서 결과를 도출하게 됩니다.

 

Conclusion

Frequentist Bayesian
θ is fixed θ is a random variable
focus on the sampling distribution of X focus on the variation of θ
What we observe is random, what we do not observe is fixed what we observed is fixed, what we do not observe is random
확률을 긴시간 동안의 사건 빈도로 해석 확률을 사건 발생에 대한 믿음 또는 척도로 해석

 

반응형

댓글