보통 확률에서 나오는 단어 중에서 PDF(Probability Density Function)와 PMF(Probability Mass Function)이라는 용어들을 많이 사용하는데 해당 단어에는 Density와 Mass, 즉 밀도와 질량이라는 단어가 들어가 있습니다.
이번 글에서는 둘의 개념에 대해서 왜 사용이 되었는지에 대해서 적어보도록 하겠습니다.
우선 이산(Discrete)이라는 의미는 '분리된'이라는 의미를 가지고 있습니다. 때문에 하단의 그래프 처럼 분포를 표현하게 되면 연속적인(Continuous) 그래프와는 다르게 각 구간별로 구별이 되어있습니다. 대표적인 이산 확률분포의 예시로는 동전과 주사위와 같은 사건이 딱 떨어지는 경우에 대해 다루게 됩니다.
만약 이산확률분포와 연속 확률분포가 하단의 사진과 같이 표현이 되어있을 때 확률을 어떻게 구하는지에 대해서 먼저 적어보도록 하겠습니다.
확률 변수가 X인 이산확률분포에서 X 가 1~6까지의 숫자를 가지며 연속 확률분포에서는 -4~4 사이의 구간을 가진다고 해봅시다.
이때 이산확률분포에서 1 이상 2 이하의 값에 대해 속할 확률이 얼마가 될 것인가라는 계산은 각각의 경우의 확률의 합산이 되므로 1의 확률과 2의 확률을 더한 결과가 됩니다.
연속 확률분포에서는 확률변수에 대해서 상대 도수/계급의 크기로 표현을 하는데 이산 확률분포처럼 하나의 값에 대해서 다루는 게 아니라 다만 구간에 대해서 생각을 하기 때문에 넓이를 구하기 위해서는 적분을 이용합니다. 때문에 1부터 2까지의 계급에 대한 확률을 구하기 위해서 하단의 결과처럼 표현됩니다.
표로 정리해보면 다음과 같습니다.
여기서 잠깐 물리 성질들에 대해서 나열해보겠습니다
질량 - M, 부피 - V, 밀도 - \(\rho\) 이렇게 3가지에 대해서 밀도는 질량을 부피로 나눈것으로 표현이 됩니다. 또한 질량은 밀도와 부피의 곱으로 다시 표현이 가능합니다.
보통 밀도의 개념을 3차원에서 다루게 되는데 특정한 좌표 x,y,z에 대해서 부피를 모두 적분한 값으로써 질량을 표현하게 됩니다. (밀도는 질량과는 관계없는 성질)
여기서 차원을 낮춰서 2차원으로 표현시 면적에 대해 다루며 1차원일 때는 길이에 대해서 적분을 하게 됩니다.
여기서 밀도가 위치마다 다 다르다고 가정한다면 선은 \(\rho\) (x)라는 함수로 표현되게 되며 특정 미소 구간 dx에 대해서 질량을 얻기 위해서는 전체 길이에 대한 적분을 하게 되면 m을 구할 수 있습니다.
0차원에서는 점에 대해서 고려하기 때문에 점은 곧 질량이 됩니다. 즉 질점이라고 부르게 됩니다.
예를 들어 1과 2 사이의 구간의 질량들을 더하게 되면 m(1≤x≤2) = m(1) + m(2)가 되며 연속적인 분포에서는 적분을 사용하여 길이에 대한 m(1≤x≤2) 구하게 됩니다.
정리하면 다음과 같이 비슷한 양상을 띄는것을 보실 수 있는데 때문에 이산 확률변수에서 다룰 때는 질량이라는 표현을 사용하며 연속에서는 단일 개체에 대한 고려가 아닌 적분을 통해서 구간에 대한 고려를 하기 때문에 밀도로 표현을 하게 됩니다.
댓글