여러 번 공부해도 자꾸 까먹고 헷갈리는 게 조건부 확률이다.
왜일까?
조건부확률이, 우리가 가지는 상식에 반하는 성질이 있어서 이기도하지만, 확실하게 개념을 못 짚어서가 대부분이다.
---
먼저 공식부터 다시 짚어보면,
$ P(A|B) = \frac {P(A)P(B|A)} {P(B)}$
외우는 것은 아비=아바/비
좋은 암기방법!! ㅎ
이를 위해, 원래의 공식은 일반적으로 분자에 있는 수식을 P(B|A)P(A)라고 적는데 반해, 여기서는 그 순서를 바꿔서 P(A)P(B|A)라고 했다. 곱셈이기에 순서를 바꿔도 무방하기에.
---
공식에 대해 설명하기 전에 확률과 우도의 개념부터 짚어보고 가겠다. (조건부확률을 이해하기 위한 목적에 포커싱을 둬서)
확률
모수가 있을 때, 어떤 현상이 벌어질 수의 비이다. 즉, 어떤 전체 모집단이 있을 때, 어떤 현상이 나올 가능성이다.
예를 들어, 암 진단용 시약 검사를 해서 양성이 나왔다. 이 양성인 집단을 모수로하고, 이 양성인 집단에서 실제 암환자의 수의 비가 확률이다. (검사를 해밨는데 '양성'인 사람들이 모집단이 된다는 것에 주의)
양성인 집단이 100명인데, 여기서 실제 암인 사람이 80명이면 "양성일 때 암일 '확률'은 80%이다"라고 할 수 있는 것이다. (시약 검사를 해서 양성이라고 해서 모두가 다 실제 암은 아니다. 진단시약의 오류가 있는 것이다.)
우도(likelihood, 가능도)
어떤 현상이 발생했을 때, 이것이 어떤 모수로부터 나올 가능성이다. 즉, 어떤 현상이 발생했는데, 이 현상이 어떤 모집단에서 발생했을까하는 척도이다. A라는 모집단에서 발생할 가능성은 얼마, B라는 모집단에서 발생할 확률은 얼마. 이러한 것이 '우도'이다.
예를 들어, 실제 암에 걸린 사람들을 대상으로 암 진단용 시약으로 검사를 했더니 99%가 양성으로 나왔다.
그렇다면, 우도가 99%라고 할 수 있는 것이다. 물론, 이때의 모집단은 '양성'으로 나온 모든 사람들이다. 즉, 실제 암에 걸려있건 암이 아닌 상태에서건 상관없이, 시약 검사를 했을 때 '양성'이 나온 모든 사람들이 모집단이 된다.
다시 얘기하면, '양성'판정을 받은 모집단이 있고, '암'이라는 현상이 있고, '암이 아님'이라는 현상이 있을 때 (이 두 가지 현상은 상호 독립적. 즉, 교집합이 없고, 두 경우를 합치면 전체 모수가 되는), '암'이라는 현상일 때 '양성'이라는 모집단에 속할 가능성이 '우도'가 되는 것이다.
그림을 이용한 확률과 우도의 이해 ('22.6월 보강)
아무래도 '확률'과 '우도'에 대한 설명이 부족한 듯해, 그림을 이용한 예를 통해 설명해보고자한다.
전체 모집단이 만 명(10,000명)이고, 양성인 모집단이 1,000명, 음성인 모집단이 9,000명이라 하자. (전부 '모집단'이라고 해서 헷갈릴 수도 있는데, 보는 관점에 따라서 '양성'인 집단을 혹은 '음성'인 집단을 모집단으로 볼 수도 있기에, 이렇게 각각을 '모집단'이라고 표현한 것임)
여기서, 양성 모집단에서 ~암(암이 아닌 경우)은 901명이고, 암은 99명이고, 음성 모집단에서 암은 1명, ~암은 8,999명이라고 하자.
그렇다면, 양성 모집단에서 '암'일 확률은 9.9%이다. (99명/1,000명)
그리고, '암'인 경우에 '양성'일 우도는 99%이다. (99명/100명)
이 경우 '양성'인 집단을 '모집단'으로 본 것이고, '암'이라는 것은 '현상'이다.
위 확률과 우도의 개념을 잘 이해했길 바란다. 사실 이게 핵심이다. 이 개념이 없으면, 조건부 확률에 대해서는 계속 헷갈리게 된다.
다시 한번 얘기하면, "확률은 모집단에 대한 어떤 현상 비율을, 우도는 어떤 현상이 있을 때 그 현상이 어떤 모집단에 속할 가능성 비율"
---
이제 조건부 확률의 수식으로 돌아오면,
$ P(A|B) = \frac {P(A)P(B|A)} {P(B)}$
P(A|B)
- 조건부 확률이다.
- B의 조건에서 A라는 현상이 발생할 확률. 여기서 B는 모집단이다.
- 즉, 모집단 B가 있을 때, 그 중에 A일 확률이다.
- 예를 들어, "양성판정받은 모집단에서, 실제 암환자의 비율"
P(A)
- A라는 '현상'이 발생할 확률
- 예를들어, "전제 암환자 비율"
P(B|A)
- 우도. B는 모집단, A는 현상
- A라는 현상이 발생했을 때, 원래의 모집단이 B일 확률 (암환자인데, 양성일 확률)
P(B)
- B라는 모집단 확률
- 양성 판정을 받을 확률 = 암인데 양성판정 확률 + 암아닌데 양성판정 확률
조건부 확률이라는 것이 "어떤 모집단에서 특정 현상이 발생할 확률"이라는 개념을 확실히 잡고 있으면, 위 수식에 대해서 대부분은 이해될 것이다. (물론 찬찬히 생각을 하면서 봐야겠지만)
그런데, P(B)에 대한 개념이 잘 안 와닿을 수 있다. 실제 조건부 확률 문제를 풀 때도, 이 P(B), 즉 모집단의 확률을 못 구해서 풀지 못하는 경우가 많다.
P(B)에 대해 좀 더 알아보자.
---
모집단 확률 P(B)
이름 그대로 모집단일 확률이다.
예를 들어, 모집단이 "암 진단 검사를 받은 사람 중 '양성'판정을 받은 사람"이라고 한다면, "P(양성) = 양성인 사람 수 / 전체 총 인원수"가 된다.
이처럼 총인원수가 주어진다면, 위와 같은 방법으로 모집단일 확률을 구하면 된다.
그러나, 대부분은 위와 같은 인원수가 주어지지 않고, 대신에 "암에 걸린 사람을 대상으로 시험했을 때 양성일 확률"과 "암이 걸리지 않은 사람을 대상으로 했을 때 양성일 확률"을 가지고 구하게 된다.
확률을 구한다는 개념을, 수식을 이용해서 알아보자.
P(양) = P(양, 암) + P(양, ~암)
--> 양성인 모집단이 있을 때, 이 모집단을 대상으로는 '암'이라는 상태와, '~암'이라는 2가지 상태만 존재하기에, 이와 같은 수식이 가능한 것이다. 양성이면서 암인 확률과 양성이면서 암이 아닌 확률을 더한 것이다. 여기서, P(양, 암)은 양성과 암의 교집합인 확률을 이렇게 표시한 것이다. 즉, $P(양,암) = P(양) \cap P(암) $
수식을 전개해 보면,
P(양) = P(양, 암) + P(양, ~암) = P(양|암)P(암) + P(양|~암)P(~암)
P(X,Y) = P(Y|X)P(X)가 됨을 이미 알고 있다고치고 수식을 전개했다.
즉, P(양,암) = P(양|암)P(암) --> 이 수식은 암기하는 게 좋다.
이 수식을 굳이 유도해보면,
P(Y|X) = n(Y,X) / n(X) --> X라는 모집단에서 X와 Y의 교집합인 수량 비
여기서, n(Y,X) = n(X,Y) = P(X,Y)T --> T:전체 개수
n(X) = P(X)T
따라서, P(Y|X) = n(Y,X) / n(X) = P(X,Y)T / P(X)T = P(X,Y)/P(X)
P(X,Y)에 대해서 전개하면, P(X,Y) = P(Y|X)P(X) -->수식유도 끝
P(양)이라는 모집단의 확률을, P(양|암)P(암) + P(양|~암)P(~암)이라는 수식으로 구할 수 있게 되었다.
---
모집단의 확률을 구하는 것을, 위에서는 2개의 경우의 수가 있을 때만 봤는데(암인 경우, 암이 아닌 경우), 여러 개가 있을 수 있다.
일반화하면,
$ P(B) = \sum _{i=1} ^{n} {P(B|A_i)P(A_i)} $
B라는 모집단이 $A_i$라는 현상으로 n개 존재할 때, 그 모집단인 B의 확률은, 모집단과 그 현상들의 교집합의 합과 같다는 것이다.
글로는 이해가 힘들 수 있으나, 위에 있는 그림을 유추해보면, 당연한 말이다.
어떤 모집단 덩어리가 있을 때, 그 확률은, 그 덩어리를 구성하는 모든 부분집합들의 확률의 합으로 표현할 수 있는 것이다.
---
모집단의 확률을 위와 같이 표현할 수 있기에, 조건부 확률의 공식을 아래와 같이 쓸 수도 있겠다.
$ P(A_k|B) = \frac {P(A_k)P(B|A_K)} {\sum _{i=1} ^{n} {P(B|A_i)P(A_i)}}$
여기서 $A_k$는, 모집단인 B의 부분 현상 중에, 조건부 확률을 구할 대상이 되는 특정한 현상을 의미한다.
수식의 분모에 있는 Sum 공식이 복잡해 보이지만, 이는 모집단 B의 확률을 나타내고, 이 B의 확률이 주어지지 않으니, 그 부분집합인 A들에 대한 확률을 모두 더한 것이라고 생각하면 이해가 쉽게 될 것이다.
---
아직까지도 조건부 확률에 대한 완전한 이해가 안 될 수 있을 것이다.
아래 문제 2개 정도를 훑어보면, 확실하게 이해가 될 것이다.
문제1. 김여사는 45세이고, 유방조영술을 통해 유방암 검사를 받았는데 , 검사 결과 양성이라고 검진되었다. 유방암에 걸렸을 때 유방조영술을 통해서 양성으로 나올 확률은 90%이다. 유방암이 아니더라도 유방조영술에서 양성으로 판정할 확률은 7%이다.
우리나라의 40~50대 여성이 유방암에 걸릴 확률은 0.8%로 알려져 있다.
그렇다면, 위의 검사와 같이 유방조영술을 통해 유방암 양성 판정을 받은 경우, 실제 유방암에 걸렸을 확률은?
<풀이>
모집단은 '양성'판정을 받은 집단이다. 그중에 '암'인 부분 집단이 있고, '~암'인 부분집단이 있는 것이다. (이렇게 생각하고 문제를 풀어야 함)
따라서, "양성 판정을 받은 경우 실제 유방암에 걸렸을 확률"은 조건부 확률 P(암|양)이다. 즉, P(암|양)을 구하면 된다.
P(암|양) = P(양|암)P(암)/P(양) --> 이 식에 의해 구하면 될 것이다.
문제에서 주어진 조건들에 의한 값을 나열해 보면,
- P(양|암) = 90%=0.9
- P(양|~암) = 7%=0.07
- P(암) = 0.8%=0.008 --> P(~암) = 99.2%=0.992
구하려는 수식에서, P(양|암) 및 P(암)은 문제 조건에서 주어졌는데, P(양)은 주어지지 않았다. 주어진 조건을 이용해서 유추해내야 한다.
P(양) = P(양|암)P(암) + P(양|~암)P(~암) = 0.9 * 0.008 + 0.07 * 0.992 = 0.07664
--> 모집단인 '양성' 판정을 받은 사람들의 확률은, 그 부분집합들의 확률합임을 되새겨보면, 이 수식이 이해될 것이다.
따라서, 조건부확률을 구해보면,
P(암|양) = P(양|암)P(암)/P(양) = (0.9 * 0.008)/0.07664 = 0.0939 = 9.39%
즉, 유방조영술로 유방암에 대한 양성 판단을 받았어도, 실제 유방암일 확률은 9.39%밖에 안된다. (실제 현실에서 그렇다는 얘기가 아니다. 위에 문제에 의한 조건식일 때 그렇다는 얘기)
이 문제를 그림으로 풀어도 된다. ('22.6월 보강)
이러한 방법이 더 직관적인긴 하다. 아래 그림 참조. 별도 설명은 없다. 그림에 의한 풀이를 위에서 아래로 천천히 보면, 풀이과정을 알 수 있을 것이다. (전체 모집단을 임의로 만 명으로 함에 유의)
---
문제 2.
공장에서 생산된 부품은 품질심사를 마치면 A, B, C 중 하나의 등급을 받고 있다. 부품 중 70%가 A등급을, 18%가
B 등급을, 12%가 C등급을 받고 있다. 그리고 A등급 부품 중 2%, B 등급 부품 중 10%, C 등급 부품 중 18%가 최종 불량으로 판정되고 있다.
하나의 부품이 불량으로 판정되었을 때, 그 부품이 B 등급을 받았을 확률을 계산하고 설명하시오.
<풀이>
여기서 모집단은 무엇일까?
구하려는 조건부 확률을 생각해보고, 이 조건부 확률에서의 모집단이 뭐가 될까로 접근해야 한다.
"불량일 때 그 부품이 B등급일 확률"이 구하려는 것이기에, 조건부 확률 P(B|불량)을 구하는 것이다.
따라서, 모집단은 '불량'인 부품들이다.
조건부확률 공식을 써보면,
P(B|불량) = P(불량|B)P(B) / P(불량)
문제의 조건에서 값들을 뽑아내면,
- P(A) = 70%, P(B)=18%, P(C)=12% --> 전체합이 1이다. 즉, 모든 부품은 A, B, C 중 하나이다.
- P(불량|A)=2%, P(불량|B)=10%, P(불량|C)=18%
역시 모집단의 확률인 P(불량)이 주어지지 않았다. 유추해내야 한다.
P(불량) = P(불량|A)P(A) + P(불량|B)P(B) + P(불량|C)P(C) = 0.02 * 0.7 + 0.1 * 0.18 + 0.18 * 0.12 = 0.0536
--> '불량'인 모집단을 구성하는 것은 A부품, B부품, C부품만이라는 것을 유념해서 생각해보면, 이해가 되는 식이다.
이제 조건부 확률을 구해보면,
P(B|불량) = P(불량|B)P(B) / P(불량) = 0.1 * 0.18 / 0.0536 = 0.3358 = 33.58%
-끝-
'Information > 통계' 카테고리의 다른 글
평균과 기댓값 (0) | 2020.06.15 |
---|