조건부확률이, 우리가 가지는 상식에 반하는 성질이 있어서 이기도하지만, 확실하게 개념을 못 짚어서가 대부분이다.
---
먼저 공식부터 다시 짚어보면,
$ P(A|B) = \frac {P(A)P(B|A)} {P(B)}$
외우는 것은 아비=아바/비
좋은 암기방법!! ㅎ
이를 위해, 원래의 공식은 일반적으로 분자에 있는 수식을 P(B|A)P(A)라고 적는데 반해, 여기서는 그 순서를 바꿔서 P(A)P(B|A)라고 했다. 곱셈이기에 순서를 바꿔도 무방하기에.
---
공식에 대해 설명하기 전에 확률과 우도의 개념부터 짚어보고 가겠다. (조건부확률을 이해하기 위한 목적에 포커싱을 둬서)
확률
모수가 있을 때, 어떤 현상이 벌어질 수의 비이다. 즉, 어떤 전체 모집단이 있을 때, 어떤 현상이 나올 가능성이다.
예를 들어, 암 진단용 시약 검사를 해서 양성이 나왔다. 이 양성인 집단을 모수로하고, 이 양성인 집단에서 실제 암환자의 수의 비가 확률이다. (검사를 해밨는데 '양성'인 사람들이 모집단이 된다는 것에 주의)
양성인 집단이 100명인데, 여기서 실제 암인 사람이 80명이면 "양성일 때 암일 '확률'은 80%이다"라고 할 수 있는 것이다. (시약 검사를 해서 양성이라고 해서 모두가 다 실제 암은 아니다. 진단시약의 오류가 있는 것이다.)
우도(likelihood, 가능도)
어떤 현상이 발생했을 때, 이것이 어떤 모수로부터 나올 가능성이다. 즉, 어떤 현상이 발생했는데, 이 현상이 어떤 모집단에서 발생했을까하는 척도이다. A라는 모집단에서 발생할 가능성은 얼마, B라는 모집단에서 발생할 확률은 얼마. 이러한 것이 '우도'이다.
예를 들어, 실제 암에 걸린 사람들을 대상으로 암 진단용 시약으로 검사를 했더니 99%가 양성으로 나왔다.
그렇다면, 우도가 99%라고 할 수 있는 것이다. 물론, 이때의 모집단은 '양성'으로 나온 모든 사람들이다. 즉, 실제 암에 걸려있건 암이 아닌 상태에서건 상관없이, 시약 검사를 했을 때 '양성'이 나온 모든 사람들이 모집단이 된다.
다시 얘기하면, '양성'판정을 받은 모집단이 있고, '암'이라는 현상이 있고, '암이 아님'이라는 현상이 있을 때 (이 두 가지 현상은 상호 독립적. 즉, 교집합이 없고, 두 경우를 합치면 전체 모수가 되는), '암'이라는 현상일 때 '양성'이라는 모집단에 속할 가능성이 '우도'가 되는 것이다.
그림을 이용한 확률과 우도의 이해 ('22.6월 보강)
아무래도 '확률'과 '우도'에 대한 설명이 부족한 듯해, 그림을 이용한 예를 통해 설명해보고자한다.
전체 모집단이 만 명(10,000명)이고, 양성인 모집단이 1,000명, 음성인 모집단이 9,000명이라 하자. (전부 '모집단'이라고 해서 헷갈릴 수도 있는데, 보는 관점에 따라서 '양성'인 집단을 혹은 '음성'인 집단을 모집단으로 볼 수도 있기에, 이렇게 각각을 '모집단'이라고 표현한 것임)
여기서, 양성 모집단에서 ~암(암이 아닌 경우)은 901명이고, 암은 99명이고, 음성 모집단에서 암은 1명, ~암은 8,999명이라고 하자.
그렇다면, 양성 모집단에서 '암'일 확률은 9.9%이다. (99명/1,000명) 그리고, '암'인 경우에 '양성'일 우도는 99%이다. (99명/100명) 이 경우 '양성'인 집단을 '모집단'으로 본 것이고, '암'이라는 것은 '현상'이다.
위 확률과 우도의 개념을 잘 이해했길 바란다. 사실 이게 핵심이다. 이 개념이 없으면, 조건부 확률에 대해서는 계속 헷갈리게 된다.
다시 한번 얘기하면, "확률은 모집단에 대한 어떤 현상 비율을, 우도는 어떤 현상이 있을 때 그 현상이 어떤 모집단에 속할 가능성 비율"
---
이제 조건부 확률의 수식으로 돌아오면,
$ P(A|B) = \frac {P(A)P(B|A)} {P(B)}$
P(A|B) - 조건부 확률이다. - B의 조건에서 A라는 현상이 발생할 확률. 여기서 B는 모집단이다. - 즉, 모집단 B가 있을 때, 그 중에 A일 확률이다. - 예를 들어, "양성판정받은 모집단에서, 실제 암환자의 비율"
P(A) - A라는 '현상'이 발생할 확률 - 예를들어, "전제 암환자 비율"
P(B|A) - 우도. B는 모집단, A는 현상 - A라는 현상이 발생했을 때, 원래의 모집단이 B일 확률 (암환자인데, 양성일 확률)
P(B) - B라는 모집단 확률 - 양성 판정을 받을 확률 = 암인데 양성판정 확률 + 암아닌데 양성판정 확률
조건부 확률이라는 것이 "어떤 모집단에서 특정 현상이 발생할 확률"이라는 개념을 확실히 잡고 있으면, 위 수식에 대해서 대부분은 이해될 것이다. (물론 찬찬히 생각을 하면서 봐야겠지만)
그런데, P(B)에 대한 개념이 잘 안 와닿을 수 있다. 실제 조건부 확률 문제를 풀 때도, 이 P(B), 즉 모집단의 확률을 못 구해서 풀지 못하는 경우가 많다.
P(B)에 대해 좀 더 알아보자.
---
모집단 확률 P(B)
이름 그대로 모집단일 확률이다.
예를 들어, 모집단이 "암 진단 검사를 받은 사람 중 '양성'판정을 받은 사람"이라고 한다면, "P(양성) = 양성인 사람 수 / 전체 총 인원수"가 된다.
이처럼 총인원수가 주어진다면, 위와 같은 방법으로 모집단일 확률을 구하면 된다.
그러나, 대부분은 위와 같은 인원수가 주어지지 않고, 대신에 "암에 걸린 사람을 대상으로 시험했을 때 양성일 확률"과 "암이 걸리지 않은 사람을 대상으로 했을 때 양성일 확률"을 가지고 구하게 된다.
확률을 구한다는 개념을, 수식을 이용해서 알아보자.
P(양) = P(양, 암) + P(양, ~암)
--> 양성인 모집단이 있을 때, 이 모집단을 대상으로는 '암'이라는 상태와, '~암'이라는 2가지 상태만 존재하기에, 이와 같은 수식이 가능한 것이다. 양성이면서 암인 확률과 양성이면서 암이 아닌 확률을 더한 것이다. 여기서, P(양, 암)은 양성과 암의 교집합인 확률을 이렇게 표시한 것이다. 즉, $P(양,암) = P(양) \cap P(암) $
즉, 유방조영술로 유방암에 대한 양성 판단을 받았어도, 실제 유방암일 확률은 9.39%밖에 안된다. (실제 현실에서 그렇다는 얘기가 아니다. 위에 문제에 의한 조건식일 때 그렇다는 얘기)
이 문제를 그림으로 풀어도 된다. ('22.6월 보강)
이러한 방법이 더 직관적인긴 하다. 아래 그림 참조. 별도 설명은 없다. 그림에 의한 풀이를 위에서 아래로 천천히 보면, 풀이과정을 알 수 있을 것이다. (전체 모집단을 임의로 만 명으로 함에 유의)
---
문제 2.
공장에서 생산된 부품은 품질심사를 마치면 A, B, C 중 하나의 등급을 받고 있다. 부품 중 70%가 A등급을, 18%가 B 등급을, 12%가 C등급을 받고 있다. 그리고 A등급 부품 중 2%, B 등급 부품 중 10%, C 등급 부품 중 18%가 최종 불량으로 판정되고 있다.
하나의 부품이 불량으로 판정되었을 때, 그 부품이 B 등급을 받았을 확률을 계산하고 설명하시오.
<풀이>
여기서 모집단은 무엇일까?
구하려는 조건부 확률을 생각해보고, 이 조건부 확률에서의 모집단이 뭐가 될까로 접근해야 한다.
"불량일 때 그 부품이 B등급일 확률"이 구하려는 것이기에, 조건부 확률 P(B|불량)을 구하는 것이다.
따라서, 모집단은 '불량'인 부품들이다.
조건부확률 공식을 써보면,
P(B|불량) = P(불량|B)P(B) / P(불량)
문제의 조건에서 값들을 뽑아내면,
P(A) = 70%, P(B)=18%, P(C)=12% --> 전체합이 1이다. 즉, 모든 부품은 A, B, C 중 하나이다.