비유를 통해 알아보는 통계적 검정력

 

자세히 보아야 예쁘다
오래 보아야 사랑스럽다
power가 그렇다

[풀꽃-나태주 패러디]

좋은 시에 괴상한 통계적 용어를 끼얹어 죄송한 마음이지만 정말 통계적 검정력 (statistical power) 의 성격이 위 비유와 비슷한 것 같습니다. 이번글에서는 통계적 검정력이 무엇인지 비유를 통해 알아보겠습니다.

통계적 검정력 (statistical power)

통계적 검정력 (이하 power) 개념 자체를 통계학적인 문장으로 표현하면 다음과 같습니다

대립가설이 사실일 때, 이를 사실로서 결정할 확률

특히 귀무가설-대립가설 관점에서 귀무가설이 사실일 때 귀무가설을 기각하지 않는 오류를 2종 오류라 하는데 1 - (2종 오류 확률) 을 하면 power가 계산됩니다. 우리에게 익숙한 상황에 빗대어 표현하자면 다음과 같습니다.

코로나에 걸렸는데 걸리지 않았다고 할 확률이 20%라 할 때, power는 0.8

내용을 보면 얼추 이해한 것 같은데 위 개념을 실무에 적용할 때는 그래서 뭐…가 되는 경우가 많습니다. 아래에서 더 자세히 설명해보겠습니다.

누가 더 클까?

absolute absolute

위 사진 속 포메라니안과 골든리트리버 중 누가 더 클까요? 성깔은 포메가 더 쎌지 몰라도 덩치는 누가봐도 골든리트리버가 더 큽니다. 심지어 두 강아지를 같이 위치시키고 100m 밖에서 봐도 누가 더 큰지 쉽게 알 수 있겠죠.
그렇다면 10살 리트리버와 6개월 리트리버는 어떨까요? 참고로 6개월 정도면 아직 더 클 게 남았긴 하지만 이미 상당히 큰 상태입니다. 아마도 가까이서는 누가 더 큰지 알겠지만, 100m 밖에서는 구분하기 어려울 것입니다. 구분하려면 자세히 봐야한다는 거죠. 이와 비슷한 포인트가 power에도 존재합니다.
가설검정의 핵심은 A집단과 B집단의 차이가 있는지 확인하는 것인데요, 대부분의 경우 두 집단의 분포는 일부 구간이 겹쳐서 존재하고 일부 구간이 겹치더라도 통계적 방법론을 이용해 같다/다르다를 구분합니다. 하지만 통계적 방법론은 마법이 아니기 때문에 위에서 언급한 2종 오류를 포함해 잘못 기각 혹은 기각하지 않는 상황이 발생할 수 있습니다. power는 1 - (2종 오류 확률) 이기 떄문에 power를 높이면 가설검정의 신뢰도를 높일 수 있죠. 이 power를 높이는 가장 효과적인 방법이 데이터 수를 늘리는 것입니다 (데이터가 많아질수록 실제 분포에 근사하는 샘플이 뽑히기 때문에). 반대로 말하면 데이터가 적다면 power가 낮다고 할 수 있습니다.
만약 A집단과 B집단이 포메라니안 집단과 골든리트리버 집단이라면 데이터가 적게 존재해도 분포상 겹치는 영역이 적으니 power가 높아지게 됩니다. 따라서 굳이 많은 데이터가 필요하지 않습니다 후술할 power analysis를 이용한 sample size calculator에서 MDE (Minimum Detectable Effect) 가 크면 굉장히 적은 수의 샘플만 필요하다고 계산해주는 것도 같은 이유입니다.
만약 A집단은 10살 리트리버 B집단은 6개월 리트리버라면 어떨까요? 두 분포가 엄연히 다르다고 가정해도, 이번에는 분포상 겹치는 영역이 많을 것입니다. 그래서 적은 수의 샘플만 확보하면 분포 중 겹치는 영역 위주로 뽑았을 확률이 높아지게 됩니다. 그러면 다른 두 분포이지만 두 분포가 같다라는 귀무가설을 기각하지 못하는 상황이 많이 발생하게 됩니다. 이처럼 power가 낮은 상황에서 우리의 power를 높이기 위해서는 샘플 사이즈를 늘리는 것이 필요합니다. 작은 차이일지라도 두 분포가 다르다는 근거를 확보하기 위함이며 이는 크기 차이가 얼마 안 나는 두 강아지 중 누가 더 큰지 확인하기 위해 가까이에서 비교하는 것과 같습니다.
요약하자면 power란 차이가 난다고 확신할 수 있는 정도라고 할 수 있겠습니다. 두 강아지가 기본적으로 크기 차이가 많이 난다면 멀리서도 누가 더 크다고 확신할 수 있고 차이가 많이 나지 않는다면 가까이에서 비교하면서 누가 더 크다고 확신하는 것처럼, power가 높으려면 두 분포가 기본적으로 차이가 많이 나거나 데이터를 많이 수집하면 됩니다.

데이터를 늘리면 power가 높아지는 이유에 대한 수학적이지 않은 설명

통계는 개개인의 차이가 아닌 집단의 차이를 다루는 학문인데, 집단 내에는 우리가 가진 가설 외에 여러 변수에 의해 영향을 받은 값들이 존재하고 이런 관심 외의 변수의 영향력을 줄이는 방법은 데이터를 많이 쌓는 것이다

데이터가 많아지면 무조건 귀무가설이 기각된다는 얘기가 나오는 이유는 power가 그만큼 커졌기 때문에 작은 차이에도 민감하게 반응하는 것 따라서 p-hacking도 조심해야 하지만, 무작정 데이터가 많은 것이 문제라는 식의 비판도 조심해야 한다

통계적 검정력을 높이기 위한 시도들

  • 데이터 더 모으기
  • CUPED