정규성을 만족하지 않는 경우 - jeong-gyuseong-eul manjoghaji anhneun gyeong-u

 * 이 글은 

    http://thestatsgeek.com/2013/09/28/the-t-test-and-robustness-to-non-normality/

   의 글을 보고 참고한 내용을 작성한 포스트입니다.

* 항상 T-test를 할 때 궁금한 점이 있었다.

  1) 대표본인 경우 sample의 정규성을 고려하지 않아도 좋은가? (중심극한정리에 의해)

  2) 중심극한정리는 sample의 수가 많을 때, 표본평균의 분포가 근사적으로 정규분포를 따른다는 것을 의미한다. 하지만, T분포의 경우 표준정규분포와 sqrt(S/df)의 비의 분포이므로 카이제곱분포를 또한 근사적으로 sample mean으로 만들 수 있는지를 살펴봐야 한다.

      내가 생각한 바로는 카이제곱 분포의 경우 sample mean 뿐만이 아니라 각각의 Xi들 또한 필요하기 때문에 t분포가 중심극한정리에 의해 대표본 근사하기 어렵다고 생각한다.

이러한 의문을 해결하지 못해서, 검색하던 중 발견한 포스팅이다.

===================================================

 - T-test는 기본적으로 두 집단의 평균이 같은지에 대해서 검증할 수 있는 방법이다.

   이 때 기본적인 가정이 필요하다.

   1) 두 집단은 각각 정규분포를 따른다.

   2) 두 집단은 분산이 동일하다.

   가정을 만족하지 않는 경우, 귀무가설이 사실임에도 이를 잘못 기각할 여지가 생긴다.

 - 이 가정에 대한 확장을 고려해볼 수 있다.

   왜냐하면, 기본적으로 raw data는 완전한 정규성이나 등분산성을 만족하기 어렵기 때문이다.

 - 실제로, 이 포스팅은 대표본일 때 t-test가 타당하다는 것을 지지한다.

    (즉, the type 1 error rate 가 0.05로 통제되어진다는 것을 지지한다.)

    이에 대한 근거로 t-test는 각 그룹의 sample mean에 기반한 검정이라는 것을 들고있다.(중심극한정리)

     또한, 표본평균의 표준 오차에 사용하는 추정량이 X의 분포에 관계 없이 일관성이 있고, 그에 따라 자료의 정규성에 영향을 받지 않는다고 말한다.

 - 위 포스팅의 결론 : 

      sample size가 너무 작지 않다면, 데이터의 정규성에 대해서 심하게 걱정할 필요가 없다.(신뢰구간을 구할 때도 마찬가지)

      물론 sample size가 아주 작거나 highly skewed distributions인 경우에는 고려해야한다.

===================================================

 * 이에 다른 이의 댓글이 달린다.

    - 엄격한 정규성에 대한 제한은 효율성을 낮춘다?

    - 비모수적인 검정방법은 교호작용에 대한 검정을 수행할 수 없다?

    - 다른 논문을 언급하며 해당 댓글을 지지한다.

(https://www.annualreviews.org/doi/pdf/10.1146/annurev.publhealth.23.100901.140546)

       < THE IMPORTANCE OF THE NORMALITY ASSUMPTION IN LARGE PUBLIC HEALTH DATA SETS - Thomas Lumley, Paula Diehr, Scott Emerson, and Lu Chen > 

       대표본인 경우 정규성이 대해 크게 걱정할 필요가 없다는 결과를 지지한다.

===================================================

 * 결론은 아직도 뭐가 맞는지 정확하게 모르겠음...

+) 다음은 미니탭 trainer의 포스팅이다.

http://blog.minitab.com/blog/understanding-statistics-and-its-application/what-should-i-do-if-my-data-is-not-normal-v2

    - 시뮬레이션을 통해 non-normal data에 대한 처리를 이야기한다.

       어떤 test는 non-normal에 대해 어느정도 robust하며, 다른 test는 그렇지 않다.

       그중 t-test나 ANOVA는 non-normal에 대해 비교적 robust한 test라고 한다.

+) 회귀분석에 대한 reponse variable의 normaliy

https://stats.stackexchange.com/questions/75054/how-do-i-perform-a-regression-on-non-normal-data-which-remain-non-normal-when-tr

    - LSE 회귀계수를 추정하고, 그것의 유용성을 밝혀낼 때(BLUE, Gauss-Markov theorem) 정규성에 대한 가정이 존재하지 않는다.

    - 이러한 가정은 오직 회귀계수의 추정값이 MLE임을 밝히는데 필요한 것이다.

    - 따라서, 반응 변수의 정규성은 회귀분석에 있어 필수가 아니다.

    - 또한, 독립성이나 등분산성이 훨씬 중요한 가정이며

       위에서 t-test의 경우에도 그렇듯 robust하다.

       적합 후에 residual plot을 확인하는 것이 훨씬 도움된다.

통계 분석 관련 질문 드립니다. 정규성, 등분산성 가정에 대하여..

정규성을 만족하지 않는 경우 - jeong-gyuseong-eul manjoghaji anhneun gyeong-u
크리스12(대학원생)  |  2021.12.06 01:05  |  조회 3,876

안녕하세요

석사 2기 학생입니다.

데이터 통계 처리를 하다가 궁금한 점이 생겨서 질문 드립니다.

생명과학 분야의 논문들을 보면 t-test, anova 등의 분석이 자주 쓰이는데요,

biological data의 경우 정규성, 등분산성을 기본적으로 만족한다고 가정하는 건가요?

원래는 t-test나 anova같은 parametric analysis를 수행하려면

정규성 검정, 등분산성 검정을 반드시 수행해야 하는 것으로 알고 있거든요..

그런데 절대다수의 논문에서 정규성 검정이나 등분산성 검정에 대한 언급이 전혀 없네요.

박사과정 선배들 통계 분석을 좀 도와주고 있는데 좀 의아합니다.

biological data의 특성이 원래 그런 건가요?

혹시 제가 미처 모르고 있는 Biological data의 자체의 특징이 있는 것인지 궁금합니다.

정규성을 만족하지 않는 경우 - jeong-gyuseong-eul manjoghaji anhneun gyeong-u
 #통계학   #통계분석

정규성을 만족하지 않는 경우 - jeong-gyuseong-eul manjoghaji anhneun gyeong-u
Holdem(과기인)  |  2021.12.06 09:28     

당연히 하는 거라 논문에까지 굳이 언급 안 한다고 보는 게 맞을 것 같습니다.

정규성을 만족하지 않는 경우 - jeong-gyuseong-eul manjoghaji anhneun gyeong-u
Hgttyu(과기인)  |  2021.12.06 12:30     

"biological data의 경우 정규성, 등분산성을 기본적으로 만족한다고 가정하는 건가요?" -> 아뇨. 그렇지 않습니다. 실험에 따라 다릅니다. 아마 지금 보시는 데이터가 그런 가정을 전제로 실험을 하는것 같네요.

그러면 매번 정규성을 검정해야하는가? 다른 분야의 실험도 그러겠지만, 실험방법이 개발되고 정형화되면, 분포나 데이터의 특성이 이미 충분히 탐색되었기 때문에, 어떤 통계적 방법론을 써야 할지 정해집니다 (찾아보시면, 선행연구가 있습니다). 그래서 대부분 논문에서 언급을 하지 않거나 (서플에 쓰기도 하지만), 비슷한 연구들에서 사용한 통계적 방법을 사용을 합니다.

만약 정말 새로운 실험방법이면 정규성을 만족하는지부터 보겠죠. 혹은 시료나 실험 가설에 따라 그전의 패턴과 상이하게 나올수도 있는데, 그때는 계산을 하는게 맞습니다 (다만 실험이나 측정의 오류 일수도 있구요).

정규성을 만족하지 않는 경우 - jeong-gyuseong-eul manjoghaji anhneun gyeong-u
pest(과기인)  |  2021.12.06 22:32     

윗 분 말씀 틀렸습니다. 많은 사람들이 이런 방법을 쓰니까 나도 이런 방법을 쓰겠다는 건데, 실제로 이렇게 생각하는 사람들을 봅니다. 절대 바람직하지 않은 태도입니다.

모든 경우에 정규성을 살펴보아야 합니다. 너무나도 당연한 겁니다.

단, 님께서 말씀하신 정규성을 검증하는 방법론은, 어떤 분포가 정규성에서 벗어나는지를 살펴보는 겁니다. 그래서, 어떤 분포가 정규성을 보이지 않는다고 결론을 내릴 수는 있어도, 정규성을 보인다는 결론을 내릴 수가 없습니다. 따라서, 정규성을 보인다는 통계법은 없으며, 정규성을 보이지 않는다는 통계적 방법론만 있습니다. 그래서 정규성 검증을 통해서 알아낼 수 있는 정보는 매우 제한적이고, 실제로 많이 유용하지도 않습니다. 제 말을 이해하려면 통계학적 기초가 필요할 겁니다.

또 정규분포란 건, ideal한 것으로서 세상의 모든 분포는 이 ideal한 것에서 벗어납니다. 문제는 얼마나 많이 벗어나야 parametric한 방법론을 쓸 수 있느냐는 것인데, 딱히 명확한 기준이 없습니다. 그래서 보통 그래프로 그려서 변수가 bell shaped 분포를 보이는지, long tail은 없는지에 대한 정보를 제공하는 겁니다. 그래서 visualization이 통계의 가장 기초인 것입니다. 일단 그래프를 그리고, 그 모양으로부터 통계적 방법론을 상상하는 것이 모든 통계의 가장 기본입니다.

정규성을 만족하지 않는 경우 - jeong-gyuseong-eul manjoghaji anhneun gyeong-u
꿀사탕(과기인)  |  2021.12.09 13:12     

t-test나 ANOVA의 경우에는 통계분석을 위한 기본가정이 3가지가 있습니다.

독립성(Independence), 등분산성(Homogeneity of variance), 정규성 가정(Normality assumption)이 3가지인데요.

사실 독립성과 등분산성은 매우 중요한 기본가정이고, 위배되는 경우에는 p-value를 신뢰하기 힘든 상황이라고 말할 수 있습니다.

그에 비해 정규성 가정은 위의 2가지 가정과 비교하여 조금 느슨한 가정이라고 할 수 있습니다.(과학적이진 않은 용어입니다. 보통은 가정이나 모형이 강건하다(robust)라고 표현하는데요.)

visualization 혹은 normality test를 통해 정규성 가정에 대한 검정은 반드시 필요하긴 합니다. 다만 정규성 가정에 위배되었다고 비모수검정을 사용해야하는가? 에 대해서는 심각한 정규성 가정 위배가 아닌 이상에는 그럴 필요가 없다고 말씀드릴 수 있습니다. 다만, 이 경우에는 sample size는 충분히 크다는 전제가 필요하긴 합니다.
(https://www.biorxiv.org/content/10.1101/498931v2.full)
(https://link.springer.com/article/10.3758/s13428-021-01587-5#Sec11)
(https://thestatsgeek.com/2013/09/28/the-t-test-and-robustness-to-non-normality/)

정규성 가정위배에 대한 강건성(robustness)는 t-test 뿐만 아니라, ANOVA, regression에서도 마찬가지로 적용되는 이야기입니다.

구글에서 violation normality assumption t-test 으로 검색하시면, 관련 내용들을 쉽게 찾아보실 수 있습니다. 심지어 위키피디아에서도 관련 내용을 찾아볼 수 있습니다.
(https://en.wikipedia.org/wiki/Student%27s_t-test#Assumptions)

--> Normality of the individual data values is not required if these conditions are met. By the central limit theorem, sample means of moderately large samples are often well-approximated by a normal distribution even if the data are not normally distributed.