สถิติทางการแพทย์แบบบ้านๆ : Parametric & Non-parametric

เราอาจเคยได้ยินมาว่า ผลลัพท์ที่เป็นความรู้สึก (ปวด พอใจ..) มักต้องใช้ Non-parametric อย่างไรก็ตาม เหตุที่ผลลัพท์เหล่านั้น มักต้องใช้ Non-parametric เนื่องจากลักษณะการกระจายของข้อมูล มิได้หมายความว่า "ต้อง" ใช้สถิตินี้กับสิ่งที่เป็นนามธรรมเสมอไป เช่น Pain ที่วัดด้วย VAS ได้รับการวิเคราะห์แบบ Parametric อย่างกว้างขวาง

ความแตกต่างระหว่าง Parametric และ Non-parametric

Parametric statistic ความหมายแบบกำปั้นทุบดิน คือ สถิติที่ให้ข้อมูล Parameter ค่ากลางตัวแทนของประชากรคืออะไร มี variation เพียงใด (Mean SD) ได้ เพราะอยู่บนพื้นฐาน "Distribution assumption"

ขณะที่ Non-parametric คือสถิติที่อยู่บนพื้นฐานของ "ranking" ใช้ในการเปรียบเทียบว่าต่าง ไม่ต่างระหว่างสองกลุ่ม แต่ไม่สามารถให้รายละเอียดได้เท่า parametric

นอกจากนี้ non-parametric ยังให้ p value ที่ "conservative" กว่า คือ ปฎิเสธ null hypothesis ยากกว่า

เมื่อไหร่จึงพิจารณาใช้ Non-parametric
ด้วยเหตุว่า Parametric ให้ข้อมูลมากกว่า หากเป็นไปได้จึงควรพยายามใช้ Parametric ก่อน..แต่ Parametric ต้องการ distribution assumption เช่น t-test และ linear regression ต้องการ normal distribution of population หรือ Sample "Mean" ( ไม่ว่า sample distribution จะเป็นหรือไม่เป็น normal distribution ก็ตาม)
ซึ่งอาศัยหลักการของ Central limit theorem ที่ว่า

" เมื่อทำการทดลองด้วย sample size n หลายๆๆ ครั้ง Sample mean distribution (ซึ่งค่ากลางคือ mean of mean และ variation คือ standard error สามารถกระจายตัวแบบ normal ได้ หาก sample size n นั้นเหมาะสมกับ baseline population distribution.
กล่าวคือ -หาก population distribution เป็น perfect normal distribution แม้ n=1 ก็เพียงพอ แต่หาก population distribution เบ้ n อาจต้องเป็น 100+ หากรูปร่างพิลึกพิลั่น อาจต้อง 1000+"

โดยสรุป Non-parametric ควรใช้เมื่อมีปัจจัยทั้งสองต่อไปนี้
1. Sample size ขนาดเล็ก โดยเฉพาะเมื่อต่ำกว่า 100
2. คาดว่า Population distribution ห่างไกลจากความเป็น normal มาก เช่น Dose ยา morphine สำหรับอาการเหนื่อย ( Right/positive skewed )..เพราะส่วนมากใช้ low dose หรือ อายุได้รับวินิจฉัยเป็น Alzheimer (Left/negative skewed)..เพราะส่วนมากพบในผู้สูงอายุ หรือ ข้อมูลที่มีลักษณะการกระจายไม่แน่นอน

โดยสรุปเพื่อการนำไปใช้ ตอนสร้างตารางเปรียบเทียบ Baseline statistic.

1. กรณี Dichotomous value เปรียบเทียบ Proportion หรือ Percent ระหว่างสองกลุ่ม เนื่องจาก "ความน่าจะเป็น" นั้นตั้งบนพื้นฐาน Binomial distribution จึงไม่ต้องมาคิดว่าจะ parametric หรือ nonparametric ซึ่งอาจใช้ prtest (หา p value จาก different proportion) หรือ chi-square (หา p value จากความต่างของ "marginal -> expected value" กับ "observed value ของตาราง)
เหตุที่ chi-square นิยมกว่า prtest เพราะสามารถใช้ test proportion ได้มากกว่าสองกลุ่ม

2. กรณี continuous value ตัดสินใจระหว่าง parametric รายงาน Mean+/- SD ( อยาสับสนกับ "Mean of mean" +/- SE = 95% CI คะ) และเปรียบเทียบกันด้วย t-test , หรือ non-parametric รายงานเป็น Median and range และเปรียบเทียบด้วย Mann-whitney (aka. rank sum) test กรณีเปรียบเทียบมากกว่าสองกลุ่ม ก็เป็นระหว่างคู่ ANOVA หรือ Kruskal-Wallist test

3. กรณี "count outcome"per time period หรือ "rate" เช่น จำนวนครั้ง admission ใน 1 ปี..เราอาจคิดก็หาค่าเฉลี่ยเป็น mean แล้วใช้ t-test ปัญหาคือ Population distribution ของ จำนวนคน จำนวนครั้ง ที่เจ็บป่วยนั้น มัก right skew ( จำนวนคนป่วยบ่อย ย่อมน้อยกว่าคนไม่ป่วยหรือนานๆ ที)...ทางเลือกคือ เปลี่ยนให้เป็น categorical data เช่น who admission > 2 times in 1 year, n,% แล้วทดสอบ proportion - แต่ถ้าจะ report เป็น rate จริงๆ จึงน่าจะใช้ rank sum test

เขียนใน GotoKnow โดย ป.
ใน Live for discovery

คำสำคัญ (Tags): #central limit theorem#non parametric#rank sum#mann-whitney#kruskal-wllis

หมายเลขบันทึก: 416346เขียนเมื่อ 25 ธันวาคม 2010 03:07 น. ()แก้ไขเมื่อ 11 ธันวาคม 2012 13:46 น. ()สัญญาอนุญาต: ครีเอทีฟคอมมอนส์แบบ แสดงที่มา-ไม่ใช้เพื่อการค้า-อนุญาตแบบเดียวกันจำนวนที่อ่าน

ความเห็น (1)

789852456

เขียนเมื่อ 30 สิงหาคม 2011 13:56 น. ()

-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-. ขอบคุณครับ