เรียนสถิติด้วยภาพ ตอนที่ 4 พักยก... ทบทวนประเด็นที่ผ่านมา เรื่อง confidence interval, p-value, alpha, beta,...

ในตอนก่อน ๆ ผมพูดเรื่อง confidence interval, alpha level, beta level, power, significant difference (ดู link ข้างท้าย)

ผมลองเปิดประเด็นใหม่ ที่ใช้คำศัพท์เหล่านี้ เป็นโอกาสสำหรับการทบทวน

ประเด็นใหม่ที่ว่า คือเรื่อง evidence-based decision หรือการตัดสินใจโดยอิงหลักฐานเชิงประจักษ์

ฝรั่งเขาใช้หลักฐานเชิงประจักษ์กับเรื่องการรักษาสุขภาพกันเป็นเรื่องปรกติ คนไข้เถียงหมอโดยอิงหลักฐาน และหมอก็ยันกับคนไข้โดยหลักฐานที่ดีกว่า ใหม่กว่า เป็นเรื่องปรกติ

Sackett บุกเบิกเรื่องการใช้หลักฐานเชิงประจักษ์ และคิดคำว่า evidence-based medicine ขึ้น เมื่อไม่กี่สิบปีมานี้เอง และใช้กันไปทั่วโลก

ปัจจุบัน คนที่รักสุขภาพ ดิ้นรนสุดชีวิตทำโน่นทำนี่ให้สุขภาพดี บางที ฟังสูตร "ผีบอก" มีสิทธิโดนผีชวนไปอยู่ด้วย ประเภทที่ลือกัน บอกกันว่าให้กินนี่สิดี กินโน่นสิดี หากทำตาม อาจอายุสั้นกว่าคนที่อยู่สบาย ๆ ไม่ดิ้นรน

รักสุขภาพ อยากถนอมสุขภาพด้วยการทำโน่นกินนี่ จึงควรตรวจสอบหลักฐานเชิงประจักษ์เสียหน่อยว่า ที่ตัวเองจะทำหรือจะกินนั้น ล่าสุด เขาฟันธงว่าอะไร

จริง ๆ แล้ว เรื่องการใช้หลักฐานเชิงประจักษ์มาถกมายันกัน ในแวดวงการศึกษาก็ถือเป็นเรื่องปรกติ ในแวดวงอื่นเช่นในแวดวงการเมืองต่างประเทศ เดี๋ยวนี้ก็ทำกันเป็นเรื่องปรกติ (ตรงนี้ต้องขอขอบคุณคุณ Conductor ที่ช่วยเอื้อเฟื้อส่งหนังสือ Super Crunchers ไปให้ผมอ่าน ทำให้ได้เห็นประเด็นนี้)

แต่ก็ไม่ใช่ว่า แนวคิดเรื่องหลักฐานเชิงประจักษ์จะเพิ่งเกิดในยุคของเรา จริง ๆ แล้ว เกิดมานานมาก

ตัวอย่างที่เห็นชัด ๆ ในเรื่องที่เกี่ยวกับวิทยาศาสตร์ ก็มีกาลิเลโอ เป็นตัวอย่างของคนที่บุกเบิกพิสูจน์สิ่งต่าง ๆ ด้วยการทดลอง ตั้งแต่หลายร้อยปีก่อน

อีกสักตัวอย่าง

สมัยโบราณ คนเชื่อว่าโลกหมุนรอบดวงอาทิตย์ ปโตเลมีเสนอทฤษฎีว่าดวงอาทิตย์หมุนรอบโลก ไม่มีใครแย้งนับพันปี ภายหลัง โคเปอร์นิคุมาสแย้งว่า โลกหมุนรอบดวงอาทิตย์ต่างหาก เกิดประเด็นถกเถียงว่า โลกหมุนรอบดวงอาทิตย์ หรือดวงอาทิตย์หมุนรอบโลกกันแน่ ถกเถียงกันยังไง ก็ไม่มีฝ่ายชนะขาดสักที เพราะเถียงในกระดาษ

ต่อมา ราวสี่ร้อยปีก่อน ไทโค บราห์ ซึ่งเชื่อแนวคิดดวงอาทิตย์หมุนรอบโลก เขามองว่า ถกตรรกศาสตร์กันให้ตายไปข้างก็งั้น ๆ หากไม่มีข้อมูลที่หนักแน่นก็จะไม่มีข้อสรุปอะไรงอกเงย ข้อมูลเท่านั้น คือสิ่งที่จะตัดสินให้รู้แพ้รู้ชนะ เขาเป็นนักดาราศาสตร์ที่มีชื่อเสียง ได้รับเกาะพระราชทาน ก็สร้างหอดูดาว เก็บข้อมูลสังเกตการณ์ทางดาราศาสตร์นานหลายปี เพราะเชื่อว่า สักวันหนึ่ง คงจะมีคนมีสติปัญญา มาใช้ข้อมูลจริงเหล่านี้พิสูจน์ ซึ่งการณ์ก็เป็นไปตามนั้น คือ เคปเลอร์ ที่มาทำงานเป็นลูกมือให้เขา ภายหลังสามารถฟันธงว่าโลกโคจรรอบดวงอาทิตย์ได้ โดยใช้ข้อมูลดิบเหล่านี้เป็นหลักฐานประกอบ และยังสามารถตั้งเป็นกฎบรรยายการเคลื่อนที่ดังกล่าวได้ ซึ่งทำให้กฎแรงโน้มถ่วงของนิวตันในภายหลัง มีรากฐานมั่นคง เพราะใช้อธิบายกฎของเคปเลอร์ได้อย่างแม่นยำ

ดังนั้น ในปัจจุบันจึงนิยมตัดสินใจโดยอิงหลักฐานเชิงประจักษ์ โดยใช้สถิติมาช่วยตีความตัวเลขว่า ตัวเลขนี้ แตกต่างจากตัวเลขโน้นไหม (ดูจาก confidence interval หรือ p-value ว่า แตกต่างไหม) หรือเป็นเพียงความบังเอิญของตัวเลขเท่านั้นที่ดูเหมือนต่าง

แต่เวลาใช้งาน ไม่ได้ดูที่สถิตือย่างเดียว เขาจะต้องดูความเหมาะสมในด้านอื่นประกอบด้วย

ในทางปฎิบัติ จากคำถามในชีวิตจริง นิยมตั้งเป็นคำถามทางสถิติก่อน

เช่น กินยา J นี่ดีไหม เขาก็แปลงเป็นคำถามทางสถิติที่เรียก null hypothesis (H _o)

เขียนทำนองนี้ว่า H _o: X=Y เพื่อใช้ตัวชี้วัด X กับ Y มาเทียบกันเพื่อตัดสินว่า J ดีจริงหรือเปล่า

ความหมายของ = นี่ ไม่เหมือนที่ใช้ในชีวิตปรกติ คือต้องตีความว่า "X และ Y ใช้แทนกันได้ไหม"

เช่น X คือ ความสามารถในการใช้รักษาของยาชนิดที่ 1 และ Y คือ ความสามารถในการใช้รักษาของยาชนิดที่ 2

หรือจะตีความเครื่องหมาย = ว่า เป็นความสามารถแยกขาดจากกัน

"X และ Y แยกขาดออกจากกันได้ไหม?" (ลองดูรูป)

ระยะห่างระหว่างข้อมูลที่กำลังเปรียบเทียบ (ความแตกต่างทางปฎิบัติ) ไม่ได้เกี่ยวข้องกับการต่างกันทางสถิติ คือ สถิติอาจจะบอกว่า ไม่ต่าง (กรณีแรก) หรือ ต่าง (กรณีที่สอง) หรือ ต่างอย่างยิ่งยวด (กรณีที่สาม) ก็ได้

กรณีที่ทดสอบประเภท X = 0 เป็นการพิสูจน์ว่าอะไรสักอย่าง = 0 ทางสถิติ จึงมักมีความหมายแฝงว่า สิ่งนั้น จำเป็นต้องมีอยู่ไหม ? หรือ สิ่งนั้น มีอยู่จริงไหม ?

เช่น ถ้า X คือ ความดันที่เปลี่ยนไปเมื่อใช้ยา ถ้าพิสูจน์พบว่า X = 0 แสดงว่า ยาไม่ทำให้ความดันเปลี่ยน

แต่หากพิสูจน์แล้วพบว่า X ไม่เท่ากับศูนย์ (p = 0.003) ก็แสดงว่า ยาทำให้ความดันเปลี่ยนอย่างมีนัยสำคัญ

กรณีนี้ สถิติจะช่วยฟันธงเพียงว่า ตกลงว่า จริง ๆ แล้ว ความดันที่เปลี่ยนไป (X) จริง หรือ ไม่จริง

ต่างทางสถิติ เป็นคนละประเด็นกับ ดี หรือ ไม่ดี

ใครเอาสองประเด็นนี้ไปปนกัน แสดงว่า โดนสถิติ "สนตะพาย" ไปเรียบร้อย

ใช้สถิติอย่างฉลาด ควรดูอะไรบ้าง ?

สรุปจากที่เคยเขียนในตอนก่อนหน้า ก็มี

1. แตกต่างทางสถิติ (p-value ใกล้ศูนย์) เป็นคนละอย่างจาก แตกต่างทางปฎิบัติ ใช้แทนกันไม่ได้

ยาที่ลดความดันได้ 10 มิลลิเมตรปรอทอย่างมีนัยสำคัญทางสถิติ กล่าวได้ว่า ลดอย่างชัดเจนไม่ใช่เรื่องบังเอิญก็จริง แต่ลดได้แค่นี้มันน้อยไปจนไม่พอใช้งาน ดังนั้น ถ้าจะใช้งาน ต้องดูด้วยว่าลดความดันได้ 10 มิลลิเมตรปรอทนี่ น่าพอใจหรือเปล่า

2. แตกต่างทางสถิติเหมือนกัน แต่คุณภาพของความแตกต่าง อาจไม่เหมือนกัน
เวลาบอกว่าแตกต่างที่ p-value 0.000,001 (1 ใน ล้าน) นี่ ดูเผิน ๆ น่าประทับใจ เพราะเท่ากับบอกว่า ข้อมูลสองกองนี่ แยกขาดกันชัดเจนมาก มีโอกาสผิดแค่ 1 ในล้าน ค่านี้คือค่า alpha level แต่เราต้องดูให้ลึกลงไปอีกระดับว่า เอ๊ะ ตอนทดลองนี่ เขาทดลองในคนกี่ล้านคน หรือทดลองในแค่ 10 คน แล้วนำตัวเลขมาแทนค่าในสูตรแล้วได้ตัวเลข 1 ในล้านนี่ออกมา แบบนั้น ก็ไม่น่าไว้ใจ แม้ p-value จะ 1 ในล้านพอ ๆ กัน

สมมติว่าผมถ่ายรูปท้องฟ้ายามราตรี ถ้าผมถ่ายรูปโหมด 10 pixel แล้วสรุปว่า ผมเห็นดาวคู่ ด้วย p-value 0.000,001 กับอีกกรณีหนึ่ง ถ้าผมถ่ายรูปโหมด 20 ล้าน pixel แล้วสรุปว่า ผมเห็นดาวคู่ ด้วย p-value 0.000,001 แม้ทั้งคู่ มี p-value เท่ากัน แต่ความน่าไว้ใจ ไม่เหมือนกัน

ทั้งสองรูป มี p-value เท่ากันก็จริง แต่รูปบน มีข้อมูลมากมหาศาลหนุนหลัง ไม่ต้องคาดคะเนขอบ เพราะใช้วิธีนับจุดเอาตรง ๆ ได้ รูปล่างมีข้อมูลจริงอยู่นิดเดียว เป็นการคาดคะเนเสียมาก

ไม่เชื่อก็ลองลบเส้นวงกลมออก ดูแต่จุดสิครับ รูปบนเห็นเป็นวงกลมสองหย่อม รูปร่างเห็นเป็นวงรีหย่อมเดียวด้วยซ้ำ

แบบนี้ แม้ alpha level (ระดับการแยกขาดของสองกองข้อมูล) เท่ากัน แต่ beta error ผิดกันไกล (ดูจากจำนวน pixel)

ดังนั้น เวลาฟังใครมากล่อมว่ายานี้ดี อาหารนี้เลิศ อย่างมีนัยสำคัญทางสถิติ ลองใช้หมัดฮุ๊คคาง คือถามกลับไปว่า ทดลองในคนหรือเปล่า ทดลองมาแล้วกี่คน ถ้าใครคางเหล็ก ทนการพิสูจน์ตรงนี้ แสดงว่า ของเขา ผ่านด่านแรก

แต่ดูแค่นี้พอไหม ตอบได้เลยว่า ไม่

ดูสถิติพวกนี้ เป็นแค่ด่านแรกเท่านั้นเอง ถ้าตกด่านนี้ ก็ไม่ต้องเสียเวลาดูต่อ

ถ้าผ่านด่านนี้ได้ มีเรื่องต้องดูกันอีกเยอะ เช่น การออกแบบการทดลองรัดกุมไหม ตอบตรงเป้าไหม และการอนุมานสามารถปรับใช้ในสถานการณ์อื่นได้น่าเชื่อถือไหม

เช่น ทดลองใช้สารเคมีใหม่ในในหนู แล้วหนูหายจากโรค ไม่ได้แปลว่าใช้ในคนได้ เพราะยาบางตัวที่คนกินได้ พอให้สัตว์กิน สัตว์ตายก็มี เช่น พาราเซตามอล ให้แมวกิน ก็คือยาเบื่อแมวดี ๆ นี่เอง ดังนั้น ข้อสรุปในหนู จึงเป็นแค่เบาะแสว่า หากทดลองต่อในคน อาจมีความหวัง ก็แค่นั้น แต่ยังไม่ถึงขั้นรับประกัน

สนใจอ่าน เรียนสถิติด้วยภาพ แบบครบทุกตอน เข้าไปที่

http://www.gotoknow.org/posts?tag=เรียนสถิติด้วยภาพ

เขียนใน GotoKnow โดย wwibul
ใน ใบไม้ผลิ

คำสำคัญ (Tags): #สถิติ#confidence interval#non-significant#p-value#statistical difference#statistical significance#แตกต่างทางสถิติ#เรียนสถิติด้วยภาพ

หมายเลขบันทึก: 235833เขียนเมื่อ 17 มกราคม 2009 23:03 น. ()แก้ไขเมื่อ 19 มีนาคม 2015 13:14 น. ()สัญญาอนุญาต: สงวนสิทธิ์ทุกประการจำนวนที่อ่าน