เรียนสถิติด้วยภาพ ตอนที่ 1 Confidence Interval & alpha level


ผมทดลองใช้ภาษาภาพในการทบทวนสถิติให้กับคนที่เรื้อสถิติไปนาน ๆ แล้วพบว่าได้ผลดี ทุ่นเวลาได้มาก วันก่อน พูดเรื่อง EBM ให้ทีม UsableLabs ฟัง ต้องพาดพิงถึงสถิติ ก็ไปคุ้ยสไลด์สถิติที่เคยใช้สอนฟื้นความจำแบบเร่งรัดให้นักศึกษาฟังเวลาจะสอนเรื่องการทำวิจัย เป็นสไลด์ที่เน้นการเล่า concept ด้วยภาพ เพราะเคยใช้แล้วได้ผลดี คือคนฟังจะไม่ทำหน้าชราภาพก่อนวัยอันสมควรให้ดู

ตอนแรกนี้ เป็นเรื่องของ confidence interval

Confidence interval เป็นการบอกว่า ข้อมูลส่วนใหญ่ของเรา อยู่ในช่วงไหน โดยกรองทิ้งข้อมูลส่วนน้อยออกไป

ทำไมต้องกรองทิ้งข้อมูลส่วนน้อย ? ทำไมไม่ใช้ช่วงค่าสูงสุดต่ำสุดมาเป็นตัวบอก เก็บทุกอย่างไว้ทั้งหมด ?

นั่นเป็นเพราะข้อมูลส่วนน้อยที่สุดโต่ง เวลาสุดโต่งขึ้นมา จะผิดปรกติแบบเอาแน่ไม่ได้ ทำให้ช่วงค่าสูงสุดต่ำสุด จะผันผวนมาก

แต่ถ้าเล็มทิ้งส่วนที่สุดโต่งออก แล้วดูแต่แกนที่เหลือข้างใน จะมีเสถียรภาพกว่า

Rambutanconfidenceinterval
ลองดูเงาะรูปนี้

ต่อให้เป็นเงาะที่มาจากช่อเดียวกันที่คล้ายกัน หากวัดตั้งแต่ปลายขนด้านหนึ่งไปสุดปลายขนอีกด้านหนึ่ง เราจะพบว่า ขนาดที่นิยามแบบนี้ จะผันผวนมาก เพราะปลายขนเงาะ อาจมีเส้นที่ยาวผิดปรกติ เลือกขนผิดเส้น อาจทำให้วัดขนาดเงาะที่แตกต่างหลากหลายมาก

แต่ถ้าเรากล้อนขนออกไป เหลือแต่เปลือกแบบไม่มีขน เวลาวัดขนาด เราจะวัดได้น่าเชื่อถือกว่า

การใช้ confidence interval ก็เหมือนเป็นการที่เราทิ้งข้อมูลชายขอบ ซึ่งจะผันผวนได้รุนแรง เหลือข้อมูลส่วนแกน ซึ่งจะเสถียรกว่า

การใช้ confidence interval จึงเป็นการแกล้งมองข้ามข้อมูลสุดโต่ง

confidence interval ต้องหมายเหตุบอกด้วย ว่าเป็นของอะไร

ของข้อมูลดิบ ก็เป็นอย่างหนึ่ง

ของค่าเฉลี่ย ก็จะเป็นอีกอย่างหนึ่ง

ของค่ามัธยฐาน ก็เป็นอีกอย่างหนึ่ง

ของค่าความแปรปรวนก็เป็นอีกอย่าง

สรุปคือ ทุกอย่างที่เราสนใจ ต่างก็มี confidence interval ของตนเองได้หมด

แต่นิยมใช้ในความหมายว่า เป็น confidence interval ของค่าเฉลี่ย

เราไปเก็บข้อมูลมาครั้งหนึ่ง จับข้อมูลมาเฉลี่ย ก็ได้ข้อมูลหนึ่งรายการ

เก็บซ้ำหลาย ๆ ครั้ง ก็จะเห็นหลายรายการ

นำเสนอข้อมูลให้ถูก ต้องเป็นข้อมูลในหนึ่งมิติ แต่สมองคนเรามองไม่ค่อยเข้าใจ จึงนำเสนอเป็นภาพสองมิติแทน ด้านขวาเป็นบวก ด้านซ้ายเป็นลบ

ถ้าเอาค่าเฉลี่ยแต่ละครั้งมาพล็อต เราจะเห็นอย่างนี้


Ci-complete รูปแรก มีข้อมูลครบ 100 %

Ci-99pctรูปนี้ ตัดข้อมูลขอบทิ้งไป 1 %

Ci-90pctรูปนี้ ตัดข้อมูลขอบทิ้งไป 10 %

confidence interval 100 % ก็คือ การเอาข้อมูลทั้งหมดมาใช้ [รูปบน]

confidence interval 99 % ก็คือ การเอาข้อมูลแกนกลางมาใช้ 99 % ที่เหลือทิ้ง (ทิ้งด้านบนที่สูงผิดปรกติไป 0.5 % และทิ้งด้านล่างที่ต่ำผิดปรกติไป 0.5 %) [รูปกลาง]

confidence interval 90 % ก็คือ การเอาข้อมูลแกนกลางมาใช้ 90 % ที่เหลือทิ้ง (ทิ้งด้านบนที่สูงผิดปรกติไป 5 % และทิ้งด้านล่างที่ต่ำผิดปรกติไป 5 %) [รูปล่าง]

ส่วนที่ทิ้งไป เรียกว่า alpha level (α)

confidence interval 90 % ก็คือ ทิ้งด้านบนที่สูงผิดปรกติไป 5 % (=α/2) และทิ้งด้านล่างที่ต่ำผิดปรกติไป 5 % (=α/2)

ระวังเรื่องหน่วย

confidence interval นิยมใช้หน่วย % คือเทียบฐาน 100

แต่ alpha level นิยมใช้หน่วย probability scale คือ เทียบฐาน 1

สมมติว่า ผมสนใจ 99 % confidence interval ล่ะ ? α จะเป็นเท่าไหร่ ?

alpha (α) ก็ต้องเป็น 0.01 เพราะเก็บแกน 99 % ไว้ ก็ต้องเล็มทิ้งไป 1 % ซึ่งก็คือ 0.01 เมื่อเทียบจาก 1

กรณีนี้ α/2 จะเท่ากับ 0.005

alpha = 1 - (% confidence interval หาร 100)

Confidence interval และ alpha สำคัญอย่างไร โปรดติดตามตอนต่อไป


สนใจอ่าน เรียนสถิติด้วยภาพ แบบครบทุกตอน เข้าไปที่

http://www.gotoknow.org/posts?tag=เรียนสถิติด้วยภาพ<p></p>

หมายเลขบันทึก: 214308เขียนเมื่อ 6 ตุลาคม 2008 10:07 น. ()แก้ไขเมื่อ 28 มีนาคม 2016 09:14 น. ()สัญญาอนุญาต: สงวนสิทธิ์ทุกประการจำนวนที่อ่านจำนวนที่อ่าน:


ความเห็น (30)

มาสนับสนุนค่ะอาจารย์ เรื่องคณิตศาสตร์ เป็นเรื่องที่ต้องใช้ความเข้าใจจริงๆ ไม่ใช่จะท่องเอาได้ แต่ก็อยู่ที่วิธีการสอนด้วย ถ้าครูสอนไม่เก่ง ยังไง นักเรียนก็ไม่เข้าใจ
 
การที่เด็กจะเก่งคณิตศาสตร์  เด็กต้องเป็นคนชอบคณิตศาสตร์อยู่ก่อนเป็นพื้นแล้วไหมคะอาจารย์  ถ้าเป็นเด็กมีนิสัยชอบเลข ก็จะรับง่ายกว่าไหมคะ
จะมาตามอ่านไปเรื่อยๆค่ะ

ขอบคุณครับอ.

ได้รื้อฟิ้นเรื่องสถิติขึ้นมานิดนึง ดีนะที่ตอนเรียนพอเข้าใจ พอฟังอ.แล้วเลยไม่ งง เท่าไร

แต่บางทีสำหรับนศ.บางกลุ่ม คำศัพท์ทางเทคนิคอาจจะทำให้มึนได้ครับ

เวลาผมอธิบายให้เพื่อนฟัง จะมีแต่

ค่าวิกฤต (Alpha) หรือค่าความผิดพลาดที่ยอมรับได้ ปกติคือ 0.05 กับ 0.01 มีที่มาจาก

ค่าความเชื่อมั่น (Confidence) เช่นต้องการความเชื่อมั่น 95% ค่าความผิดพลาดที่ยอมรับได้คือ 5% แปลว่า ค่าวิกฤตที่ได้คือ 0.05

แบบนี้ผมอธิบายถูกมั้ยครับ อ.

ขอบคุณครับอ.

ผมเรียนมาไม่ค่อยได้ใช้ก็ลืมๆ ไป ถ้าให้คำนวนคงทำไม่ถูก แต่ถ้าให้อ่านแล้วแปลความนี่ยังพอไหว

รอติดตามตอนต่อไปครับ

สวัสดีครับ พี่ศศิ

ขอบคุณครับ ที่มาตามอ่าน ให้กำลังใจผมมากเลย เพราะผมนึกไม่ออกว่าพี่จะไปใช้กับเรื่องอะไร  

สวัสดีครับปาณิก Nat_Panik
"แบบนี้ผมอธิบายถูกมั้ยครับ อ."
ผมอ่านแล้วก็งง ๆ นะ เพราะภาษาที่ใช้ ผมไม่คุ้น คงต้องให้คนที่เขาเรียนมาตรง ๆ ทางนี้ช่วยตอบ เท่าที่ดู โดยความหมายกว้าง ๆ แล้วก็ประมาณนั้นแหละ แต่นิยามแม่นตรงนี่ ไม่รู้เหมือนกันว่าจะถูกไหม 555

 
สวัสดีครับ Mr.JoH

ขอบคุณเช่นกันครับ

มาเรียนด้วยคนค่ะ

คงได้ใช้บ้าง..น่ะค่ะ

**การใช้ confidence interval ก็เหมือนเป็นการที่เราทิ้งข้อมูลชายขอบ ซึ่งจะผันผวนได้รุนแรง เหลือข้อมูลส่วนแกน ซึ่งจะเสถียรกว่า**

เวลาเขาตัดคะแนนสูงสุด ต่ำสุด(ในการตัดสินกีฬา)ใช่แนวคิดเดียวกันนี้หรือเปล่าคะ

ถามเพราะไม่รู้ ทั้งที่อาย ๆ ว่าไม่รู้ก็อยากถามค่ะ

สวัสดีครับ คุณภู

  • ใช่แล้วครับ คะแนนชายขอบ มักสร้างปัญหา ซึ่งเกินแรง ๆ สักรายการหนึ่ง ก็ทำให้ภาพรวมเสียไปหมด การตัดชายขอบออก ทำให้เกิดเสถียรภาพมากขึ้น

ครับอ.

จะติดตามตอนต่อไปครับ

สวัสดีคะ อ.

จะตามอ่านต่อคะ เข้าใจขึ้นมากกว่าเดิมคะ

อธิบายได้เยี่ยมมากเลยครับ เห็นภาพมาก ๆ

ผมไปอ่านใน wikipedia version ที่เป็นภาษาอังกฤษ งง

ไม่รู้มีสมการอะไรเต็มไปหมด ไม่เข้า พอ มาอ่านของอาจารย์แล้ว

เยี่ยมเลยครับ อธิบายได้ดีมาก ขอสนับสนุนให้เขียนเพิ่มเรื่อย ๆ ครับ

อยากอ่านเรื่อง Probability + Queueing version ง่าย ๆ แบบนี้ด้วยครับ :-)

ขอบคุณค่ะ กำลังงเพราะไม่ค่อยจะรู้เรื่อง เพราะกำลังวิพากย์งานวิจัยในวารสารส่งอาจารย์อยู่ค่ะ ร้างเรื่องstat มานานพออ่านแล้วเข้าใจมากขึ้น

ผมสอนสถิติในโรงงาน บางครั้งผู้เรียนมองไม่ออกว่าเรากำลังอธิบายเรื่องอะไร

ขอลองเอาเทคนิคนี้ไปปรับใช้

ผมตามอ่านจากตอนที่ 5 ย้อนมาตอนที่ 1 ได้วิธีการสอนที่ดีที่สุดเท่าที่ผมเคยอ่านครับ

คะแนนชายขอบ ที่มักสร้างปัญหา ที่อาจารย์หมายถึง เช่นพวกนักเรียนที่สูง 220 ซ.ม.และพวกที่ สูง 132 อย่างนี้ถูกมั๊ยครับ ถ้ามี ซัก 8 คน ในประชากร 500 คนจะทำให้ภาพรวมเสียไปหมด การตัดชายขอบออก ทำให้เกิดเสถียรภาพมากขึ้น ใช่มั๊ยครับ

ขอบคุณอาจารย์แทนลูกศิษย์ผมด้วยครับ

สวัสดีครับ คุณP  ครูน้อย

 

  • ขอบคุณที่ชมเชยครับ
  • เป็นการอ่านที่แปลกเอาการเชียวครับ
  • ขอถามหน่อยนะครับ ว่าการอ่านย้อนหลังไปหน้ามีข้อดีกว่าอ่านเรียงจากหน้าไปหลังหรือครับ ถ้าไม่ใช่ ทำไมถึงอ่านแบบนี้ได้นาน ถ้าใช่ มีเหตุผลอะไรเป็นพิเศษหรือเปล่าครับ ลองเล่าสู่กันฟังนะครับ

    โอ้โฮ!  ช่างมหัศจรรย์มากเลยค่ะ  ดูง่ายและทำให้รักวิชาสถิติมากขึ้นกว่าเดิม (เดิมก็รักอยู่แล้วค่ะ)  ขอบคุณนะคะ

ขอเรียนรู้ด้วยค่ะ

ตัดชายขอบ ออกไปจะเกิดเสถียรภาพมากขึ้น เรียนรูจากรูปชอบค่ะ

ทำให้เข้าใจเรื่องการตัดแล้วเกิดเสถียร แต่ก็สงสัยว่า

แล้วทำไมต้องตัดออกค่ะ

ในเมื่อขนเงาะทุกขนต่างทำหน้าที่เหมือนกัน

ต่างมีความสำคัญเท่ากัน

เพียงแต่เส้นยากมากๆกว่าเส้นอื่นอาจมีความพิเศษ

และอาจนำไปสู๋ ความคิดอีกแง่หนึ่ง

ไม่ได้กวนนะคะ แต่เกิดสงสัยขึ้นมา

และไปติดตามในบทต่อไปก่อน

อาจทำให้เข้าใจมากความคิดตัวเอง

ขอบคุณค่ะ

 

สวัสดีครับ คุณ krutoi

  • เราใช้สถิติ เหตุผลหนึ่งคือ เพื่อยุบข้อมูลที่มีมาก ให้เป็นข้อสรุปที่ดูง่าย
  • ปัญหาของอย่างหนึ่งที่พบ ก็คือ ถ้าเราดูค่ากลางของกลุ่มข้อมูล ไม่ว่าจะใช้เกณฑ์อะไร ตามปรกติ จะค่อนข้างนิ่ง
  • มัธยฐาน จะนิ่งที่สุด คือมีกรณีแปลก ๆ แทรกมาได้เกือบครึ่ง ก็ยังไม่ทำให้มัธยฐานเปลี่ยนมาก
  • ค่าเฉลี่ย นิ่งเหมือนกัน แต่เปราะบางกว่า คือ ถ้ามีกรณีแปลกมาก ๆ แทรกมาสักรายการ ค่าเฉลี่ย ก็จะเปลี่ยนหวือหวา
  • อย่างเช่น สหรัฐ หากไม่มีมหาเศรษฐีอย่างวอร์เรน บัฟเฟต สักคน ค่าเฉลี่ยของสินทรัพย์ต่อหัวประชากร คงจะเปลี่ยนไปมาก (แต่ค่ามัธยฐานจะไม่กระดิก)
  • ค่าเฉลี่ย ว่าผันผวนได้พอสมควรแล้ว แต่ค่าสูงสุดหรือค่าต่ำสุด ยิ่งผันผวนหนักกว่า เพราะไม่ต้องปันกับใคร
  • แต่การผันผวนหนัก ๆ ไม่ได้ผูกขาดกับกรณีสูงสุดหรือต่ำสุดเท่านั้น ที่รอง ๆ ลงมาหน่อย (รองสูงสุด/รองบ๊วย) ก็อาจผันผวนได้เยอะเหมือนกัน
  • การเล็มขอบทิ้ง เป็นมาตรการหนึ่ง ที่บรรเทาปัญหาจากพวกชายขอบสุดโต่งได้
  • สถิติ เป็นคนละเรื่องกับ ประชาธิปไตยครับ เพราะในสถิติ การตัดข้อมูลทิ้งไปเป็นครึ่งในกรณีที่มีปัญหารุนแรง เขายอมให้ทำได้ เพียงแต่มีขั้นตอนที่ต้องทำอย่างรัดกุมและโปร่งใส เป็นเรื่องของ outlier's management
  • การหา confidence interval ดูให้ดี ๆ ก็คือเป็นเรื่องของการยอมตัดทิ้งส่วนน้อยที่เลว เพื่อรักษาส่วนใหญ่ที่ดีครับ
  • ผมพูดถึงสถิติอยู่นะครับ อย่าคิดไปอื่นไกล...

ขอบพระคุณมากๆๆค้า แบบว่าต้องนำไปใช้ที่โรงงานค่ะ แต่ใครสอนเท่าไหร่ก็ไม่เคลียร์สักที มันเป็นภาพรางๆเลือนๆไม่ get สะที เห็นสูตรสมาการทีไรปวดขมับป๊ดเลย

แต่ได้อ่านของอาจารย์แล้วเห้นภาพเลยค่ะ เคลียร์เลย ขอบคุณน่ะค่ะ ทำต่อไปน่ะค่ะออกมาหลายๆบทน่ะค่ะจะติดตาม

คาระวะเลย ครับ

โห แน่มากเลย

ถูกใจมากครับ ง่ายขึ้นมาก ๆ

ถึงเข้ามาได้ดูช้าไปหน่อยแต่ก็จะบอกว่าปลื้มครับ

ชอบจัง ขอ save ไว้คุยกับเพื่อนที่กลัวสถิตินะครับอาจารย์

เป็นการอธิบายความหมาย ที่เยี่ยมยอด (กระเทียมดอง)

จริงๆ ค่ะ

ขอถามเพิ่มได้ไหมค๊ะ

RCT ที่มีคุณภาพ ต้องมี confidence แคบ

ประมาณเท่าไหร่ค๊ะ ถึงเรียกว่า แคบและมีคุณภาพ

ยอมรับได้เท่าไหร่ค๊ะ

ขอบคุณล่วงหน้านะค๊ะ

ขอสมัครเป็นลูกศิษย์ด้วยคนค่า

ภก.ปรเมศวร์

  • ยินดีครับ
  • เขียนบล็อกด้วยหรือเปล่าครับ

คุณปณัชช์

  • Confidence interval ควรจะแคบแค่ไหนนั้น ขึ้นกับว่า วงการนั้น ๆ เขานิยมกันอย่างไร เป็นเรื่องของแฟชันครับ 
  • ข้อสำคัญคือ จุดประสงค์ของ confidence interval คือ เพื่อดูเปรียบเทียบความแตกต่าง ไม่ได้เป็นสิ่งที่สมบูรณ์เมื่อมองเดี่ยว ๆ ต้องใช้คู่กับกรณีอื่น จึงจะเกิดประโยชน์
  • สิ่งที่ต้องให้ความสำคัญ ยังมีอีกหลายเรื่องครับ เช่น power (beta), เกณฑ์เปรียบเทียบทางปฎิบัติ (ลองอ่านในตอนอื่นที่ผมเขียนดูนะครับ)

 

 

 

 

 

 

 

 

 

 

 

เข้าใจง่ายมากเลยค่ะ ขอบคุณมากๆค่ะ

กด love เลยค่ะ ไม่เข้าใจเรื่องนี้มานาน ขอบคุณมากๆค่ะ

ขอบคุณข้อมูลที่เข้าใจง่ายมากๆนะคะ ขอบคุณค่ะ ^^

ชอบมากๆค่ะมึนมาหลายวันเลยค้นหาว่าจะมีใครช่วยได้ ขอบคุณมากค่ะอาจารย์อธิบายดีจริงๆ

ขอบคุณมากค่ะ สำหรับความรู้ดี ๆ เพราะกลัวลืมสถิติ เลยเข้ามาหาอ่านทบทวนความรู้ค่ะ เจออย่างงี้เข้าใจง่ายจริง ๆ :)

ขอบคุณ คุณ wwibul อย่างมากค่ะ วันนี้ดิฉันไม่เจตนาเข้า gotoknow แต่ตั้งใจจะหาวิธีการอธิบายคำว่า CI แบบง่ายๆ สำหรับผู้ไม่คุ้นเคยกับสถิติหรืองานวิจัย เข้า google แล้วมาออกที่ gotoknow บ้านเดิม รู้สึกประทับใจวิธีการที่คุณใช้นะคะ สงสัยจะต้องติดตามเสียแล้ว

ขอบคุณอีกครั้งค่ะ

ขอบคุณมากๆ เรยค่ะ :)

ขอบคุณที่สร้างบทความนี้ขึ้นมาครับ อ่านเข้าใจชัดแจ้งมาก

พบปัญหาการใช้งานกรุณาแจ้ง LINE ID @gotoknow
ClassStart
ระบบจัดการการเรียนการสอนผ่านอินเทอร์เน็ต
ทั้งเว็บทั้งแอปใช้งานฟรี
ClassStart Books
โครงการหนังสือจากคลาสสตาร์ท