Data Sci Boot Camp Batch#11: Essential Statistics #2 (Confidence Intervals)

อันนี้เป็น Class เสริมต่อจาก Essential Statistics: Descriptive Statistics - สำหรับวันนี้ Confident Interval (ช่วงความเชื่อมั่น)

ทำไมต้องมี Confident Interval (ช่วงความเชื่อมั่น)

❓แอดทอยได้ยกตัวอย่างลอง ถ้าเราได้ลองทำแบบสำรวจ รอบแรกได้ผลเฉลี่ย 70 แล้วลองทำซ้ำ 4-5 รอบ คำถามผลที่ได้ไม่มีทาง 70 เสมอ หรือ ป่าว ?
คำตอบ ไม่ แต่มีโอกาศไปทางเดียวกัน

❓แล้วเราสุ่ม 5 รอบ ผลที่ได้จะตอบแทน population ได้ไหม ?
คำตอบ ได้ แต่ต้องสำรวจไปตามแนวทางของกฏ Central Limit Theorem

กฏ Central Limit Theorem (CLT)

  1. ที่ครั้งที่เราสุ่มตัวอย่าง (n) อย่างน้อย 30 คนขึ้นไป ส่วนทำไมต้อง 30 นั้นยังไม่มีที่มาแน่นอนนะ
  2. Random Sampling
  3. จากข้อ 1 n ≤ 90% ของ population //จริง ถ้า n เยอะ Cost จะเยอะตาม ปกติข้อนี้ไม่ได้เอามานับเท่าไหร่ เน้น 1 กับ 2

ถ้าสุ่มตามกฏ แล้วเราเอาตัวเลขมา Plot Graph ผลที่ได้จะเป็น Normal Distribution หรืออีกชื่อ Sampling Distribution ยิ่งถ้าสำรวจเยอะ Graph จะใกล้ Normal Distribution มากขึ้นด้วย

Mean จากทุกรอบ ตอบในส่วนของมิวได้ไหม ?

สัญลักษณ์การอ่านนิยาม
 μมิวค่าเฉลี่ย ของ population
σSigmaSD ของ population

ปกติแล้วค่าที่เราไม่รู้ จะเรียกว่า Unknown Parameter (ศัพท์ใหม่) แล้วค่ามิว ค่าเฉลี่ย ของ population เป็น Unknown Parameter เพราะเราวัดเองไม่ได้หมด

Standard Error (SE) คือ อิหยัง ?

Standard Error ตัว SD บน Sampling Distribution สรุปง่ายๆ

  • Standard Deviation (SD) - ภายใน DataSet ที่ Sampling มา
  • Standard Error (SE) - จากหลายๆ DataSet ที่ Sampling มาหลายๆรอบ

แล้วที่นี้เรารู้แล้วว่า Normal Distribution Empirical Rule +-3 sd 97.9% / +-2 sd 95% / +-1 sd 68.2%

เราจะได้ Idea ของ Confident Interval (ช่วงความเชื่อมั่น) ถ้าเลือกที่ 95% +-2 SD

Confident Interval = mean +-2SD
เคสนี้ mean = 70 sd = 2 [66% , 74%]

ฟังอีกรอบเข้าใจ Idea และ รอบแรกที่ฟัง live สมองผม overflow และเบลอๆ เหมือนตื่นอีกทีตอนท้าย 5555

มีคนทำสรุปไว้แล้ว ที่มาเต็มๆ https://www.6sigma.us/six-sigma-in-focus/standard-error-vs-standard-deviation/

Confident Interval (ช่วงความเชื่อมั่น) มันคิดยังไง ?

ตรงนี้แอดทอยจะสอน 2 แบบ อาจจะมีมากกนี่ แต่หัวบวมแล้ว 55

  • Confidence interval for a mean
  • Confidence interval for a proportion
- Confidence interval for a mean

การคำนวณเพื่อหา Confident Interval จากการทำ Sampling รอบเดียว
ใช้เมื่อ ข้อมูล Likert Scale [พวก 0-10 ไม่เห็นด้วย …. เห็นด้วย]

Step ตามนี้

  1. หา Standard Error (SE) สูตร sd/SQRT(n)
  2. หา margin error default 95% (+-2SD) โดยมีสูตร T * SE

T = ค่าต้องไปดูตาราง T หาค่าจาก
-> degree if freedom (df) = n-1
-> sigificate level ถ้าเราต้องการที่ 95% ให้ดูที่ 0.05 ได้ประมาณ 2.045 (แบบ 2 tail)

  1. เอา mean มา +- กับ margin error จะได้ Confident Interval

คำนวณมือ

Sample Mock Data with Question Do you like Mickey 17 (n=30)
n = 30
mean = 7
sd = 1 

se = sd/SQRT(n) = 0.182574
me = T * se 

*T = ค่าต้องไปดูตาราง T หาค่าจาก
-> degree if freedom (df) = n-1
-> sigificate level ถ้าเราต้องการที่ 95% ให้ดูที่ 0.5 

เคสนี้ df 29 / sig = 0.5 ได้ค่า 

me = 2.045 * 0.182574 
me = 0.373

Confident Interval ที่ 95% = mean +- margin error
จะได้เป็น 
7+0.373 / 7-0.373
[6.627, 7.373] 

แต่ใน Excel มีสูตรให้เลยนะ CONFIDENCE.T

สตร Excel หา Margin Error
=CONFIDENCE.T(AlPHA,sd,N) //AlPHA ใส่ 0.05 เพราะ Confident Interval ที่ 95%

=CONFIDENCE.T(0.05,1,30)

จากนั้นเอาค่าที่ได้ไปหา Confident Interval ที่ 95% = mean +- margin error

ยิ่งช่วงที่กว้างขึ้นมีโอกาศ เก็บค่าที่แท้จริงใน p ได้มากขึ้น

  • เพิ่ม Confident (Alpha) > CI จะกว้างขึ้น
  • ลด Confident (Alpha) < CI จะแคบลง

95% หรือ Alpha 0.05 มาเป็นค่า Default

ถ้าไม่อยากแก้ Confident (Alpha) ให้เพิ่ม n เอา เพราะ SE = sd/SQRT(n) ถ้า n มาขึ้นช่วงความเชื่อมั่นจะแคบลง แต่ต้องดูด้วยว่า n ไหนที่คุ้มค่า

- Confidence interval for a proportion

ใช้เมื่อ ข้อมูลแบบ Proportion แบบ Yes/No Question ค่า 0/1

Step ตามนี้

  1. หา Standard Error (SE) มีสูตร SQRT( p * (1-p) )

ค่า p (%prop) มาจาก ค่าเลือกตามคำถาม เช่น ชอบ เอามาตั้ง และส่วนด้วย n

  1. หา margin error= Z x SE โดยค่า Z ดูจากตาราง Z ค่า Z ประมาณ
    - 90% = 1.65
    - 95% = 1.96
    - 99% = 2.58
  2. ค่า p (%prop) +- margin error (ME)

สูตร Excel มีนะ CONFIDENCE.NORM

ตัวอย่าง Google SpreadSheet

10 Idea ที่ได้

  1. พยายามสำรวจให้เค้ากฏ Central Limit Theorem เพื่อที่จะ Apply กฏที่เหลือได้
  2. Confidence interval มีมาเพื่อบอกความผิดพลาดของการสำรวจ จากเจ้าค่า margin error ปกติ Default ที่ 95%
  3. ปกติตัว Confidence interval เค้าจะคงไว้ที่ 95% ถ้าอยากให้ช่วงมันแคบลง ไปเพิ่ม n ที่จะสอบถามเอา แต่จะใช้ Cost เยอะขึ้นมาด้วย
  4. Unknown Parameter - ค่าที่เราไม่รู้ เช่น mean ของ Population
  5. Parameter - ค่าที่เราเอามาจาก Sample อธิบาย Population ทั้งหมด ตัวอย่าง parameter mean / median / mode / varience / sd ตอนแรกอ่านจาก w3c แล้วไม่เข้าหัวเลย มาเอีะในข้อก่อนหน้า Unknown Parameter
  6. สัญลักษณ์มีเยอะแล้วงง แปะของ w3c ไว้ก่อน
Ref: https://www.w3schools.com/statistics/statistics_standard_deviation.php
  1. Standard Deviation (SD) - ภายใน DataSet ที่ Sampling มา
  2. Standard Error (SE) - จากหลายๆ DataSet ที่ Sampling มาหลายๆรอบ
  3. Confidence interval ที่สอน 2 แบบนะ mean / proportion
  4. Confidence interval mean - ข้อมูล Likert Scale
  5. Likert Scale ลองไปหาเพิ่มมาเป็นการวัดทัศนคติ ความคิดเห็น หรือความรู้สึก โดยมีลำดับชั้นเจน (Ordinal Scale) เช่น จากน้อยไปมาก
  6. Confidence interval proportion ข้อมูล Yes / No
  7. สูตรของ Confidence interval CONFIDENCE.T / CONFIDENCE.NORM ใน Excel กับ Google Sheet มีเหมือนกันนะ ลองแล้ว
  8. ลอง Recap
  9. เรียนไม่ทันแล้วววววววววววววววววววววววววว

Discover more from naiwaen@DebuggingSoft

Subscribe to get the latest posts sent to your email.