מבוא

בפרק זה נעסוק בהערכת פרופורציות באוכלוסייה ובבניית רווחי סמך עבור פרמטרים אלה. שיטות אלה חיוניות במחקר אמפירי, סקרי דעת קהל, מחקרים רפואיים ותחומים נוספים בהם אנו מעוניינים להעריך את השכיחות של תכונה מסוימת באוכלוסייה.

1. יסודות תיאורטיים: פרופורציית האוכלוסייה

1.1 הגדרת הבעיה

נניח כי תכונה מסוימת קיימת באוכלוסייה בהסתברות $p$, כאשר $p$ הוא פרמטר לא ידוע שאותו אנו מעוניינים להעריך. בוחרים מדגם של $n$ פרטים מתוך האוכלוסייה, כאשר $X$ מסמן את מספר בעלי התכונה במדגם.

המשתנה המקרי $X$ יתפלג בהתפלגות בינומית:

\[X \sim \text{Binomial}(n, p)\]

כאשר:

  • $n$ = מספר הנדגמים (פרמטר ידוע)
  • $p$ = ההסתברות להצלחה (הפרמטר שאותו אנו מעוניינים להעריך)

1.2 פרופורציית המדגם כמשערך

פרופורציית המדגם מוגדרת כ:

\[\hat{p} = \frac{X}{n}\]

זהו למעשה ממוצע המדגם, שכן אנו יכולים לחשוב על כל פרט במדגם כמשתנה מקרי ברנולי הלוקח את הערך 1 אם התכונה קיימת ו-0 אחרת.

2. תכונות סטטיסטיות של המשערך

2.1 חוסר הטיה

פרופורציית המדגם היא משערך חסר הטיה לפרופורציית האוכלוסייה:

\[E[\hat{p}] = E\left[\frac{X}{n}\right] = \frac{E[X]}{n} = \frac{np}{n} = p\]

2.2 שונות וסטיית תקן

השונות של המשערך:

\[\text{Var}(\hat{p}) = \text{Var}\left(\frac{X}{n}\right) = \frac{\text{Var}(X)}{n^2} = \frac{np(1-p)}{n^2} = \frac{p(1-p)}{n}\]

סטיית התקן של המשערך (הטעות התקנית):

\[\text{SE}(\hat{p}) = \sqrt{\frac{p(1-p)}{n}}\]

2.3 התכנסות וקירוב נורמלי

כאשר המדגם גדול דיו, בהתאם למשפט הגבול המרכזי, פרופורציית המדגם מתכנסת בהתפלגותה להתפלגות נורמלית:

\[\hat{p} \xrightarrow{d} N\left(p, \frac{p(1-p)}{n}\right)\]

תנאי קירוב נורמלי: הקירוב הנורמלי מתאים כאשר:

  • $n \geq 30$
  • $np \geq 5$
  • $n(1-p) \geq 5$

כלומר, אנו צופים לפחות 5 הצלחות ו-5 כישלונות במדגם.

3. רווחי סמך לפרופורציית האוכלוסייה

3.1 עקרון כללי

בהנתן שתנאי הקירוב הנורמלי מתקיימים, נוכל לבנות רווח סמך לפרופורציית האוכלוסייה באופן דומה לאופן שבו בנינו רווח סמך לתוחלת.

עבור רמת ביטחון של 95%, רווח הסמך הוא:

\[\hat{p} \pm 1.96 \cdot \sqrt{\frac{p(1-p)}{n}}\]

3.2 בעיית החישוב המעשית

קיימת בעיה מעשית: על מנת לחשב את רווח הסמך, אנו זקוקים לערך $p$, אך זהו בדיוק הפרמטר שאותו אנו מעוניינים להעריך!

פתרון: נציב את $\hat{p}$ במקום $p$ בנוסחה לסטיית התקן:

\[\text{Confidence interval} = \hat{p} \pm 1.96 \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}\]

כתוצאה מכך, ההסתברות שהפרמטר האמיתי $p$ נמצא בתוך רווח הסמך היא בקירוב 95%.

3.3 השוואה עם רווחי סמך לתוחלת

היבט רווח סמך לתוחלת רווח סמך לפרופורציה
הפרמטר $\mu$ (תוחלת האוכלוסייה) $p$ (סיכוי להצלחה)
המשערך $\bar{X}$ (ממוצע המדגם) $\hat{p}$ (פרופורציית המדגם)
חוסר הטיה $E[\bar{X}] = \mu$ $E[\hat{p}] = p$
סטיית תקן $\frac{\sigma}{\sqrt{n}}$ $\sqrt{\frac{p(1-p)}{n}}$
רווח סמך (95%) $\bar{X} \pm 1.96 \cdot \frac{\sigma}{\sqrt{n}}$ $\hat{p} \pm 1.96 \cdot \sqrt{\frac{\hat{p}(1-\hat{p})}{n}}$

4. דוגמאות מעשיות

4.1 דוגמה: סקר תמיכה פוליטית

סוקר מעוניין להעריך את אחוז התמיכה במועמד מסוים לראשות הממשלה. הוא דוגם 100 אנשים ומגלה כי 53 מהם תומכים במועמד.

נתונים:

  • $n = 100$
  • $X = 53$
  • $\hat{p} = 0.53$

חישוב רווח הסמך:

\[\begin{aligned} \text{Confidence interval (95\%)} &= 0.53 \pm 1.96 \cdot \sqrt{\frac{0.53 \times 0.47}{100}} \\ &= 0.53 \pm 1.96 \times 0.0499 \\ &= 0.53 \pm 0.098 \\ &= [0.432, 0.628] \end{aligned}\]

פרשנות: ברמת ביטחון של 95%, אחוז התמיכה במועמד נע בין 43.2% ל-62.8%.

4.2 השלכות מעשיות של רוחב רווח הסמך

התוצאה במדגם הקטן אינה אינפורמטיבית במיוחד, שכן היא כוללת גם אפשרות של ניצחון (מעל 50%) וגם אפשרות של הפסד (מתחת ל-50%).

אם נגדיל את המדגם ל-1000 אנשים עם אותה פרופורציה:

\[\begin{aligned} \text{Confidence interval} &= 0.53 \pm 1.96 \times \sqrt{\frac{0.53 \times 0.47}{1000}}\\ &= 0.53 \pm 0.031 \\ &= [0.499, 0.561] \end{aligned}\]

כעת הרווח צר יותר ומצביע על ניצחון סביר של המועמד.

5. קביעת גודל המדגם

5.1 הבעיה ההפוכה

לעיתים אנו מעוניינים לקבוע מראש את גודל המדגם הנדרש כדי להשיג רווח סמך ברוחב מסוים.

רוחב רווח הסמך הוא:

\[W = 2 \times 1.96 \times \sqrt{\frac{p(1-p)}{n}} = 3.92 \times \sqrt{\frac{p(1-p)}{n}}\]

5.2 גישה שמרנית

מכיוון שאיננו יודעים את $p$ בשלב התכנון, עלינו לנקוט בגישה שמרנית. השונות $p(1-p)$ מגיעה למקסימום כאשר $p = 0.5$:

\[\max_{p} p(1-p) = 0.5 \times 0.5 = 0.25\]

לכן, עבור הערכה שמרנית:

\[W = 3.92 \times \sqrt{\frac{0.25}{n}} = 3.92 \times \frac{0.5}{\sqrt{n}} = \frac{1.96}{\sqrt{n}}\]

5.3 דוגמה לחישוב גודל מדגם

נניח שאנו רוצים שרוחב רווח הסמך לא יעלה על 2%:

\[\frac{1.96}{\sqrt{n}} \leq 0.02\] \[\sqrt{n} \geq \frac{1.96}{0.02} = 98\] \[n \geq 98^2 = 9604\]

6. מעבר מהערכה לבדיקת השערות

לאחר שבחנו את עולם ההערכה הסטטיסטית ורווחי הסמך, אנו פונים כעת לגישה חלופית להסקה סטטיסטית - בדיקת השערות (Hypothesis Testing). בעוד שבהערכה שאלנו “מה הערך של הפרמטר?”, בבדיקת השערות אנו שואלים “האם טענה מסוימת על הפרמטר נכונה או לא?”

6.1 ההבדל המהותי בין הגישות

הערכה סטטיסטית:

  • מטרה: קביעת ערך מספרי של פרמטר
  • תוצר: רווח סמך או נקודת הערכה
  • דוגמה: “פרופורציית התמיכה במועמד היא בין 43% ל-63%”

בדיקת השערות:

  • מטרה: הכרעה בין שתי חלופות סותרות
  • תוצר: החלטה בינארית (דחיה או אי-דחיה)
  • דוגמה: “האם המועמד יזכה ברוב הקולות?” (כן/לא)

6.2 הקשר העמוק בין הגישות

למרות ההבדל הפורמלי, קיים קשר הדוק בין שתי הגישות. רווח סמך יכול לשמש כלי לבדיקת השערות, ולהפך - תוצאות בדיקת השערות מספקות מידע על הפרמטרים. בספרות הרפואית, למשל, חוקרים מציגים לעיתים קרובות גם רווחי סמך וגם תוצאות בדיקות השערות.


7. מבוא לבדיקת השערות

7.1 הגדרת התחום

בדיקת השערות (Hypothesis Testing) היא שיטה סטטיסטית המאפשרת לנו להכריע בין שתי טענות סותרות לגבי פרמטר של האוכלוסייה, בהתבסס על מידע מדגמי. השיטה מספקת מסגרת פורמלית לקבלת החלטות תחת אי-וודאות.

מאפיינים מרכזיים:

  • תוצאה בינארית: כן או לא, נכון או שגוי
  • החלטה מבוססת על הסתברויות
  • שליטה ברמת השגיאה המותרת

7.2 סוגי שאלות בבדיקת השערות

שאלות על פרמטר יחיד

דוגמה 1: בקרת איכות בתעשייה יצרן מוניטורים סלולריים מזמין סוללות מספק. קיבולת הסוללה צריכה להיות 3000 מיליאמפר-שעה. במדגם של 100 סוללות נמדדה קיבולת ממוצעת של 2970 מיליאמפר-שעה עם סטיית תקן של 150 מיליאמפר-שעה.

השאלה: האם הספק מסר סוללות בעלות קיבולת נמוכה מהנדרש?

דוגמה 2: מחקר רפואי - רמות כולסטרול רמת הכולסטרול LDL באוכלוסייה הכללית היא 120 מ”ג/דל. במדגם של 64 מעשנים, רמת ה-LDL הממוצעת היא 130 מ”ג/דל עם סטיית תקן של 80 מ”ג/דל.

השאלה: האם רמת ה-LDL במעשנים גבוהה יותר מהאוכלוסייה הכללית?

שאלות על פרופורציות

דוגמה 3: יעילות טיפול רפואי 20% מהחולים במחלה מסוימת מחלימים ללא טיפול. במדגם של 100 חולים שקיבלו תרופה חדשה, 25 החלימו (25%).

השאלה: האם התרופה החדשה מועילה?

השוואות בין אוכלוסיות

דוגמה 4: השוואת ביצועים בין קבוצות במחקר על מהירות קריאה: 400 גברים קראו מאמר תוך 20 דקות בממוצע, ו-400 נשים קראו אותו תוך 18 דקות בממוצע. סטיית התקן בשתי הקבוצות הייתה 5 דקות.

השאלה: האם קיים הבדל מובהק בין גברים לנשים במהירות הקריאה?

7.3 סיווג בדיקות השערות

בדיקות חד-צדדיות (One-tailed tests)

מתאימות כאשר מעניין אותנו רק כיוון אחד של השינוי:

דוגמה: בדיקת רמות כולסטרול במעשנים

  • עניין: האם הרמה גבוהה יותר מהנורמה?
  • אין עניין אם הרמה נמוכה יותר (זה אפילו טוב)

בדיקות דו-צדדיות (Two-tailed tests)

מתאימות כאשר כל סטייה מהערך הצפוי בעייתית:

דוגמה: בדיקת מינון בתרופות במדגם של 50 כדורים נמדד ממוצע של 102 מ”ג חומר פעיל לכדור (במקום 100 מ”ג הנדרש) עם סטיית תקן של 5 מ”ג.

השאלה: האם למינון תכולת חומר פעיל שונה מ-100 מ”ג?

  • גם מינון גבוה מדי וגם מינון נמוך מדי מסוכנים!

8. המסגרת הקונספטואלית לבדיקת השערות

8.1 ניסוח השערות סטטיסטיות

כל בדיקת השערות מתחילה בניסוח שתי השערות סותרות:

השערת האפס (Null Hypothesis) - $H_0$

מאפיינים:

  • מייצגת את המצב הקיים, ברירת המחדל
  • הטענה שאותה אנו מעוניינים לבדוק ולאפשר לדחות
  • לרוב מביעה “אין שינוי”, “אין הבדל”, “אין אפקט”
  • מנוסחת תמיד עם שוויון ($=$, $\leq$, או $\geq$)

דוגמאות:

  • $H_0: \mu = 3000$ (קיבולת הסוללות כנדרש)
  • $H_0: \mu_{\text{smokers}} = 120$ (אין הבדל ב-LDL)
  • $H_0: p = 0.2$ (שיעור החלמה כרגיל)
  • $H_0: \mu_{\text{men}} = \mu_{\text{women}}$ (אין הבדל במהירות קריאה)

השערה חלופית (Alternative Hypothesis) - $H_1$ או $H_a$

מאפיינים:

  • מייצגת את השינוי או האפקט שאנו מחפשים
  • הטענה שאליה נגיע אם נדחה את $H_0$
  • מנוסחת עם אי-שוויון ($\neq$, $<$, או $>$)

דוגמאות:

  • $H_1: \mu < 3000$ (הסוללות פגומות - בדיקה חד-צדדית)
  • $H_1: \mu_{\text{smokers}} > 120$ (LDL גבוה יותר - בדיקה חד-צדדית)
  • $H_1: p > 0.2$ (התרופה מועילה - בדיקה חד-צדדית)
  • $H_1: \mu \neq 100$ (מינון שגוי - בדיקה דו-צדדית)

8.2 עקרונות יסוד בבחירת השערות

עקרון השמרנות

השערת האפס תמיד מייצגת את המצב השמרני - מה שאנו מאמינים בו עד שיוכח אחרת. זה דומה לעקרון “חף מפשע עד שיוכח אשמותו” במערכת המשפט.

דוגמאות לחשיבה שמרנית:

  • תרופה חדשה: נניח שהיא לא עובדת עד שיוכח אחרת
  • שינוי בתהליך ייצור: נניח שהוא לא השפיע עד שיוכח אחרת
  • חשד לפגם באיכות: נניח שהאיכות תקינה עד שיוכח אחרת

קביעת כיוון הבדיקה

הבחירה בין בדיקה חד-צדדית לדו-צדדית תלויה בשאלת המחקר:

בדיקה חד-צדדית - מתי מתאימה:

  • יש לנו הצדקה תיאורטית לכיוון הצפוי
  • מעניין אותנו רק כיוון אחד של השינוי
  • הכיוון השני אינו רלוונטי או אפילו רצוי

בדיקה דו-צדדית - מתי מתאימה:

  • כל סטייה מהערך הצפוי מעניינת אותנו
  • אין לנו הצדקה מוקדמת לכיוון מסוים
  • זוהי הבחירה השמרנית יותר (קשה יותר לדחות $H_0$)

9. עקרונות יסוד בניסוח השערות

9.1 השערת האפס - עקרון ברירת המחדל

השערת האפס ($H_0$) מייצגת תמיד את המצב הקיים, הרצוי או הצפוי. זוהי ההנחה השמרנית שאנו מחזיקים בה עד שהעדות הסטטיסטית תכריח אותנו לשנות את דעתנו.

עקרונות מנחים בניסוח השערת האפס:

  • עקרון השמרנות: “הכל בסדר עד שיוכח אחרת”
  • ברירת מחדל: מייצגת את המצב הרגיל, הנורמלי
  • היעדר אפקט: “לא קרה שום דבר”, “אין שינוי”
  • שוויון: תמיד מנוסחת עם סימן שוויון

דוגמאות מפורטות:

בקרת איכות בתעשייה:

  • המצב הרצוי: הסוללות עומדות בתקן
  • $H_0: \mu = 3000$ (קיבולת הסוללות כנדרש)
  • פרשנות: “התוחלת של קיבולת הסוללות היא 3000 מיליאמפר-שעה כנדרש”

מחקר רפואי:

  • המצב הקיים: מעשנים כמו שאר האוכלוסייה
  • $H_0: \mu_{\text{smokers}} = 120$ (רמת LDL כרגיל)
  • פרשנות: “אין הבדל ברמת הכולסטרול בין מעשנים לאוכלוסייה הכללית”

בדיקת יעילות טיפול:

  • המצב הקיים: התרופה לא מועילה
  • $H_0: p = 0.2$ (שיעור החלמה כרגיל)
  • פרשנות: “התרופה החדשה לא משפרת את שיעור ההחלמה”

9.2 השערה חלופית - זיהוי השינוי

השערה חלופית ($H_1$ או $H_a$) מייצגת את השינוי, האפקט או ההבדל שאנו מחפשים לזהות. זוהי ההשערה שאליה נגיע רק אם העדות הסטטיסטית תהיה חזקה מספיק.

השערות חד-צדדיות

מתאימות כאשר מעניין אותנו רק כיוון אחד של השינוי:

דוגמה: בקרת איכות סוללות

  • $H_0: \mu = 3000$
  • $H_1: \mu < 3000$ (סוללות פגומות)
  • הגיון: אם הקיבולת גבוהה יותר מהנדרש - זה טוב! אין בעיה לפתור

דוגמה: כולסטרול במעשנים

  • $H_0: \mu_{\text{smokers}} = 120$
  • $H_1: \mu_{\text{smokers}} > 120$ (רמה מוגברת)
  • הגיון: אם הרמה נמוכה יותר - זה אפילו טוב, לא מעניין אותנו

השערות דו-צדדיות

מתאימות כאשר כל סטייה מהערך הצפוי בעייתית:

דוגמה: מינון תרופות

  • $H_0: \mu = 100$ (מינון מדויק)
  • $H_1: \mu \neq 100$ (מינון שגוי)
  • הגיון: גם מינון גבוה מדי וגם מינון נמוך מדי מסוכנים!

9.3 הפילוסופיה של בדיקת השערות

העולם הדמיוני של השערת האפס

בדיקת השערות מבוססת על הגישה הפילוסופית הבאה:

  1. הנחת עבודה: אנו מניחים ש-$H_0$ נכונה
  2. יצירת ציפיות: בהתבסס על $H_0$, אנו יודעים מה לצפות מהמדגם
  3. השוואה: אנו משווים את הנתונים הממשיים לציפיות
  4. הכרעה: אם הנתונים סותרים באופן קיצוני את הציפיות - אנו דוחים את $H_0$

אנלוגיה למערכת המשפט: כמו “חף מפשע עד שיוכח אשמותו” - אנו מניחים ש-$H_0$ נכונה עד שהעדות הסטטיסטית תכריח אותנו לדחות אותה.

זיהוי עדות סטטיסטית

השיטה מבוססת על עקרון פשוט: אם משהו מאוד לא סביר לקרות במקרה, כנראה שזה לא קרה במקרה.

דוגמה אינטואיטיבית: אם תיכון מטביע מטבע 100 פעמים ומקבל 95 פעמים “עץ”, האם המטבע הוגן?

  • תחת השערת האפס: המטבע הוגן ($p = 0.5$)
  • התוצאה: 95 מתוך 100 “עץ”
  • שאלה: כמה סביר לקבל תוצאה כזו או קיצונית יותר במטבע הוגן?
  • תשובה: כמעט בלתי אפשרי!
  • מסקנה: כנראה שהמטבע לא הוגן

10. מושג ה-P-Value: הבסיס לקבלת החלטות

10.1 הגדרה מדויקת

P-Value הוא ההסתברות לקבל במדגם תוצאה כפי שקיבלנו או קיצונית ממנה, בהנתן ששערת האפס נכונה.

\[\text{P-value} = P(\text{an outcome as extreme as the observed one, or more extreme} \mid H_0 \text{ is true})\]

10.2 הבנה מעמיקה של הרעיון

מה זה “קיצוני”?

הגדרת “קיצוני” נקבעת על ידי השערה החלופית:

בדיקה חד-צדדית (סוללות):

  • $H_1: \mu < 3000$
  • קיצוני = נמוך יותר מהערך שנצפה
  • אם קיבלנו $\bar{X} = 2970$, אז P-value = $P(\bar{X} \leq 2970 \mid H_0)$

בדיקה דו-צדדית (תרופות):

  • $H_1: \mu \neq 100$
  • קיצוני = רחוק יותר מ-100 (בשני הכיוונים)
  • אם קיבלנו $\bar{X} = 102$, אז P-value = $P(\vert \bar{X} - 100 \vert \geq 2 \mid H_0)$

הדמיה ויזואלית

נדמיין התפלגות של ממוצע המדגם תחת $H_0$:

התפלגות תחת השערת האפס:

      התפלגות ממוצע המדגם תחת H₀
              |
              |    ●
              |   ╱ ╲
              |  ╱   ╲
              | ╱     ╲
              |╱       ╲
    ──────────●─────────●──────────
             μ₀      התוצאה
                    שקיבלתי

    P-value = השטח בזנב החיצוני

10.3 פרשנות מעשית של P-Values

דוגמאות מספריות מדויקות

דוגמה 1: סוללות עם ממוצע 2990

  • P-value = 0.25
  • פרשנות: 25% מהמדגמים תחת $H_0$ יתנו תוצאה גרועה יותר
  • מסקנה: די סביר לקבל תוצאה כזו במקרה
  • החלטה: אין עדות חזקה נגד $H_0$

דוגמה 2: סוללות עם ממוצע 2970

  • P-value = 0.02
  • פרשנות: רק 2% מהמדגמים תחת $H_0$ יתנו תוצאה גרועה יותר
  • מסקנה: לא סביר לקבל תוצאה כזו במקרה
  • החלטה: יש עדות חזקה נגד $H_0$

דוגמה 3: סוללות עם ממוצע 2000

  • P-value ≈ 0.000001
  • פרשנות: פחות ממיליונית מהמדגמים תחת $H_0$ יתנו תוצאה גרועה יותר
  • מסקנה: כמעט בלתי אפשרי לקבל תוצאה כזו במקרה
  • החלטה: עדות חזקה מאוד נגד $H_0$

10.4 הבנה מושגית מעמיקה

P-Value כמדד לכמות הפתעה

P-Value מודד עד כמה התוצאה שקיבלנו מפתיעה בעולם של $H_0$:

  • P-value גבוה (>0.1): “לא מפתיע, קורה הרבה”
  • P-value בינוני (0.01-0.1): “קצת מפתיע, אבל עדיין יכול לקרות”
  • P-value נמוך (<0.01): “מאוד מפתיע, כמעט בלתי אפשרי”

המקור הלוגי לכלל ההחלטה

הרעיון המרכזי: אם משהו כמעט בלתי אפשרי לקרות, כנראה שזה לא קרה.

דוגמה אנלוגית: אם מישהו טוען שהוא מנבא את העתיד, ואתם בוחרים 20 מספרים אקראיים ברצף והוא מנחש את כולם נכון, האם תאמינו לו?

  • ההסתברות לנחש 20 מספרים נכון במקרה: כ-$10^{-26}$
  • זה כל כך לא סביר, שתעדיפו להאמין שיש לו כוח על-טבעי

שאלה מעמיקה: מה אם P-value = 0.5?

תרחיש: ממוצע המדגם בדוגמת הסוללות הוא בדיוק 3000.

שאלה: מה P-value עבור בדיקה חד-צדדית $H_1: \mu < 3000$?

תשובה: $P(\bar{X} \leq 3000 \mid \mu = 3000) = 0.5$

פרשנות: 50% מהמדגמים תחת $H_0$ יתנו תוצאה “גרועה יותר” (נמוכה יותר מ-3000). זה בכלל לא מפתיע - זה בדיוק מה שמצפים!

מסקנה: אין שום עדות נגד $H_0$.

10.4 חישוב מעשי של P-Value: התהליך המלא

כפי שראינו, הערך ההסתברותי של 0.5 אינו מהווה עדות טובה כלל נגד השערת האפס - זהו ערך די סביר. אולם כיצד מבצעים בפועל את החישוב המדויק של P-Value? נדגים זאת באמצעות דוגמת הסוללות שבה התמקדנו.

שלב 1: הקמת המודל הסטטיסטי תחת השערת האפס

במדגם הסוללות שלנו, גודל המדגם הוא 100 יחידות, ובהתאם למשפט הגבול המרכזי, תנאי הקירוב הנורמלי מתקיימים במלואם. פתאום אנו מוצאים את עצמנו בעולם המוכר של ההתפלגות הנורמלית, עם ממוצעי מדגם המתנהגים באופן צפוי ומבוקר.

תחת השערת האפס, אנו מניחים כי $H_0: \mu = 3000$ מיליאמפר-שעה. הנחה זו מכתיבה לנו מודל הסתברותי מלא לעולם - דבר שאנו תמיד זקוקים לו כדי לבצע חישובים מדויקים. תחת השערת האפס, ממוצע המדגם $\bar{X}$ מקבל תוחלת של 3000 מיליאמפר-שעה.

סטיית התקן ($\sigma$) של הקיבולת באוכלוסייה ידועה ושווה ל-150 מיליאמפר-שעה. כעת, סטיית התקן של ממוצע המדגם מחושבת לפי הנוסחה המוכרת:

\[\text{SE}(\bar{X}) = \frac{\sigma}{\sqrt{n}} = \frac{150}{\sqrt{100}} = \frac{150}{10} = 15 \text{ mAh}\]

תחת השערת האפס, ממוצע המדגם מתפלג אפוא נורמלית עם תוחלת 3000 ושונות $15^2$:

\[\bar{X} \sim N(3000, 15^2) \quad \text{under } H_0\]

יש לנו כעת מודל הסתברותי מלא לעולם, ומכאן נוכל לבצע את כל החישובים הנדרשים.

שלב 2: תהליך התקנון - הכלל הזהב בסטטיסטיקה

כאן מגיע לעזרתנו הכלל הזהב: תמיד לתקנן - זה תמיד טוב. השאלה היא רק מה אנו מתקננים ואיך מבצעים זאת נכון. במקרה הנוכחי, אנו מתקננים את ממוצע המדגם.

חשוב להדגיש כי לממוצע המדגם יש תוחלת משלו ושונות משלו, השונה מהשונות באוכלוסייה המקורית. פעולת התקנון מבוצעת על ידי לקיחת המשתנה המקרי, חיסור התוחלת שלו וחלוקה בסטיית התקן שלו:

\[Z = \frac{\bar{X} - E[\bar{X}]}{\text{SE}(\bar{X})} = \frac{\bar{X} - 3000}{15}\]

שימו לב לנקודה קריטית: סטיית התקן שבה אנו מחלקים היא 15 (סטיית התקן של ממוצע המדגם), ולא 150 (סטיית התקן של האוכלוסייה המקורית). זוהי טעות נפוצה שיש להימנע ממנה בכל מחיר.

ביצוע החישוב המדויק

עבור הערך שקיבלנו במדגם, $\bar{x} = 2970$ מיליאמפר-שעה, הציון המתוקנן הוא:

\[z = \frac{2970 - 3000}{15} = \frac{-30}{15} = -2\]

הציון המתוקנן הוא מינוס 2, כלומר הלכנו שני צעדים של סטיית תקן שמאלה מהמרכז. האינטואיציה הנכונה היא שהלכנו מספר מסוים של צעדים באורך סטיית תקן לכיוון מסוים מהמרכז שלנו, שהוא התוחלת.

שלב 3: חישוב P-Value

כעת אנו מחשבים את P-Value שלנו - ההסתברות תחת השערת האפס לקבלת תוצאה כמו זו שקיבלנו או קיצונית יותר. ספציפית, P-Value הוא הסיכוי שממוצע המדגם יהיה קטן מ-2970:

\[\text{P-value} = P(\bar{X} \leq 2970 \mid H_0) = P(Z \leq -2)\]

לאחר שתרגמנו לעולם המתוקנן, החישוב הופך לבעיה סטנדרטית. הסיכוי שמשתנה מקרי נורמלי מתוקנן יהיה קטן מ-2 זהה, בשל הסימטריה של ההתפלגות הנורמלית, לסיכוי שהוא יהיה גדול מ-2:

\[P(Z \leq -2) = P(Z \geq 2) \approx 0.0228\]

הערך הזה הוא בקירוב 0.023, וזהו P-Value שלנו.

11. פרשנות הערך ההסתברותי

קבלת P-Value של 0.023 אומרת לנו שתחת השערת האפס, ההסתברות לקבל מדגם עם ממוצע של 2970 או נמוך יותר היא רק 2.3%. זוהי הסתברות קטנה יחסית - לא סביר שנקבל תוצאה כזו אם השערת האפס אמיתית.

P-Value נותן לנו כעת מדד כמותי ומדויק לחוזק העדות נגד השערת האפס: P-Value נמוך מצביע על כך שהנתונים שלנו אינם סבירים תחת הנחת השערת האפס, מה שמוביל אותנו להסיק שהשערת האפס כנראה אינה נכונה.

11.1 קביעת הסף לדחיית השערת האפס

P-Value נמוך מהווה עדות נגד השערת האפס, אך עולה השאלה הטבעית: מה זה בדיוק “נמוך”? כדי לענות על שאלה זו, אנו קובעים סף מראש - אם P-Value נמוך מסף זה, נדחה את השערת האפס.

הסף הזה נקרא רמת מובהקות ומסומן באות $\alpha$. לא במקרה זוהי אותה אות יוונית שהשתמשנו בה בהקשרים קודמים - הדברים קשורים זה לזה באופן עמוק.

הסטנדרט המקובל ברפואה

רמת המובהקות מייצגת את ההסתברות שנחשבת “לא סבירה” מבחינתנו. בעולם הביו-רפואי, כמעט ללא יוצא מן הכלל, רמת המובהקות הסטנדרטית שנבחרת היא $\alpha = 0.05$. זאת אומרת, אם הסיכוי תחת השערת האפס לתוצאה כמו זו שראינו או קיצונית יותר הוא 5% או פחות, אנו דוחים את השערת האפס.

נוכל לדמיין זאת ויזואלית: יש לנו התפלגות של ממוצע המדגם תחת השערת האפס, וקיבלנו תוצאה מסוימת. P-Value הוא השטח בזנב ההתפלגות - כל מה שיותר קיצוני מהתוצאה שקיבלנו. אם השטח הזה הוא 0.05 או פחות, אנו דוחים את השערת האפס במדעים הביו-רפואיים.

11.2 כללי החלטה פורמליים

הכללים הפורמליים לקבלת החלטות הם:

אם P-value < α: אנו דוחים את השערת האפס ברמת מובהקות α. זה אומר שההבדל הוא מובהק סטטיסטית. זוהי המילה הטכנית שמשתמשים בה כדי לציין שמשהו “קורה” מבחינה סטטיסטית - לא אומרים פשוט “זה קורה”, אלא “זה מובהק סטטיסטית”.

אם P-value ≥ α: אנו לא דוחים את השערת האפס. P-Value גדול מה-cutoff שלנו, מה שאומר שאנו לא דוחים את השערת האפס. חשוב להדגיש: אנו לא אומרים ש”קיבלנו את השערת האפס”, כיוון שבדיקת השערות מבוססת על הפרכה. כל מה שאנו יכולים לעשות הוא להפריך או לא להפריך.

12. משמעות דחיית השערת האפס

הפרשנות המותרת

כאשר נשאלת השאלה “מה זה אומר שהשערת האפס אינה נכונה?”, מתעוררת שאלה קונספטואלית נהדרת. בעולם של בדיקת השערות, יש לנו שתי השערות: השערת האפס וההשערה החלופית. זאת אומרת, אם השערת האפס אינה נכונה, זה מוביל אותנו לקבל את ההשערה החלופית.

לדוגמה, אם השערת האפס שלנו הייתה שגברים ונשים קוראים באותה מהירות, וההשערה החלופית הייתה שנשים קוראות יותר מהר, וקיבלנו P-Value של 0.01, אז P-Value נמוך זה יוביל אותנו לדחות את השערת האפס. אנו נאמר שהשערת האפס - שגברים קוראים באותה מהירות כמו נשים - אינה נכונה, ונדחה אותה לטובת ההשערה החלופית שנשים קוראות יותר מהר.

זהירות פרשנותית

יש להיזהר מפרשנות יתר. מבחינה טכנית, לא נכון לומר ש”קיבלנו את ההשערה החלופית” - זוהי דרך נוחה לחשוב על הדבר, אבל היא לא מדויקת מבחינה סטטיסטית. ההשערה החלופית עוזרת לנו להגדיר מה נחשב “קיצוני” תחת השערת האפס, אבל היא לא אומרת לנו שום דבר קונקרטי ומפורט על העולם.

ההשערה החלופית לא אומרת לנו, למשל, שגברים קוראים במהירות של דף בדקה ונשים קוראות במהירות של דף בחצי דקה. היא רק אומרת לנו מה מעניין אותנו כשאנו בוחנים את השערת האפס.

13. הטבע הבינארי של בדיקת השערות

מגבלות השיטה

נקודה מהותית שחשוב להבין היא שהעולם של בדיקת השערות לא מספק לנו הערכה כמותית. אנו מקבלים תשובות בינאריות בלבד: כן או לא. זה טבע השיטה, לטוב ולרע.

בדיקת השערות מהווה דרך שיטתית ומובנית להגיד “האם אני מאמין בזה או בזה”. היא מספקת מסגרת פורמלית להכרעה בין שתי אפשרויות, בלי לתת לנו מידע כמותי מפורט על גודל האפקט או על הפרמטרים עצמם.

הקשר לרווחי סמך

למרות המגבלה הזו, יש זיקה עמוקה בין בדיקת השערות לרווחי סמך. כפי שנראה בהמשך לימודינו, מדובר למעשה באותה גברת בשינוי אדרת. לא במקרה הדברים נראים דומים - הם אכן קשורים באופן יסודי.

בספרות המחקרית, במיוחד ברפואה, חוקרים מציגים לעיתים קרובות גם תוצאות בדיקות השערות וגם רווחי סמך, משום ששתי הגישות משלימות זו את זו ומספקות תמונה מלאה יותר של התוצאות.

14 מקרים קיצוניים ובעיות אפשריות

אמינות המדגם

כאשר נתקלים בתוצאות קיצוניות, עולה הצורך לבחון את אמינות המדגם עצמו. ייתכן שהתוצאות המפתיעות נובעות מבעיה במתגם ולא מאפקט אמיתי באוכלוסייה. אולם בהנחה שביצענו את הדגימה כראוי ושמרנו על כל הכללים המתודולוגיים, אין לנו סיבה להטיל ספק בתקפות המדגם רק בגלל שקיבלנו תוצאות בלתי צפויות.

חשוב לזכור שתמיד קיימת אפשרות, ולו קטנה, שהתוצאות הקיצוניות אכן התרחשו במקרה. זו בדיוק המשמעות של רמת המובהקות - אנו מוכנים לקחת סיכון של 5% (או כל רמה אחרת שנבחר) לטעות בדחיית השערת האפס כאשר היא למעשה נכונה.

יישום עקרונות הזהירות

העקרון המנחה צריך להיות שאנו עושים כל מה שביכולתנו כדי לוודא שהמדגם שלנו תקין ושתהליך הדגימה בוצע כראוי. אם אכן עשינו זאת, והתוצאות מצביעות על P-Value נמוך, אז יש לנו בסיס סטטיסטי מוצק לדחיית השערת האפס, גם אם התוצאות מפתיעות אותנו.

זה חלק בלתי נפרד מהחשיבה המדעית: להיות מוכנים לקבל תוצאות שסותרות את האינטואיציה שלנו, כל עוד הן מבוססות על ראיות סטטיסטיות חזקות ועל מתודולוגיה תקינה.

דור פסקל

חזרה לעמוד הראשי