הבסיס הרעיוני לבדיקות השערות
בדיקת השערות מהווה את אחד מהכלים המרכזיים בסטטיסטיקה מסקנית, ומבוססת על עקרון פשוט אך עמוק: אם התוצאה שקיבלנו קיצונית מדי תחת ההנחה הסטנדרטית, כנראה שההנחה הסטנדרטית שגויה.
הרעיון המנחה הוא שאנו יוצרים מצב מבוקר של השוואה. אנו מגדירים “עולם סטנדרטי” (השערת האפס) ובודקים האם התוצאות שקיבלנו סבירות בעולם זה. אם התוצאות קיצוניות מדי, אנו מסיקים שהעולם הסטנדרטי אינו נכון, ועוברים לקבל השערה אלטרנטיבית.
תנאי היישום למבחן Z
מבחן Z מתאים במצבים הבאים, המהווים יחד מסגרת תאורטית נקייה ללימוד העקרונות:
תנאים הכרחיים:
- התכונה הנבדקת מתפלגת נורמלית באוכלוסייה, או שמתקיים משפט הגבול המרכזי (מדגם גדול)
- השונות של התכונה באוכלוסייה ידועה מראש
- המדגם נלקח באופן אקראי ובלתי תלוי
למרות שהתנאי של שונות ידועה אינו ריאליסטי ברוב המקרים המעשיים, הוא מאפשר לנו להתמקד ברעיונות הבסיסיים של בדיקת השערות מבלי להסתבך בסיבוכים טכניים נוספים.
הגדרת השערות: השערת האפס והשערה אלטרנטיבית
השערת האפס (H₀)
השערת האפס מייצגת את המצב הסטנדרטי או הדיפולטיביי שבו אנו מניחים שאין הבדל או אין אפקט. במונחים מתמטיים:
\[H_0: \mu = \mu_0\]כאשר $\mu$ היא התוחלת של האוכלוסייה הנבדקת ו-$\mu_0$ היא התוחלת הידועה של האוכלוסייה הכללית.
דוגמה רפואית: אם אנו בודקים את רמת הכולסטרול (LDL) בקרב אנשים בני 100, השערת האפס תהיה שרמת הכולסטרול בקרב בני 100 זהה לרמה באוכלוסייה הכללית.
השערה אלטרנטיבית (H₁)
השערה אלטרנטיבית מציגה את מה שאנו חושדים שאולי נכון, או את מה שנוגד את השערת האפס. ישנם שלושה סוגים עיקריים:
השערה אלטרנטיבית חד-צדדית (גדולה מ-):
\[H_1: \mu > \mu_0\]השערה אלטרנטיבית חד-צדדית (קטנה מ-):
\[H_1: \mu < \mu_0\]השערה אלטרנטיבית דו-צדדית:
\[H_1: \mu \neq \mu_0\]ההשערה הדו-צדדית היא “אגנוסטית” - היא אינה מניחה כיוון מסוים להבדל, רק שההבדל קיים.
הסטטיסטי Z והמבנה המתמטי
בניית הסטטיסטי
תחת השערת האפס, הסטטיסטי Z מוגדר כך:
\[Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}}\]כאשר:
- $\bar{X}$ - ממוצע המדגם שהתקבל בפועל
- $\mu_0$ - התוחלת לפי השערת האפס
- $\sigma$ - סטיית התקן של האוכלוסייה (ידועה)
- $n$ - גודל המדגם
הרעיון המתמטי: אנו לוקחים את ההפרש בין מה שקיבלנו לבין מה שציפינו לקבל תחת השערת האפס, ומתקננים אותו בחלוקה בסטיית התקן המתאימה. כך אנו מקבלים משתנה מקרי שמתפלג $\mathcal{N}(0,1)$ תחת השערת האפס.
התמיינות בין ערכים היפותטיים לערכים מעשיים
חשוב להבחין בין שני סוגי ערכים:
$\bar{X}$ (X גג גדול) - משתנה מקרי היפותטי תחת השערת האפס, עדיין אין לו ערך מספרי ספציפי
$\bar{x}$ (x גג קטן) - הערך הספציפי של ממוצע המדגם שקיבלנו בפועל, זהו מספר קונקרטי שאנו “מחזיקים ביד”
חישוב P-value: הלב של בדיקת ההשערות
הגדרה מושגית
P-value הוא הסיכוי לקבל את הערך שקיבלנו, או ערך קיצוני ממנו, בהנחה שהשערת האפס נכונה. זהו המדד המרכזי לקבלת החלטות בבדיקת השערות.
חישוב עבור מבחנים חד-צדדיים
למבחן מהסוג $H_1: \mu > \mu_0$:
אנו מחשבים את הסטטיסטי:
\[z_{calc} = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}\]ואז:
\[\text{P-value} = P(Z \geq z_{calc})\]הרעיון: אנו שואלים מה הסיכוי שמשתנה מקרי נורמלי מתוקנן יקבל ערך גדול או שווה לזה שחישבנו.
למבחן מהסוג $H_1: \mu < \mu_0$:
\[\text{P-value} = P(Z \leq z_{calc})\]הצדקה מתמטיקה לחישוב P-value
הנוסחה עובדת מכיוון שאנו יכולים לכתוב:
\[P(Z \geq z_{calc}) = P\left(\frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}} \geq z_{calc}\right)\]מכיוון ששני הצדדים מתוקננים באותה צורה, אנו יכולים לכתוב:
\[= P(\bar{X} \geq \bar{x})\]וזהו בדיוק הסיכוי לקבל ממוצע מדגם גדול או שווה לזה שקיבלנו בפועל - הגדרת P-value.
מבחנים דו-צדדיים ועיקרון הסימטריה
עבור מבחן דו-צדדי, אנו מעוניינים בסיכוי לקבל ערך קיצוני בכל אחד משני הכיוונים. בשל הסימטריה של ההתפלגות הנורמלית:
\[\text{P-value} = 2 \cdot P(Z \geq |z_{calc}|)\]ההגיון הגרפי: אם הסטטיסטי שלנו נמצא בזנב הימני, אנו מחשבים את השטח בזנב הימני ומכפילים ב-2 כדי לכלול גם את השטח המקביל בזנב השמאלי.
קריטריון הדחייה ורמת המובהקות
כלל ההחלטה הבסיסי
אנו דוחים את השערת האפס כאשר P-value < α:
כאשר α (אלפא) היא רמת המובהקות שנקבעה מראש, בדרך כלל 0.05 במדעי החיים והרפואה.
המשמעות: אם הסיכוי לקבל את התוצאה שקיבלנו (או קיצונית יותר) תחת השערת האפס קטן מ-5%, אנו מחליטים שהשערת האפס כנראה שגויה.
גזירה מתמטית של אזור הדחייה
באמצעות מניפולציות אלגבריות, ניתן להראות שעבור מבחן דו-צדדי ברמת מובהקות של 0.05:
\[\text{reject } H_0 \text{ if } |z_{calc}| > 1.96\]וזה שקול לתנאי:
\[|\bar{x} - \mu_0| > 1.96 \cdot \frac{\sigma}{\sqrt{n}}\]או במילים אחרות:
\[\bar{x} < \mu_0 - 1.96 \cdot \frac{\sigma}{\sqrt{n}} \text{ or } \bar{x} > \mu_0 + 1.96 \cdot \frac{\sigma}{\sqrt{n}}\]הקשר בין רווחי סמך לבדיקת השערות דו-צדדית
הזהות המתמטית
כאשר אנו משווים את תנאי הדחייה במבחן השערות לנוסחת רווח סמך, מתגלה קשר מרתק. שני הכלים הסטטיסטיים הללו מבוססים על אותו מבנה מתמטי.
רווח הסמך הדו-צדדי של $(1-\alpha) \times 100\%$ עבור $\mu$ הוא:
\[\left[\bar{x} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}, \bar{x} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\right]\]ותנאי אי-דחיית השערת האפס $H_0: \mu = \mu_0$ הוא:
\[\mu_0 - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} < \bar{x} < \mu_0 + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\]התובנה המרכזית: נדחה את $H_0$ ברמת מובהקות $\alpha$ אם ורק אם $\mu_0$ אינו נמצא ברווח הסמך של $(1-\alpha) \times 100\%$.
ההבדל המושגי
למרות הזהות המתמטית, קיים הבדל מושגי חשוב בין שתי הגישות:
ברווח סמך:
- המרכז: $\bar{x}$ (הערך שקיבלנו מהמדגם)
- המטרה: להעריך טווח סביר לפרמטר האמיתי $\mu$
- ההסתברות: הפרמטר נמצא ברווח בהסתברות $(1-\alpha)$
בבדיקת השערות:
- המרכז: $\mu_0$ (הערך לפי השערת האפס)
- המטרה: לבדוק האם השערה ספציפית על $\mu$ נכונה
- ההסתברות: $\bar{x}$ נמצא ב”טווח הקבלה” בהסתברות $(1-\alpha)$ תחת $H_0$
יישומים במחקר
הקשר הזה מאפשר לחוקרים להשתמש ברווחי סמך כדרך אלגנטית לבצע בדיקת השערות מרומזת. דוגמאות נפוצות:
במחקר רפואי: כאשר מדווחים על יחס סיכויים (Odds Ratio) של $1.34$ עם רווח סמך $95\%$ של $[1.23, 2.00]$, ניתן להסיק מיידית שהיחס שונה באופן מובהק מ-$1$ (היעדר אפקט), שכן $1$ אינו נכלל ברווח.
בניסויים קליניים: אם תרופה חדשה מאריכה תוחלת חיים ב-$3$ שנים עם רווח סמך $95\%$ של $[2, 4]$ שנים, ההשפעה מובהקת סטטיסטית כי $0$ (היעדר השפעה) אינו ברווח.
בדיקת השערות עבור פרופורציות
המסגרת התיאורטית
כאשר אנו מעוניינים לבדוק השערות לגבי פרופורציה באוכלוסייה, אנו משתמשים בתכונות ההתפלגות הבינומית ובקירוב הנורמלי שלה. נסמן ב-$p$ את הפרופורציה האמיתית באוכלוסייה וב-$\hat{p}$ את הפרופורציה במדגם.
תחת השערת האפס $H_0: p = p_0$, כאשר גודל המדגם $n$ גדול מספיק, מתקיים:
\[\hat{p} \sim \mathcal{N}\left(p_0, \frac{p_0(1-p_0)}{n}\right)\]הקירוב הנורמלי תקף כאשר מתקיימים התנאים: $np_0 \geq 10$ ו-$n(1-p_0) \geq 10$.
סטטיסטי המבחן
הסטטיסטי המתוקנן עבור בדיקת השערות על פרופורציה הוא:
\[Z = \frac{\hat{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}\]תחת השערת האפס, $Z \sim \mathcal{N}(0,1)$.
דוגמה: יעילות טיפול רפואי
נניח שבמחלקה מסוימת, $20\%$ מהחולים מחלימים ממחלה ללא טיפול. רופא מעוניין לבדוק האם טיפול חדש בכימותרפיה מעלה את אחוז ההחלמה.
ניסוח ההשערות:
\[H_0: p = 0.2\] \[H_1: p > 0.2\]איסוף הנתונים: מתוך מדגם של $n = 100$ חולים שקיבלו את הטיפול, $25$ החלימו, כלומר $\hat{p} = 0.25$.
חישוב סטטיסטי המבחן:
\[Z = \frac{0.25 - 0.2}{\sqrt{\frac{0.2 \times 0.8}{100}}} = \frac{0.05}{0.04} = 1.25\]חישוב ה-p-value: עבור השערה חד-צדדית:
\[p\text{-value} = P(Z > 1.25) = 0.11\]מסקנה: ברמת מובהקות של $\alpha = 0.05$, לא נדחה את השערת האפס. אין ראיות מובהקות סטטיסטית לכך שהטיפול החדש מעלה את אחוז ההחלמה.
דוגמה: שינוי בדפוסי טיפול
מנהל בית חולים מעוניין לבדוק האם ראש מחלקה חדש שינה את אחוז החולים המופנים לניתוח. בעבר, $60\%$ מהמאושפזים עברו ניתוח.
ניסוח ההשערות (בדיקה דו-צדדית):
\[H_0: p = 0.6\] \[H_1: p \neq 0.6\]איסוף הנתונים: מתוך מדגם של $n = 400$ מאושפזים, $212$ עברו ניתוח, כלומר $\hat{p} = 0.53$.
חישוב סטטיסטי המבחן:
\[Z = \frac{0.53 - 0.6}{\sqrt{\frac{0.6 \times 0.4}{400}}} = \frac{-0.07}{\sqrt{0.0006}} = \frac{-0.07}{0.0245} = -2.86\]חישוב ה-p-value: עבור השערה דו-צדדית:
\[p\text{-value} = 2 \times P(|Z| > 2.86) = 2 \times 0.002 = 0.004\]מסקנה: ברמת מובהקות של $\alpha = 0.05$, נדחה את השערת האפס. אחוז המנותחים שונה באופן מובהק סטטיסטית תחת הנהלת ראש המחלקה החדש.
בעיית ההשערות המרובות ו-p-hacking
תופעת ה-p-hacking
אחת הבעיות החמורות במחקר המדעי המודרני היא תופעת ה-p-hacking. תופעה זו מתרחשת כאשר חוקרים מבצעים מניפולציות שונות בנתונים או בניתוח הסטטיסטי כדי להגיע לתוצאות מובהקות סטטיסטית.
ניתוח של התפלגות ערכי $Z$ במחקרים שפורסמו חושף דפוס מדאיג: ריכוז חריג של ערכים סביב $Z = 2$, שמתאים ל-$p\text{-value} \approx 0.05$. זהו סימן לכך שחוקרים רבים “משחקים” עם הנתונים עד להשגת מובהקות סטטיסטית.
המנגנון המתמטי של p-hacking
כאשר חוקר מבצע ניתוחים מרובים על אותם נתונים, ההסתברות למצוא לפחות תוצאה אחת מובהקת עולה באופן משמעותי. אם נבצע $m$ בדיקות בלתי תלויות ברמת מובהקות $\alpha$, ההסתברות לקבל לפחות תוצאה אחת מובהקת בטעות היא:
\[P(\text{At least one false rejection}) = 1 - (1-\alpha)^m\]עבור $m = 20$ בדיקות ו-$\alpha = 0.05$:
\[P(\text{At least one false rejection}) = 1 - 0.95^{20} \approx 0.64\]דוגמה: פול התמנון ובעיית ההשערות המרובות
המקרה של פול התמנון ממחיש היטב את בעיית ההשערות המרובות. פול “חזה” נכונה $12$ מתוך $14$ תוצאות משחקים במונדיאל 2010.
ניתוח סטטיסטי:
תחת השערת האפס שפול מנחש באקראי, מספר הניחושים הנכונים $X \sim \text{Binomial}(14, 0.5)$.
\[p\text{-value} = P(X \geq 12) = \sum_{k=12}^{14} \binom{14}{k} 0.5^{14} = 0.006\]למרות המובהקות הסטטיסטית, הבעיה היא שפול לא היה החיה היחידה ש”חזתה” תוצאות. כאשר אלפי חיות ברחבי העולם “מנחשות” תוצאות, ההסתברות שלפחות אחת מהן תצליח במקרה היא גבוהה מאוד.
האנלוגיה לניבוי שוק ההון
נניח שאדם שולח למיליון אנשים תחזיות שונות לגבי שוק ההון. לחצי מהם הוא חוזה שמניה מסוימת תעלה, ולחצי השני - שתרד. הוא ממשיך בתהליך זה מספר פעמים. בסופו של דבר, כמה אנשים יקבלו סדרה של תחזיות נכונות ויחשבו שהוא גאון, למרות שהכול היה אקראי לחלוטין.
זוהי בדיוק אותה בעיה: כאשר בוחנים מספר רב של השערות, חלקן ייצאו מובהקות בטעות.
המלצות למחקר אמין
עקרונות למניעת p-hacking
-
רישום מוקדם של השערות: לפני איסוף הנתונים, יש לרשום את כל ההשערות שייבדקו.
-
תיקון להשערות מרובות: כאשר בודקים מספר השערות, יש להשתמש בשיטות תיקון כמו תיקון Bonferroni.
-
שכפול מחקרים: תוצאה שהתקבלה פעם אחת דורשת אימות במחקרים נוספים.
-
פרסום תוצאות שליליות: למחקרים שלא מצאו אפקט יש ערך מדעי חשוב, והם צריכים להיות חלק מהשיח המדעי.
חזרה לעמוד הראשי