ההרצאה ממשיכה את הנושא של הסקה ססטיסטית - הסקת מסקנות על אוכלוסייה בהתבסס על מדגם. החלק הראשון חוזר על חלקים מהשיעור הקודם.

אוכלוסייה היא קבוצת הפרטים שאחננו מעוניינים להסיק עליהם, ומדגם הוא תת-קבוצה של האוכלוסייה שנמדד בפועל.

הכלים שעומדים לרשותנו הם:

  • אומדן: שיערוך פרמטר של האוכלוסייה
  • בדיקת השעות: האם לאוכלוסייה תכונה מסוימת / השוואה בין תכונות בין אוכלוסיות

הבסיס הרעיוני לבדיקות השערות

בדיקת השערות היא אחד הכלים המרכזיים בסטטיסטיקה הסקית, ומבוססת על עקרון פשוט אך עמוק: אם התוצאה שקיבלנו קיצונית מדי תחת ההנחה הסטנדרטית, כנראה שההנחה הסטנדרטית שגויה.

הרעיון המנחה הוא השוואה מבוקרת - אנחנו מגדירים “עולם רצוי/קיים/סטנדרטי” (השערת האפס) ובודקים אם התוצאות שקיבלנו סבירות בעולם זה. אם התוצאות קיצוניות מדי, אנחנו מסיקים שהעולם הסטנדרטי שבנינו שגוי, ודוחים את השערת האפס לטובת השערה אלטרנטיבית.

השערת האפס היא בדר״כ מהצורה:

\[H_0: \mu = \mu_0\]

כלומר שהתוחלת באוכלוססיה שווה לערך כלשהו המייצג את המצב הרצוי. אבל להבנתי זה לא בהכרך ככה, ואפשר גם לקבוע השערות אפס אחרות, כמו.

הערה נוספת: במצגות ההגדרות לא ברורות, לדעתי. למשל מצויין ביחס להשערת האפס שהיא מייצגת את המצב ״הקיים/הרצוי״ - אבל להבנתי אלה שני דברים שנוים.

תנאי היישום למבחן $Z$

מבחן Z מתאים במצבים הבאים, המהווים יחד מסגרת תאורטית נקייה ללימוד העקרונות:

תנאים הכרחיים:

  • התכונה הנבדקת מתפלגת נורמלית באוכלוסייה, או שמתקיים משפט הגבול המרכזי (מדגם גדול)
  • השונות של התכונה באוכלוסייה ידועה מראש

    הערה: אנחנו גם יודעים איך לטפל במקרים של שונות לא ידועה - נשתמש במבחן $t$ במקום $Z$, אך נתחיל עם $Z$ כדי להדגיש את העקרונות הבסיסיים.

  • המדגם נלקח באופן אקראי ובלתי תלוי

למרות שהתנאי של שונות ידועה אינו ריאליסטי ברוב המקרים המעשיים, הוא מאפשר לנו להתמקד ברעיונות הבסיסיים של בדיקת השערות בלי סיבוכים טכניים.

הגדרת השערות: השערת האפס והשערה אלטרנטיבית

השערת האפס (H₀)

השערת האפס מייצגת את המצב הסטנדרטי או הדיפולטיבי שבו אנחנו מניחים שאין הבדל או אין אפקט. במונחים מתמטיים:

\[H_0: \mu = \mu_0\]

כאשר $\mu$ היא התוחלת של האוכלוסייה הנבדקת ו-$\mu_0$ היא התוחלת הידועה של האוכלוסייה הכללית.

דוגמה רפואית: אם אנחנו בודקים את רמת הכולסטרול (LDL) בקרב אנשים בני 100, השערת האפס תהיה שרמת הכולסטרול בקרב בני 100 זהה לרמה באוכלוסייה הכללית.

השערה אלטרנטיבית (H₁)

השערה אלטרנטיבית מציגה את מה שאנחנו חושדים שאולי נכון, או את מה שנוגד את השערת האפס. ישנם שלושה סוגים עיקריים:

השערה אלטרנטיבית חד-צדדית (גדולה מ-):

\[H_1: \mu > \mu_0\]

השערה אלטרנטיבית חד-צדדית (קטנה מ-):

\[H_1: \mu < \mu_0\]

השערה אלטרנטיבית דו-צדדית:

\[H_1: \mu \neq \mu_0\]

ההשערה הדו-צדדית היא “אגנוסטית” - היא אינה מניחה כיוון מסוים להבדל, רק שההבדל קיים.

הסטטיסטי Z והמבנה המתמטי

בניית הסטטיסטי

תחת השערת האפס, הסטטיסטי Z מוגדר כך:

\[Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}}\]

כאשר:

  • $\bar{X}$ - ממוצע המדגם שהתקבל בפועל
  • $\mu_0$ - התוחלת לפי השערת האפס
  • $\sigma$ - סטיית התקן של האוכלוסייה (ידועה)
  • $n$ - גודל המדגם

הרעיון המתמטי: אנחנו לוקחים את ההפרש בין מה שקיבלנו לבין מה שציפינו לקבל תחת השערת האפס, ומתקננים אותו בחלוקה בסטיית התקן המתאימה. כך אנחנו מקבלים משתנה מקרי שמתפלג $\mathcal{N}(0,1)$ תחת השערת האפס.

התמיינות בין ערכים היפותטיים לערכים מעשיים

חשוב להבחין בין שני סוגי ערכים:

$\bar{X}$ (X גג גדול) - משתנה מקרי היפותטי תחת השערת האפס, עדיין אין לו ערך מספרי ספציפי

$\bar{x}$ (x גג קטן) - הערך הספציפי של ממוצע המדגם שקיבלנו בפועל, זהו מספר קונקרטי שאנחנו “מחזיקים ביד”

חישוב P-value: הלב של בדיקת ההשערות

הגדרה מושגית

P-value הוא הסיכוי לקבל את הערך שקיבלנו, או ערך קיצוני ממנו, בהנחה שהשערת האפס נכונה. זהו המדד המרכזי לקבלת החלטות בבדיקת השערות.

חישוב עבור מבחנים חד-צדדיים

למבחן מהסוג $H_1: \mu > \mu_0$:

אנחנו מחשבים את הסטטיסטי:

\[z_{calc} = \frac{\bar{x} - \mu_0}{\sigma/\sqrt{n}}\]

ואז:

\[\text{P-value} = P(Z \geq z_{calc})\]

הרעיון: אנחנו שואלים מה הסיכוי שמשתנה מקרי נורמלי מתוקנן יקבל ערך גדול או שווה לזה שחישבנו.

למבחן מהסוג $H_1: \mu < \mu_0$:

\[\text{P-value} = P(Z \leq z_{calc})\]

הצדקה מתמטיקה לחישוב P-value

הנוסחה עובדת מכיוון שאנחנו יכולים לכתוב:

\[P(Z \geq z_{calc}) = P\left(\frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}} \geq z_{calc}\right)\]

מכיוון ששני הצדדים מתוקננים באותה צורה, אנחנו יכולים לכתוב:

\[= P(\bar{X} \geq \bar{x})\]

וזהו בדיוק הסיכוי לקבל ממוצע מדגם גדול או שווה לזה שקיבלנו בפועל - הגדרת P-value.

מבחנים דו-צדדיים ועיקרון הסימטריה

עבור מבחן דו-צדדי, אנחנו מעוניינים בסיכוי לקבל ערך קיצוני בכל אחד משני הכיוונים. בשל הסימטריה של ההתפלגות הנורמלית:

\[\text{P-value} = 2 \cdot P(Z \geq |z_{calc}|)\]

ההגיון הגרפי: אם הסטטיסטי שלנו נמצא בזנב הימני, אנחנו מחשבים את השטח בזנב הימני ומכפילים ב-2 כדי לכלול גם את השטח המקביל בזנב השמאלי.

קריטריון הדחייה ורמת המובהקות

כלל ההחלטה הבסיסי

אנחנו דוחים את השערת האפס כאשר P-value < α:

כאשר α (אלפא) היא רמת המובהקות שנקבעה מראש, בדרך כלל 0.05 במדעי החיים והרפואה.

המשמעות: אם הסיכוי לקבל את התוצאה שקיבלנו (או קיצונית יותר) תחת השערת האפס קטן מ-5%, אנחנו מחליטים שהשערת האפס כנראה שגויה.

גזירה מתמטית של אזור הדחייה

באמצעות מניפולציות אלגבריות, ניתן להראות שעבור מבחן דו-צדדי ברמת מובהקות של 0.05:

\[\text{reject } H_0 \text{ if } |z_{calc}| > 1.96\]

וזה שקול לתנאי:

\[|\bar{x} - \mu_0| > 1.96 \cdot \frac{\sigma}{\sqrt{n}}\]

או במילים אחרות:

\[\bar{x} < \mu_0 - 1.96 \cdot \frac{\sigma}{\sqrt{n}} \text{ or } \bar{x} > \mu_0 + 1.96 \cdot \frac{\sigma}{\sqrt{n}}\]

הקשר בין רווחי סמך לבדיקת השערות דו-צדדית

הזהות המתמטית

כשאנחנו משווים את תנאי הדחייה במבחן השערות לנוסחת רווח סמך, מתגלה קשר מרתק. שני הכלים הסטטיסטיים מבוססים על אותו מבנה מתמטי.

רווח הסמך הדו-צדדי של $(1-\alpha) \times 100\%$ עבור $\mu$ הוא:

\[\left[\bar{x} - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}, \bar{x} + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\right]\]

ותנאי אי-דחיית השערת האפס $H_0: \mu = \mu_0$ הוא:

\[\mu_0 - z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}} < \bar{x} < \mu_0 + z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}\]

התובנה המרכזית: נדחה את $H_0$ ברמת מובהקות $\alpha$ אם ורק אם $\mu_0$ אינו נמצא ברווח הסמך של $(1-\alpha) \times 100\%$.

ההבדל המושגי

למרות הזהות המתמטית, קיים הבדל מושגי חשוב בין שתי הגישות:

ברווח סמך:

  • המרכז: $\bar{x}$ (הערך שקיבלנו מהמדגם)
  • המטרה: להעריך טווח סביר לפרמטר האמיתי $\mu$
  • ההסתברות: הפרמטר נמצא ברווח בהסתברות $(1-\alpha)$

בבדיקת השערות:

  • המרכז: $\mu_0$ (הערך לפי השערת האפס)
  • המטרה: לבדוק האם השערה ספציפית על $\mu$ נכונה
  • ההסתברות: $\bar{x}$ נמצא ב”טווח הקבלה” בהסתברות $(1-\alpha)$ תחת $H_0$

יישומים במחקר

הקשר הזה מאפשר לחוקרים להשתמש ברווחי סמך כדרך אלגנטית לבצע בדיקת השערות מרומזת. דוגמאות נפוצות:

במחקר רפואי: כאשר מדווחים על יחס סיכויים (Odds Ratio) של $1.34$ עם רווח סמך $95\%$ של $[1.23, 2.00]$, ניתן להסיק מיידית שהיחס שונה באופן מובהק מ-$1$ (היעדר אפקט), שכן $1$ אינו נכלל ברווח.

בניסויים קליניים: אם תרופה חדשה מאריכה תוחלת חיים ב-$3$ שנים עם רווח סמך $95\%$ של $[2, 4]$ שנים, ההשפעה מובהקת סטטיסטית כי $0$ (היעדר השפעה) אינו ברווח.


בדיקת השערות עבור פרופורציות

המסגרת התיאורטית

כשאנחנו מעוניינים לבדוק השערות לגבי פרופורציה באוכלוסייה, אנחנו משתמשים בתכונות ההתפלגות הבינומית ובקירוב הנורמלי שלה. נסמן ב-$p$ את הפרופורציה האמיתית באוכלוסייה וב-$\bar{p}$ את הפרופורציה במדגם.

תחת השערת האפס $H_0: p = p_0$, כאשר גודל המדגם $n$ גדול מספיק, מתקיים:

\[\bar{p} \sim \mathcal{N}\left(p_0, \frac{p_0(1-p_0)}{n}\right)\]

הקירוב הנורמלי תקף כאשר מתקיימים התנאים: $np_0 \geq 10$ ו-$n(1-p_0) \geq 10$.

סטטיסטי המבחן

הסטטיסטי המתוקנן עבור בדיקת השערות על פרופורציה הוא:

\[Z = \frac{\bar{p} - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}\]

תחת השערת האפס, $Z \sim \mathcal{N}(0,1)$.

דוגמה: יעילות טיפול רפואי

נניח שבמחלקה מסוימת, $20\%$ מהחולים מחלימים ממחלה ללא טיפול. רופא מעוניין לבדוק האם טיפול חדש בכימותרפיה מעלה את אחוז ההחלמה.

$p_0 = 0.2$ הוא אחוז ההחלמה ללא טיפול, ורופא רוצה לבדוק אם הטיפול החדש מעלה את האחוז הזה.

ניסוח ההשערות:

השערת האפס:

\[H_0: p = 0.2\]

השערת המחקר:

\[H_1: p > 0.2\]

איסוף הנתונים: נניח שמתוך מדגם של $n = 100$ חולים שקיבלו את הטיפול, $25$ החלימו, כלומר:

\[\bar{p} = \tfrac{\mathbf{25}}{100} = 0.25\] \[E(\bar{p}) = p_0 = 0.2\] \[Var(\bar{p}) = \frac{p_0(1-p_0)}{n} = \frac{0.2 \times 0.8}{100} = 0.0016 = 0.04^2\]

תחת השערת האפס

\[\bar{p} \sim \mathcal{N}(0.2, 0.04^2)\] \[Z = \frac{0.25 - 0.2}{\sqrt{\frac{0.2 \times 0.8}{100}}} = \frac{0.05}{0.04} = 1.25\]

חישוב ה-p-value: עבור השערה חד-צדדית:

\[p\text{-value} = P(\bar{p} \geq 0.25) = P(Z \geq 1.25) = 0.11\]

אפשר לחשב בפייתון:

from scipy.stats import norm
z_calc = 1.25
p_value = 1 - norm.cdf(z_calc)
print(f"P-value: {p_value:.4f}")

הפלט:

P-value: 0.1056

מסקנה: ברמת מובהקות של $\alpha = 0.05$, לא נדחה את השערת האפס. אין ראיות מובהקות סטטיסטית לכך שהטיפול החדש מעלה את אחוז ההחלמה.

דוגמה: שינוי בדפוסי טיפול

מנהל בית חולים מעוניין לבדוק האם ראש מחלקה חדש שינה את אחוז החולים המופנים לניתוח. בעבר, $60\%$ מהמאושפזים עברו ניתוח.

ניסוח ההשערות (בדיקה דו-צדדית):

\[H_0: p = 0.6\] \[H_1: p \neq 0.6\]

איסוף הנתונים: מתוך מדגם של $n = 400$ מאושפזים, $212$ עברו ניתוח, כלומר $\bar{p} = 0.53$.

חישוב סטטיסטי המבחן:

\[Z = \frac{0.53 - 0.6}{\sqrt{\frac{0.6 \times 0.4}{400}}} = \frac{-0.07}{\sqrt{0.0006}} = \frac{-0.07}{0.0245} = -2.86\]

חישוב ה-p-value: עבור השערה דו-צדדית:

\[p\text{-value} = 2 \times P(|Z| > 2.86) = 2 \times 0.002 = 0.004\]

מסקנה: ברמת מובהקות של $\alpha = 0.05$, נדחה את השערת האפס. אחוז המנותחים שונה באופן מובהק סטטיסטית תחת הנהלת ראש המחלקה החדש.

בעיית ההשערות המרובות ו-p-hacking

תופעת ה-p-hacking

אחת הבעיות החמורות במחקר המדעי המודרני היא תופעת ה-p-hacking. תופעה זו מתרחשת כאשר חוקרים מבצעים מניפולציות שונות בנתונים או בניתוח הסטטיסטי כדי להגיע לתוצאות מובהקות סטטיסטית.

ניתוח של התפלגות ערכי $Z$ במחקרים שפורסמו חושף דפוס מדאיג: ריכוז חריג של ערכים סביב $Z = 2$, שמתאים ל-$p\text{-value} \approx 0.05$. זהו סימן לכך שחוקרים רבים “משחקים” עם הנתונים עד להשגת מובהקות סטטיסטית.

המנגנון המתמטי של p-hacking

כאשר חוקר מבצע ניתוחים מרובים על אותם נתונים, ההסתברות למצוא לפחות תוצאה אחת מובהקת עולה באופן משמעותי. אם נבצע $m$ בדיקות בלתי תלויות ברמת מובהקות $\alpha$, ההסתברות לקבל לפחות תוצאה אחת מובהקת בטעות היא:

\[P(\text{At least one false rejection}) = 1 - (1-\alpha)^m\]

עבור $m = 20$ בדיקות ו-$\alpha = 0.05$:

\[P(\text{At least one false rejection}) = 1 - 0.95^{20} \approx 0.64\]

דוגמה: פול התמנון ובעיית ההשערות המרובות

המקרה של פול התמנון ממחיש היטב את בעיית ההשערות המרובות. פול “חזה” נכונה $12$ מתוך $14$ תוצאות משחקים במונדיאל 2010.

ניתוח סטטיסטי:

תחת השערת האפס שפול מנחש באקראי, מספר הניחושים הנכונים $X \sim \text{Binomial}(14, 0.5)$.

\[p\text{-value} = P(X \geq 12) = \sum_{k=12}^{14} \binom{14}{k} 0.5^{14} = 0.006\]

למרות המובהקות הסטטיסטית, הבעיה היא שפול לא היה החיה היחידה ש”חזתה” תוצאות. כאשר אלפי חיות ברחבי העולם “מנחשות” תוצאות, ההסתברות שלפחות אחת מהן תצליח במקרה היא גבוהה מאוד.

האנלוגיה לניבוי שוק ההון

נניח שאדם שולח למיליון אנשים תחזיות שונות לגבי שוק ההון. לחצי מהם הוא חוזה שמניה מסוימת תעלה, ולחצי השני - שתרד. הוא ממשיך בתהליך זה מספר פעמים. בסופו של דבר, כמה אנשים יקבלו סדרה של תחזיות נכונות ויחשבו שהוא גאון, למרות שהכול היה אקראי לחלוטין.

זוהי בדיוק אותה בעיה: כאשר בוחנים מספר רב של השערות, חלקן ייצאו מובהקות בטעות.

המלצות למחקר אמין

עקרונות למניעת p-hacking

  1. רישום מוקדם של השערות: לפני איסוף הנתונים, יש לרשום את כל ההשערות שייבדקו.

  2. תיקון להשערות מרובות: כאשר בודקים מספר השערות, יש להשתמש בשיטות תיקון כמו תיקון Bonferroni.

  3. שכפול מחקרים: תוצאה שהתקבלה פעם אחת דורשת אימות במחקרים נוספים.

  4. פרסום תוצאות שליליות: למחקרים שלא מצאו אפקט יש ערך מדעי חשוב, והם צריכים להיות חלק מהשיח המדעי.


בדיקת השערות עם שונות לא ידועה

המסגרת התיאורטית

כאשר השונות באוכלוסייה אינה ידועה, אנו צריכים לאמוד אותה מתוך המדגם. במקרה זה משתמשים בשונות המדגם:

\[S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2\]

החלוקה ב-$(n-1)$ במקום ב-$n$ נובעת מאיבוד דרגת חופש בחישוב הממוצע, מה שהופך את $S^2$ לאומד חסר הטיה של $\sigma^2$.

שני מקרים עיקריים

1. מדגם גדול (n > 30)

כאשר המדגם גדול מספיק, שונות המדגם נותנת קירוב טוב לשונות האוכלוסייה. במקרה זה:

\[Z = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} \sim \mathcal{N}(0,1)\]

ניתן להשתמש בהתפלגות הנורמלית הסטנדרטית לחישוב p-values.

2. מדגם קטן (n ≤ 30)

כאשר המדגם קטן והאוכלוסייה מתפלגת נורמלית, הסטטיסטי:

\[T = \frac{\bar{X} - \mu_0}{S/\sqrt{n}}\]

מתפלג לפי התפלגות t עם $(n-1)$ דרגות חופש: \(T \sim t_{n-1}\)

מבחן זה נקרא One Sample t-test.

התפלגות t

  • דומה להתפלגות הנורמלית הסטנדרטית אך עם זנבות כבדים יותר
  • ממורכזת סביב 0
  • כאשר דרגות החופש שואפות לאינסוף, התפלגות t שואפת להתפלגות נורמלית סטנדרטית

דוגמה מעשית

נתונים: באוכלוסייה הכללית, קצב הלב הממוצע הוא 70 פעימות לדקה. רוצים לבדוק האם לספורטאים קצב לב נמוך יותר.

מדגם: 15 ספורטאים עם ממוצע קצב לב $\bar{X} = 65$ וסטיית תקן $S = 8$.

השערות:

  • $H_0: \mu = 70$
  • $H_1: \mu < 70$

חישוב הסטטיסטי: \(T = \frac{65 - 70}{8/\sqrt{15}} = \frac{-5}{8/3.87} = \frac{-5}{2.07} = -2.42\)

p-value: עבור התפלגות t עם 14 דרגות חופש: \(p\text{-value} = P(T_{14} < -2.42) = 0.015\)

מסקנה: ברמת מובהקות 0.05, דוחים את $H_0$. לספורטאים קצב לב נמוך באופן מובהק מהאוכלוסייה הכללית.

הערות חשובות

  • במדגם קטן עם שונות לא ידועה, חובה להניח שהאוכלוסייה מתפלגת נורמלית
  • ככל שגודל המדגם גדל, ההבדל בין התפלגות t להתפלגות נורמלית קטן
  • במבחן תמיד יש לציין את מספר דרגות החופש

דור פסקל