מבוא לבדיקת השערות (חזרה)

בדיקת השערות סטטיסטיות מהווה את אחד הכלים המרכזיים בסטטיסטיקה היסקית. השיטה מאפשרת לנו לקבל החלטות מבוססות נתונים לגבי אוכלוסיות על סמך מדגמים, תוך כדי כימות רמת הוודאות בהחלטותינו.

מושג ה-P-value: הגדרה ומשמעות

הגדרה פורמלית

ה-P-value מוגדר כהסתברות לקבל את הערך הנצפה של הסטטיסטי הנבחן או ערך קיצוני ממנו, בהינתן שהשערת האפס נכונה. באופן מתמטי:

\[P\text{-value} = P(T \geq t_{obs} | H_0)\]

כאשר $T$ הוא הסטטיסטי, $t_{obs}$ הוא הערך הנצפה, ו-$H_0$ היא השערת האפס.

משמעות אינטואיטיבית

P-value נמוך מהווה ראיה נגד השערת האפס. כאשר אנו מקבלים P-value נמוך מאוד, אנו למעשה אומרים: “אם השערת האפס הייתה נכונה, הסיכוי לראות תוצאה קיצונית כמו זו שראינו (או יותר קיצונית) הוא נמוך מאוד”. זה מוביל אותנו לפקפק בנכונות השערת האפס.

קביעת כיוון הקיצוניות

כיוון הקיצוניות נקבע לפי ההשערה האלטרנטיבית. נזכיר ש-$\mu$ מייצג את תוחלת האוכלוסייה, ו-$\mu_0$ הוא ערך התוחלת תחת השערת האפס:

  • אם $H_1: \mu > \mu_0$ — ערכים קיצוניים הם ערכים גדולים מהערך שנצפה
  • אם $H_1: \mu < \mu_0$ — ערכים קיצוניים הם ערכים קטנים מהערך שנצפה
  • אם $H_1: \mu \neq \mu_0$ — ערכים קיצוניים הם ערכים ש-מרחקם מ-$\mu_0$ שווה או גדול מהמרחק של הערך שנצפה

רמת מובהקות וקבלת החלטות

הגדרת רמת המובהקות

רמת המובהקות, המסומנת ב-$\alpha$, היא הסף שאנו קובעים מראש לדחיית השערת האפס. זו ההסתברות המקסימלית שאנו מוכנים לקבל לטעות מסוג $\text{I}$ (דחיית השערת אפס נכונה).

במדעי החיים והרפואה, הערך המקובל הוא $\alpha = 0.05$. בתחומים הדורשים דיוק רב יותר (כגון פיזיקת חלקיקים), משתמשים בערכי $\alpha$ נמוכים בהרבה.

כללי החלטה

  • אם $P\text{-value} < \alpha$: דוחים את השערת האפס ברמת מובהקות $\alpha$
  • אם $P\text{-value} \geq \alpha$: לא דוחים את השערת האפס

חשוב להדגיש: אי-דחיית השערת האפס אינה מהווה “קבלה” של השערת האפס. אנו פשוט לא מצליחים להפריך אותה על סמך הנתונים הקיימים.

סיכום השלבים בבדיקת השערה

הערה: אני חושב שהייתה בשיעור חזרתיות מסוימת. ניסיתי לאחד את הדברים, ייתכן שחלק מהפרטים נשמטו. ככל הנראה השלבים הבאים הם ההליך מבחן Z למדגם אחד (One-Sample Z Test), שמופיע גם בהמשך בפירוט נפרד.

שלב 1: ניסוח המבחן במונחים של השערת אפס והשערה אלטרנטיבית

נניח $H_0: \mu = \mu_0$ כאשר $\mu_0$ הוא הערך הידוע או המצופה.

  • השערת האפס ($H_0$): מייצגת את המצב הדיפולטי, “אין שינוי” או “אין הבדל”
  • ההשערה האלטרנטיבית ($H_1$): מייצגת את מה שאנו מעוניינים להוכיח

שלב 2: קביעת רמת מובהקות מראש

קביעת α (בדרך כלל 0.05) לפני איסוף הנתונים.

יש לקבוע את $\alpha$ לפני איסוף הנתונים. זוהי פרקטיקה חיונית למניעת הטיית תוצאות.

שלב 3: חישוב ממוצע המדגם (או סטטיסטי אחר)

חישוב ממוצע המדגם (או סטטיסטי אחר) ותקנונו. במדגם גדול, ממוצע המדגם מתפלג:

\[\bar{X} \sim \mathcal{N}\left(\mu_0, \frac{\sigma^2}{n}\right)\]

שלב 4: חישוב P-value

נחשב זאת באמצעות פייתון (או בכל דרך אחרת), בעזרת הצבת סטיית התקן המתוקננת.

\[Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}}\]

חישוב ההסתברות לקבל ערך קיצוני כמו הערך שנצפה או יותר, תחת השערת האפס.

  • אם $H_1: \mu > \mu_0$: $\text{P-value} = P(Z > z_{obs})$
  • אם $H_1: \mu < \mu_0$: $\text{P-value} = P(Z < z_{obs})$
  • אם $H_1: \mu \neq \mu_0$: $\text{P-value} = 2 \cdot P(Z > \vert z_{obs}\vert)$

שלב 5: החלטה האם השערת האפס נדחית

השוואת ה-P-value לרמת המובהקות וקבלת החלטה האם לדחות את השערת האפס.

מבחן Z למדגם יחיד

תנאי יישום המבחן

מבחן Z למדגם יחיד מתאים כאשר:

  1. גודל המדגם גדול ($n \geq 30$), מה שמבטיח תחולת משפט הגבול המרכזי
  2. סטיית התקן באוכלוסייה ($\sigma$) ידועה

מבנה המבחן

נניח שיש לנו מדגם בגודל $n$ מאוכלוסייה עם תוחלת לא ידועה $\mu$ וסטיית תקן ידועה $\sigma$. ממוצע המדגם הוא $\bar{X}$.

תחת השערת האפס $H_0: \mu = \mu_0$, ממוצע המדגם מתפלג נורמלית:

\[\bar{X} \sim \mathcal{N}\left(\mu_0, \frac{\sigma^2}{n}\right)\]

הסטטיסטי המתוקנן:

\[Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}}\]

מתפלג התפלגות נורמלית תקנית תחת $H_0$.

דוגמה מפורטת: בדיקת רמות LDL במעשנים

הגדרת הבעיה

נתון כי רמת ה-LDL הממוצעת באוכלוסייה הכללית היא 120 מ”ג/ד”ל עם סטיית תקן של 80 מ”ג/ד”ל. במדגם של 64 מעשנים נמצא ממוצע LDL של 130 מ”ג/ד”ל. האם רמת ה-LDL במעשנים גבוהה באופן מובהק מהרמה באוכלוסייה הכללית?

ניסוח ההשערות

\[H_0: \mu = 120\] \[H_1: \mu > 120\]

כאשר $\mu$ מייצג את תוחלת רמת ה-LDL באוכלוסיית המעשנים.

קביעת רמת המובהקות

נקבע $\alpha = 0.05$ (הערך הסטנדרטי במחקר ביו-רפואי).

חישוב הסטטיסטי

תחת השערת האפס, ממוצע המדגם מתפלג נורמלית:

\[\bar{X} \sim \mathcal{N}\left(120, \frac{80^2}{64}\right) = \mathcal{N}(120, 100)\]

כלומר, סטיית התקן של ממוצע המדגם היא:

\[\text{std}(\bar{X}) = \sigma_{\bar{X}} = \frac{80}{\sqrt{64}} = \frac{80}{8} = 10\]

ציון התקן:

\[Z = \frac{130 - 120}{10} = 1\]

חישוב P-value

\[P\text{-value} = P(Z \geq 1) = 1 - \Phi(1) \approx 0.16\]

כאשר $\Phi$ היא פונקציית ההתפלגות המצטברת של ההתפלגות הנורמלית התקנית.

מסקנה

מכיוון ש-$P\text{-value} = 0.16 > 0.05 = \alpha$, איננו דוחים את השערת האפס. אין ראיות מספיקות לטעון שרמת ה-LDL במעשנים גבוהה באופן מובהק מהרמה באוכלוסייה הכללית.

השפעת גודל המדגם על עוצמת המבחן

ניתוח תאורטי

כאשר גודל המדגם גדל, סטיית התקן של ממוצע המדגם קטנה:

\[\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\]

זה מוביל לכך שאותו הפרש בין ממוצע המדגם לערך תחת השערת האפס מתבטא במספר גדול יותר של סטיות תקן, מה שמגדיל את ציון התקן ומקטין את ה-P-value.

דוגמה מספרית

נניח שבמקום 64 מעשנים, דגמנו 256 מעשנים וקיבלנו אותו ממוצע של 130 מ”ג/ד”ל.

סטיית התקן של ממוצע המדגם:

\[\sigma_{\bar{X}} = \frac{80}{\sqrt{256}} = \frac{80}{16} = 5\]

ציון התקן:

\[Z = \frac{130 - 120}{5} = 2\]

P-value:

\[P\text{-value} = P(Z \geq 2) \approx 0.023\]

כעת $P\text{-value} = 0.023 < 0.05 = \alpha$, ולכן דוחים את השערת האפס.

מסקנה חשובה

אותו גודל אפקט (הפרש של 10 מ”ג/ד”ל) יכול להיות לא מובהק במדגם קטן אך מובהק במדגם גדול. זה ממחיש את החשיבות של תכנון גודל מדגם מתאים למחקר.

סוגי טעויות בבדיקת השערות

טעות מסוג $\text{I}$ (Type I Error)

טעות מסוג $\text{I}$ מתרחשת כאשר דוחים את השערת האפס בעוד שהיא למעשה נכונה. בטרמינולוגיה הרפואית, זוהי תוצאה חיובית כוזבת (False Positive).

ההסתברות לטעות מסוג $\text{I}$ מסומנת ב-α ושווה בדיוק לרמת המובהקות שנקבעה מראש:

\[P(\text{Reject } H_0 | H_0 \text{ is true}) = \alpha\]

טעות מסוג $\text{II}$ (Type II Error)

טעות מסוג $\text{II}$ מתרחשת כאשר לא דוחים את השערת האפס בעוד שהיא למעשה שגויה. בטרמינולוגיה הרפואית, זוהי תוצאה שלילית כוזבת (False Negative).

ההסתברות לטעות מסוג $\text{II}$ מסומנת ב-β:

\[P(\text{Fail to reject } H_0 | H_1 \text{ is true}) = \beta\]

טבלת סיכום הטעויות

ניתן לסכם את כל האפשרויות בטבלה הבאה:

המציאות החלטה: דחיית $H_0$ החלטה: אי-דחיית $H_0$
$H_0$ נכונה טעות מסוג $\text{I}$ (α) החלטה נכונה (1-α)
$H_1$ נכונה החלטה נכונה (1-β) טעות מסוג $\text{II}$ (β)

הערך (1-β) נקרא עוצמת המבחן (Power) ומייצג את ההסתברות לזהות אפקט אמיתי כאשר הוא קיים.

הגורמים המשפיעים על עוצמת המבחן

ניתוח הסטטיסטי המתוקנן

הסטטיסטי המתוקנן במבחן Z מוגדר כך:

\[Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}}\]

כדי להגדיל את הסיכוי לדחות השערת אפס שגויה (כלומר, להגדיל את עוצמת המבחן), אנו רוצים שערכו המוחלט של Z יהיה גדול. ישנן שלוש דרכים להשיג זאת:

1. הגדלת גודל האפקט

גודל האפקט מוגדר כהפרש בין הממוצע האמיתי באוכלוסייה לערך תחת השערת האפס:

\[\text{Effect size} = |\mu - \mu_0|\]

ככל שגודל האפקט גדול יותר, כך קל יותר לזהותו סטטיסטית. לדוגמה, אם רמת ה-LDL במעשנים היא 200 מ”ג/ד”ל במקום 130, האפקט של 80 יחידות יהיה קל מאוד לזיהוי.

2. הקטנת השונות באוכלוסייה

השונות באוכלוסייה (σ²) משפיעה ישירות על סטיית התקן של ממוצע המדגם. ככל שהשונות קטנה יותר, כך ההתפלגות של ממוצע המדגם מרוכזת יותר סביב התוחלת, מה שמקל על זיהוי סטיות מהערך הצפוי.

בפועל, ניתן להקטין שונות על ידי:

  • תכנון ניסוי מבוקר היטב
  • בחירת אוכלוסיית מחקר הומוגנית
  • שימוש בשיטות מדידה מדויקות

3. הגדלת גודל המדגם

השפעת גודל המדגם על עוצמת המבחן היא דרמטית. סטיית התקן של ממוצע המדגם קטנה ביחס ל-√n:

\[\sigma_{\bar{X}} = \frac{\sigma}{\sqrt{n}}\]

לדוגמה:

  • עבור n = 100: סטיית התקן מוקטנת פי 10
  • עבור n = 10,000: סטיית התקן מוקטנת פי 100

דוגמה מעשית: השוואת גדלי מדגם שונים

נחזור לדוגמת ה-LDL ונבחן את ההשפעה של גודל המדגם:

מדגם קטן (n = 64)

  • סטיית תקן של ממוצע המדגם: $\sigma_{\bar{X}} = \frac{80}{8} = 10$
  • ציון תקן: $Z = \frac{130-120}{10} = 1$
  • P-value ≈ 0.16
  • מסקנה: לא דוחים את $H_0$

מדגם גדול (n = 256)

  • סטיית תקן של ממוצע המדגם: $\sigma_{\bar{X}} = \frac{80}{16} = 5$
  • ציון תקן: $Z = \frac{130-120}{5} = 2$
  • P-value ≈ 0.023
  • מסקנה: דוחים את $H_0$

אותו הפרש של 10 מ”ג/ד”ל מתגלה כמובהק במדגם הגדול אך לא במדגם הקטן.

חשיבות קביעת רמת המובהקות מראש

העיקרון הבסיסי

רמת המובהקות (α) חייבת להיקבע לפני איסוף הנתונים וביצוע הניתוח. זהו עיקרון מתודולוגי קריטי שמונע מניפולציה של תוצאות.

הבעייתיות ב”דיג נתונים”

קביעת רמת המובהקות לאחר חישוב ה-P-value (למשל, קביעת α = 0.06 כאשר התקבל P-value = 0.055) מהווה הטיה חמורה ופוגעת בתקפות המסקנות הסטטיסטיות.

המשמעות המעשית של תוצאות סטטיסטיות

הבחנה בין מובהקות סטטיסטית למובהקות קלינית

מובהקות סטטיסטית אינה מעידה בהכרח על חשיבות מעשית. הפרש של 10 מ”ג/ד”ל ברמת LDL עשוי להיות מובהק סטטיסטית במדגם גדול, אך השאלה הקלינית היא האם הפרש זה משמעותי מבחינה רפואית.

תכנון גודל מדגם

בתכנון מחקר, יש לקחת בחשבון:

  1. גודל האפקט המינימלי בעל משמעות מעשית
  2. השונות הצפויה באוכלוסייה
  3. רמת המובהקות הרצויה (α)
  4. העוצמה הרצויה (1-β)

נוסחאות לחישוב גודל מדגם נדרש יוצגו בפרקים מתקדמים יותר.

הגורמים המשפיעים על יכולת זיהוי אפקטים

הבנת המנגנון הסטטיסטי

כדי להבין לעומק כיצד ניתן לשפר את יכולתנו לזהות הבדלים אמיתיים באוכלוסייה, נחזור לנוסחת הסטטיסטי המתוקנן:

\[Z = \frac{\bar{X} - \mu_0}{\sigma/\sqrt{n}}\]

ערכו המוחלט של סטטיסטי זה קובע את עוצמת הראיות נגד השערת האפס. ככל שערך זה גדול יותר, כך סביר יותר שנדחה השערת אפס שגויה.

שלושת המרכיבים המרכזיים

1. גודל האפקט הממשי

גודל האפקט מתבטא במונה של הסטטיסטי - ההפרש $\vert \bar{X} - \mu_0 \vert$. זהו הגורם היחיד שאיננו יכולים לשלוט בו ישירות, שכן הוא משקף את המציאות הביולוגית או הרפואית שאנו חוקרים.

משמעות מעשית: אם ההבדל האמיתי בין אוכלוסיות הוא זעיר, נזדקק למאמץ רב יותר (מדגם גדול או שונות קטנה) כדי לזהותו. לעומת זאת, אפקטים דרמטיים (כגון הבדל של 100 מ”ג/ד”ל ברמת קולסטרול) יהיו קלים לזיהוי גם במדגמים קטנים יחסית.

2. השונות באוכלוסייה

השונות $\sigma^2$ משפיעה באופן הפוך על יכולתנו לזהות הבדלים. שונות גבוהה “מטשטשת” את האפקט האמיתי ומקשה על זיהויו.

אסטרטגיות להקטנת שונות:

  • ריבוד האוכלוסייה: חלוקה לתת-קבוצות הומוגניות (לדוגמה, ניתוח נפרד לגברים ונשים)
  • בקרת משתנים מתערבים: שמירה על תנאי ניסוי אחידים
  • שיפור דיוק המדידה: שימוש במכשירי מדידה מדויקים יותר

דוגמה מעשית: נניח שאנו בוחנים השפעת תרופה על לחץ דם. אם נכלול במדגם אנשים בגילאי 20-80, השונות תהיה עצומה. אם נצמצם לטווח גילאים 40-50, השונות תקטן משמעותית.

3. גודל המדגם

השפעת גודל המדגם על דיוק האומדן היא דרמטית אך מתונה על ידי פונקציית השורש:

\[\text{Reduction of standard deviation} = \frac{1}{\sqrt{n}}\]

השלכות מעשיות:

  • הכפלת גודל המדגם מקטינה את סטיית התקן רק פי $\sqrt{2} \approx 1.41$
  • כדי להקטין את סטיית התקן פי 2, יש להגדיל את המדגם פי 4
  • כדי להקטין את סטיית התקן פי 10, יש להגדיל את המדגם פי 100

זוהי הסיבה שמחקרים קליניים גדולים דורשים משאבים כה רבים - השיפור בדיוק גדל באופן תת-ליניארי עם גודל המדגם.


מבחנים דו-צדדיים: כאשר הכיוון אינו ידוע

הרציונל למבחן דו-צדדי

במקרים רבים במחקר הביו-רפואי, איננו יודעים מראש את כיוון ההשפעה הצפויה. דוגמאות קלאסיות:

  1. בדיקת איכות תרופות: ריכוז חומר פעיל גבוה מדי מסוכן (רעילות), ונמוך מדי אינו יעיל
  2. השפעות לא ידועות: תרופה חדשה עשויה להעלות או להוריד ערך ביוכימי מסוים
  3. מחקר גישוש: כאשר אין לנו השערה מוקדמת לגבי כיוון ההשפעה

המבנה המתמטי של מבחן דו-צדדי

בהשערה דו-צדדית, אנו בודקים:

\[H_0: \mu = \mu_0\] \[H_1: \mu \neq \mu_0\]

הגדרת “קיצוניות” כוללת כעת שני כיוונים. עבור ערך נצפה $\bar{x}$, ערכים קיצוניים הם:

  • כל ערך $\geq \bar{x}$ (אם $\bar{x} > \mu_0$)
  • כל ערך $\leq 2\mu_0 - \bar{x}$ (הערך הסימטרי בצד השני)

חישוב P-value במבחן דו-צדדי

תהליך החישוב כולל שלושה שלבים:

שלב 1: חישוב הסטייה מהערך הצפוי

\[\text{סטייה} = |\bar{x} - \mu_0|\]

שלב 2: חישוב ההסתברות בכל זנב

\[P_{\text{one tail}} = P(|\bar{X} - \mu_0| \geq |\bar{x} - \mu_0|)\]

שלב 3: הכפלה לקבלת P-value הכולל

\[\text{P-value} = 2 \times P_{\text{one tail}}\]

עבור התפלגות נורמלית תקנית:

\[\text{P-value} = 2 \times P(Z > |z|) = 2 \times [1 - \Phi(|z|)]\]

דוגמה מפורטת: בקרת איכות של תרופות

הגדרת הבעיה

יצרן תרופות בודק תבליות שאמורות להכיל 100 מ”ג חומר פעיל. סטיית התקן הידועה בתהליך הייצור היא 5 מ”ג. במדגם של 50 תבליות נמצא ממוצע של 102 מ”ג.

ניסוח ההשערות

מכיוון שסטייה בכל כיוון מהווה בעיה (מינון יתר או חסר), נשתמש במבחן דו-צדדי:

\[H_0: \mu = 100\] \[H_1: \mu \neq 100\]

חישוב הסטטיסטי

סטיית התקן של ממוצע המדגם:

\[\sigma_{\bar{X}} = \frac{5}{\sqrt{50}} = \frac{5}{7.07} \approx 0.71\]

ציון התקן:

\[Z = \frac{102 - 100}{0.71} = 2.83\]

חישוב P-value

ההסתברות בזנב העליון:

\[P(Z > 2.83) \approx 0.0023\]

בשל הסימטריה של ההתפלגות הנורמלית:

\[P(Z < -2.83) \approx 0.0023\]

לכן:

\[\text{P-value} = 2 \times 0.0023 = 0.0046\]

מסקנה

מכיוון ש-$\text{P-value} = 0.0046 < 0.05 = \alpha$, דוחים את השערת האפס. קיימת ראיה מובהקת שתהליך הייצור אינו מכויל כראוי.

השוואה בין מבחנים חד-צדדיים ודו-צדדיים

המחיר של אי-ודאות כיוונית

כאשר אנו עוברים ממבחן חד-צדדי לדו-צדדי, ה-P-value מוכפל. זהו “המחיר” שאנו משלמים על אי-הוודאות לגבי כיוון האפקט.

דוגמה להמחשה:

נניח שקיבלנו $Z = 1.76$ במבחן כלשהו.

במבחן חד-צדדי:

\[\text{P-value} = P(Z > 1.76) \approx 0.039\]

מכיוון ש-$0.039 < 0.05$, נדחה את $H_0$.

במבחן דו-צדדי:

\[\text{P-value} = 2 \times 0.039 = 0.078\]

מכיוון ש-$0.078 > 0.05$, לא נדחה את $H_0$.

אותם נתונים מובילים להחלטות שונות בהתאם לאופי ההשערה.

הנחיות לבחירת סוג המבחן

השתמש במבחן חד-צדדי כאשר:

  • יש בסיס תיאורטי חזק לכיוון מסוים
  • אפקט בכיוון ההפוך אינו סביר או חסר משמעות
  • קיים מידע מוקדם התומך בכיוון ספציפי

השתמש במבחן דו-צדדי כאשר:

  • אין השערה מוקדמת לגבי הכיוון
  • שני הכיוונים אפשריים ובעלי משמעות
  • מדובר במחקר גישוש ראשוני

החשיבות של קביעה מראש

כמו רמת המובהקות, גם סוג המבחן (חד או דו-צדדי) חייב להיקבע לפני איסוף הנתונים. שינוי סוג המבחן לאחר ראיית התוצאות (“אני רואה שהאפקט חיובי, אז אעבור למבחן חד-צדדי”) מהווה מניפולציה סטטיסטית חמורה.

סיכום: אינטגרציה של המושגים

התמונה המלאה של בדיקת השערות כוללת הבנה עמוקה של הקשרים בין:

  • גודל האפקט הממשי באוכלוסייה
  • השונות הטבעית בנתונים
  • גודל המדגם שברשותנו
  • סוג המבחן (חד או דו-צדדי)
  • רמת המובהקות שנקבעה

כל אחד מגורמים אלה משפיע על יכולתנו להגיע למסקנות מבוססות. הבנת האינטראקציות ביניהם חיונית לתכנון מחקרים יעילים ולפרשנות נכונה של תוצאות סטטיסטיות.

בפרקים הבאים נרחיב את הדיון למצבים מציאותיים יותר, כגון מקרים בהם השונות אינה ידועה, ונלמד על מבחנים מזווגים המאפשרים הקטנת שונות באמצעות תכנון ניסוי חכם.

דור פסקל

חזרה לעמוד הראשי