מבחני השערות למדגמים מזווגים (matched): תיאוריה, יישום ובחירת המבחן הסטטיסטי

1: הרציונל התיאורטי של מדגמים מזווגים

1.1 מבוא והגדרות יסוד

בסטטיסטיקה ההסקתית, לעיתים קרובות אנחנו מבקשים להשוות בין שתי אוכלוסיות או לבחון השפעה של טיפול. הגישה הקלאסית מניחה שהמדגמים שנלקחים משתי האוכלוסיות בלתי תלויים זה מזה. אולם במציאות המחקרית, קיימים מצבים רבים שבהם ההנחה הזאת לא מתקיימת ולמעשה, אנחנו יכולים לנצל את התלות בין התצפיות לטובתנו.

מדגם מזווג (paired sample) מוגדר כמדגם שבו לכל תצפית מהקבוצה הראשונה קיימת תצפית מתאימה וייחודית לה בקבוצה השנייה, כאשר הזיווג נובע מקשר טבעי או מתוכנן בין התצפיות. הדוגמאות הקלאסיות כוללות:

  • מדידות חוזרות: מדידת אותו נבדק לפני ואחרי טיפול
  • זיווג טבעי: תאומים זהים, בני זוג, אחים במשפחה
  • זיווג מתוכנן: התאמת נבדקים על פי מאפיינים דומים (גיל, מין, חומרת מחלה)

1.2 היסוד המתמטי של יתרון המדגם המזווג

כדי להבין את העוצמה של מדגמים מזווגים, נבחן את המודל הסטטיסטי הבסיסי. נניח שיש לנו שני משתנים מקריים $X^{(1)}$ ו-$X^{(2)}$ המייצגים מדידות לפני ואחרי טיפול. במודל הכללי, נוכל לכתוב:

\[X_i^{(1)} = \mu_1 + \alpha_i + \epsilon_i^{(1)}\] \[X_i^{(2)} = \mu_2 + \alpha_i + \epsilon_i^{(2)}\]

כאשר:

  • $\mu_1, \mu_2$ הן התוחלות הכלליות לפני ואחרי הטיפול
  • $\alpha_i$ מייצג את האפקט הקבוע של הנבדק ה-$i$ (הבדלים אינדיבידואליים)
  • $\epsilon_i^{(1)}, \epsilon_i^{(2)}$ הן שגיאות מקריות בלתי תלויות

כאשר אנו מחשבים את ההפרש $D_i = X_i^{(1)} - X_i^{(2)}$, נקבל:

\[D_i = (\mu_1 - \mu_2) + (\epsilon_i^{(1)} - \epsilon_i^{(2)})\]

שימו לב שהרכיב $\alpha_i$ התבטל לחלוטין! זה הכוח של המדגם המזווג - כל ההבדלים האינדיבידואליים הקבועים בין הנבדקים מתבטלים, ואנו נותרים רק עם ההבדל האמיתי בין הטיפולים ושגיאה מקרית מופחתת.

1.3 אנלוגיה פיזיקלית להמחשה

נבחן אנלוגיה פשוטה אך מאירת עיניים: מדידת כמות המים בכוס. נניח שברצוננו למדוד את נפח המים שנשפכו מכוס. שתי גישות אפשריות:

גישה א’ (מדגמים בלתי תלויים):

  • נשקול כוס אחת עם מים
  • נשקול כוס אחרת ריקה
  • נחשב את ההפרש

גישה ב’ (מדגם מזווג):

  • נשקול את אותה כוס עם מים
  • נשפוך את המים
  • נשקול את הכוס הריקה
  • נחשב את ההפרש

בגישה הראשונה, ההפרש כולל גם את ההבדל במשקל בין שתי הכוסות השונות. בגישה השנייה, משקל הכוס מתבטל בחישוב ההפרש, ואנו מקבלים מדידה מדויקת של משקל המים בלבד.

2: הפיתוח הסטטיסטי של מבחן t למדגמים מזווגים

2.1 הגדרות פורמליות וסימונים

נגדיר באופן פורמלי את המסגרת הסטטיסטית. יהיו לנו $n$ זוגות של תצפיות:

\[(X_1^{(1)}, X_1^{(2)}), (X_2^{(1)}, X_2^{(2)}), ..., (X_n^{(1)}, X_n^{(2)})\]

עבור כל זוג $i$, נגדיר את ההפרש:

\[D_i = X_i^{(1)} - X_i^{(2)}\]

המדגם $D_1, D_2, …, D_n$ מהווה מדגם מקרי פשוט מהתפלגות ההפרשים באוכלוסייה, עם תוחלת $\mu_D$ ושונות $\sigma_D^2$.

2.2 ניסוח השערות המחקר

השערת האפס במבחן מדגמים מזווגים טוענת שאין הבדל בין שתי האוכלוסיות:

\[H_0: \mu_1 = \mu_2 \Leftrightarrow \mu_D = 0\]

ההשערה האלטרנטיבית יכולה ללבוש אחת משלוש צורות:

  • מבחן חד-צדדי ימני: $H_1: \mu_D > 0$ (הטיפול מפחית את הערך הנמדד)
  • מבחן חד-צדדי שמאלי: $H_1: \mu_D < 0$ (הטיפול מגדיל את הערך הנמדד)
  • מבחן דו-צדדי: $H_1: \mu_D \neq 0$ (קיים הבדל כלשהו)

בשקפים מההרצאה הופיע רק המבחן הראשון (חד צדדי ימני)

2.3 פיתוח הסטטיסטי

תחת ההנחה שההפרשים $D_i$ מתפלגים נורמלית, או כאשר $n$ גדול מספיק להפעלת משפט הגבול המרכזי, הסטטיסטי:

\[T = \frac{\bar{D} - \mu_{D,0}}{S_D/\sqrt{n}}\]

כאשר:

\[\bar{D} = \frac{1}{n}\sum_{i=1}^{n} D_i\] \[S_D^2 = \frac{1}{n-1}\sum_{i=1}^{n}(D_i - \bar{D})^2\]

ותחת $H_0$: $\mu_{D,0} = 0$.

הסטטיסטי $T$ מתפלג התפלגות $t$ עם $n-1$ דרגות חופש תחת השערת האפס.

2.4 הנחות המבחן

המבחן מסתמך על ההנחות הבאות:

  1. זיווג משמעותי: הזיווג בין התצפיות אכן משקף קשר רלוונטי
  2. מדגם מקרי: ההפרשים $D_i$ מהווים מדגם מקרי
  3. נורמליות או מדגם גדול:
    • אם $n < 30$: ההפרשים מתפלגים נורמלית באוכלוסייה
    • אם $n \geq 30$: משפט הגבול המרכזי מבטיח קירוב נורמלי לממוצע

3: דוגמה - השפעת דיאטה על הפחתת משקל

3.1 תיאור הניסוי

נבחן מחקר להערכת היעילות של דיאטה חדשה. נמדד משקל של 7 נבדקים לפני ואחרי 12 שבועות של דיאטה:

נבדק משקל התחלתי (ק”ג) משקל סופי (ק”ג) ירידה במשקל
$1$ $95 $ $84$ $11$
$2$ $88 $ $89$ $-1$
$3$ $101$ $95$ $ 6$
$4$ $84 $ $79$ $ 5$
$5$ $91 $ $90$ $ 1$
$6$ $89 $ $92$ $-3$
$7$ $82 $ $80$ $ 2$

3.2 ניתוח סטטיסטי מלא

שלב 1: ניסוח השערות

  • $H_0: \mu_D = 0$ (הדיאטה אינה משפיעה על המשקל)
  • $H_1: \mu_D > 0$ (הדיאטה גורמת לירידה במשקל)

שלב 2: חישוב סטטיסטיקה תיאורית

ההפרשים:

\[D = [11, -1, 6, 5, 1, -3, 2]\]

חישוב ממוצע ההפרשים:

\[\bar{D} = \frac{11 + (-1) + 6 + 5 + 1 - 3 + 2}{7} = \frac{21}{7} = \boxed{3 \, \mathrm{kg}}\]

חישוב השונות נעשה לפי הנוסחה:

\[\mathrm{Var}(\bar{D}) = \frac{\mathrm{Var}(D)}{n} = \boxed{\frac{\sigma^2_D}{n}}\]

הבעיה - אין לנו מידע על $\sigma^2_D$ (השונות של ההפרשים) ולכן לא נוכל לחשב את סטיית התקן של ממוצע ההפרשים $\bar{D}$.

הפתרון: כמו בבדיקת השערות באוכלוססיה אחת עם שונות לא ידועות - נאמוד את השונות מתוך המדגם.

נניח שהמשקלים מתפלגים נורמאלית ולכן תחת השערת האפס:

\[\bar{D} \sim \mathcal{N}(0, \frac{\sigma^2_D}{n})\]

חישוב סטיית התקן של ההפרשים:

\[S_D^2 = \frac{1}{n} \sum_{i=1}^{n} (D_i - \bar{D})^2\]

חישוב השונות של ההפרשים:

\[\begin{aligned} S_D^2 &= \frac{1}{7} \left( (11 - 3)^2 + (-1 - 3)^2 + (6 - 3)^2 + (5 - 3)^2 + (1 - 3)^2 + (-3 - 3)^2 + (2 - 3)^2 \right) \\[10pt] &= \frac{1}{7} \left( 64 + 16 + 9 + 4 + 4 + 36 + 1 \right) \\[10pt] &= \frac{134}{7} = \boxed{19.14 \mathrm{kg^2}} \end{aligned}\]

סטיית התקן:

\[S_D = \sqrt{19.14} = \boxed{4.37 \, \mathrm{kg}}\]

הערה: לא לגמרי ברור לי למה לחלק ב-7, האם הכוונה היא לחלק ב-$n-1$? אם כן, אז:

\[S_D^2 = \frac{1}{6} \left( 64 + 16 + 9 + 4 + 4 + 36 + 1 \right) = \frac{134}{6} = 22.33\] \[\implies S_D = \sqrt{22.33} = 4.73 \, \mathrm{kg}\]

אולי הנחת האפס.

שלב 3: חישוב הסטטיסטי

\[T = \frac{3.14 - 0}{4.41/\sqrt{7}} = \frac{3.14}{1.67} = 1.88\]

שלב 4: קבלת החלטה

עבור $\alpha = 0.05$, מבחן חד-צדדי, ו-6 דרגות חופש, הערך הקריטי הוא $t_{0.05,6} = 1.943$. זה מתקבל מפייתון:

from scipy.stats import t

print(t.ppf(0.95, 6)) # 1.9431802803927816

אתם יכולים להריץ את הקוד בסביבת הפייתון המקוונת שלנו, כאן.

מכיוון ש-$T = 1.88 < 1.943$, איננו דוחים את $H_0$.

ה-p-value המדויק הוא 0.054, המאשש שהתוצאה קרובה למובהקות אך אינה עוברת את הסף.

אפשר גם לחשב את ה-p-value בעזרת פייתון:

from scipy.stats import t

print(t.sf(1.88, 6)) # 0.05457750913830824

3.3 פרשנות התוצאות

למרות שנצפתה ירידה ממוצעת של 3 ק”ג, השונות הגבוהה בין הנבדקים (נבדק 2 אף עלה במשקל) והמדגם הקטן לא מאפשרים לנו להסיק באופן מובהק שהדיאטה יעילה. ייתכן שמדגם גדול יותר היה מוביל לתוצאה מובהקת.

4: השוואה מעמיקה בין מדגמים מזווגים לבלתי תלויים

4.1 מחקר השוואתי: הבדלי IQ במשפחות

נבחן מחקר היפותטי הבוחן הבדלי IQ בין בנים לבנות.

נסמם:

  • $\mu_1$ - תוחלת IQ של הבנים
  • $\mu_2$ - תוחלת IQ של הבנות

השערת האפס:

\[H_0: \mu_1 = \mu_2 \Leftrightarrow \mu_D = 0\]

השערת המחקר:

\[H_1: \mu_1 \neq \mu_2 \Leftrightarrow \mu_D \neq 0\]
משפחה IQ הפרש
1 $ 3 $
12 $ -3$
3 $ -2$
4 $ 0 $
5 $ -5$
6 $ 1 $
7 $ -4$
8 $ 3 $
9 $ -2$
10 $ -1$
11 $ -6$
12 $ -2$
13 $ 0 $
14 $ 1 $
15 $ -2$
16 $ -4$
17 $ 0 $
18 $ 3 $
19 $ -7$
20 $ -2$
21 $ 2 $
22 $ 0 $
23 $ 1 $
24 $ -3$
25 $ -5$

החוקרת יכולה לבחור בין שני תכנוני מחקר:

תכנון A - מדגם מזווג:

דגימת 25 משפחות, מדידת IQ של זוג אחים (בן ובת) מכל משפחה.

תכנון B - מדגמים בלתי תלויים:

דגימת 25 בנים ו-25 בנות באופן אקראי מהאוכלוסייה.

4.2 ניתוח תיאורטי של השונות

במדגם מזווג, שונות ההפרשים היא:

\[\begin{aligned} \text{Var}(D) &= \text{Var}(X_{\text{boy}} - X_{\text{girl}}) \\[5pt] &= \sigma^2_{\text{boy}} + \sigma^2_{\text{girl}} - 2\rho\sigma_{\text{boy}}\sigma_{\text{girl}} \end{aligned}\]

כאשר $\rho$ הוא מקדם המתאם בין IQ של אחים. מכיוון שאחים חולקים גנטיקה וסביבה, $\rho > 0$, ולכן שונות ההפרשים קטנה משמעותית מסכום השונויות.

במדגמים בלתי תלויים:

\[\text{Var}(\bar{X}_{\text{boy}} - \bar{X}_{\text{girl}}) = \frac{\sigma^2_{\text{boy}}}{n} + \frac{\sigma^2_{\text{girl}}}{n}\]

4.3 השוואה מספרית

נניח:

  • הפרש ממוצע שנמצא: 1.36 נקודות IQ

    \[{\bar{D} = -1.36}\]
  • סטיית תקן של IQ באוכלוסייה:

    \[\sigma = 15\]
  • במדגם המזווג: $S_D = 2.78$ (בזכות המתאם החיובי)

    \[\boxed{S_D = 2.78}\]

תוצאות במדגם מזווג:

\[T = \frac{-1.36}{2.78/\sqrt{25}} = \frac{-1.36}{0.556} = \boxed{-2.44}\]

עבור מבחן דו-צדדי עם 24 דרגות חופש:

from scipy.stats import t

print(t.sf(abs(-2.44), 24) * 2)  # p-value
# Output: 0.022448054470403933
  • p-value = 0.022
  • מסקנה: דוחים את $H_0$ - קיים הבדל מובהק

תוצאות במדגמים בלתי תלויים:

\[Z = \frac{-1.36}{\sqrt{\frac{15^2}{25} + \frac{15^2}{25}}} = \frac{-1.36}{4.24} = -0.32\]

עבור מבחן דו-צדדי:

from scipy.stats import norm

print(norm.sf(abs(-0.32)) * 2)  # p-value
# Output: 0.7489683305533599
  • p-value = 0.75
  • מסקנה: לא דוחים את $H_0$ - אין הבדל מובהק

4.4 תובנות מההשוואה

ההשוואה ממחישה שלוש נקודות קריטיות:

  1. הפחתת שונות: המדגם המזווג הפחית את השונות פי 5.4 (מ-15 ל-2.78)
  2. הגדלת עוצמה: אותו הפרש הוביל לדחיית $H_0$ במדגם מזווג אך לא בבלתי תלוי
  3. יעילות המחקר: 25 משפחות נתנו עוצמה סטטיסטית גבוהה מ-50 נבדקים בלתי תלויים

5: מדריך מקיף לבחירת המבחן הסטטיסטי המתאים

5.1 המשתנים הקובעים

בחירת המבחן הסטטיסטי המתאים תלויה בחמישה משתנים מרכזיים:

  1. סוג התכונה הנמדדת

    • רציפה: ערכים על סקאלה רציפה (משקל, גובה, טמפרטורה)
    • פרופורציה: שיעור או אחוז (שיעור הצלחה, אחוז חולים)
  2. מספר האוכלוסיות

    • אוכלוסייה אחת: השוואה לערך תיאורטי ידוע
    • שתי אוכלוסיות: השוואה בין שתי קבוצות
  3. תלות בין המדגמים

    • בלתי תלויים: אין קשר בין התצפיות בשתי הקבוצות
    • מזווגים: קיים קשר מובנה בין התצפיות
  4. גודל המדגם

    • גדול: $n \geq 30$ - משפט הגבול המרכזי תקף
    • קטן: $n < 30$ - נדרשות הנחות התפלגות
  5. ידיעת פרמטרי האוכלוסייה

    • שונות ידועה: נדיר בפרקטיקה, מאפשר שימוש במבחן Z
    • שונות לא ידועה: המצב הרגיל, דורש אמידה מהמדגם

5.2 עץ החלטה מפורט

נבנה עץ החלטה שיטתי לבחירת המבחן:

תכונה נמדדת
├── רציפה
│   ├── אוכלוסייה אחת
│   │   ├── התפלגות נורמלית
│   │   │   ├── שונות ידועה → מבחן Z חד-מדגמי
│   │   │   └── שונות לא ידועה
│   │   │       ├── n ≥ 30 → מבחן Z (קירוב)
│   │   │       └── n < 30 → מבחן t חד-מדגמי
│   │   └── התפלגות לא נורמלית
│   │       ├── n ≥ 30 → מבחן Z (משפט הגבול המרכזי)
│   │       └── n < 30 → שיטות א-פרמטריות
│   └── שתי אוכלוסיות
│       ├── מדגמים מזווגים → מבחן t למדגמים מזווגים
│       └── מדגמים בלתי תלויים
│           ├── שונויות שוות → מבחן t למדגמים בלתי תלויים
│           └── שונויות שונות → מבחן Welch
└── פרופורציה
    ├── אוכלוסייה אחת
    │   └── np ≥ 5 ו-n(1-p) ≥ 5 → מבחן Z לפרופורציה
    └── שתי אוכלוסיות → מבחן Z להפרש פרופורציות

5.3 כללי אצבע מעשיים

  1. כלל 1: עדיפות למדגם מזווג כאשר קיימת אפשרות לתכנן מחקר עם מדגם מזווג, זו כמעט תמיד האסטרטגיה העדיפה מבחינת עוצמה סטטיסטית.

  2. כלל 2: חשיבות גודל המדגם גודל מדגם של 30 ומעלה פותר בעיות רבות:

    • מאפשר שימוש בקירוב הנורמלי
    • מפחית רגישות להפרות הנחות
    • משפר את איכות אמידת השונות
  3. כלל 3: בדיקת הנחות תמיד יש לבדוק את הנחות המבחן:

    • נורמליות (עבור מדגמים קטנים)
    • הומוגניות שונויות (למדגמים בלתי תלויים)
    • אי-תלות תצפיות

6: הרחבות ושיקולים מתקדמים

6.1 הקשר בין גודל המדגם לעוצמת המבחן

עוצמת המבחן (Power) מוגדרת כהסתברות לדחות $H_0$ כאשר היא אכן שגויה. במדגמים מזווגים, העוצמה תלויה ב:

\[\text{Power} = P\left(|T| > t_{\alpha/2,n-1} \mid \mu_D = \delta\right)\]

כאשר $\delta$ הוא ההפרש האמיתי באוכלוסייה.

העוצמה גדלה עם:

  • הגדלת $n$ (גודל המדגם)
  • הגדלת $\vert \delta \vert$ (גודל האפקט)
  • הקטנת $\sigma_D$ (שונות ההפרשים)
  • הגדלת $\alpha$ (רמת המובהקות)

6.2 תכנון גודל מדגם

לתכנון גודל מדגם נדרש להשיג עוצמה רצויה (בדרך כלל 0.8), נשתמש בנוסחה:

\[n \approx \left(\frac{(z_{\alpha/2} + z_{\beta})\sigma_D}{\delta}\right)^2\]

כאשר $z_{\beta}$ הוא הערך הקריטי המתאים לעוצמה $1-\beta$.

6.3 התמודדות עם הפרות הנחות

כאשר ההנחה על נורמליות מופרת:

  1. טרנספורמציות (לוג, שורש)
  2. מבחנים א-פרמטריים (Wilcoxon signed-rank test)
  3. Bootstrap methods

כאשר הזיווג אינו מושלם:

  1. ניתוח רגישות
  2. מודלים מעורבים (Mixed models)
  3. שיטות התאמה (Matching methods)

7: סיכום ומסקנות

7.1 עקרונות מנחים

המדגם המזווג מספק כלי עוצמתי במיוחד כאשר:

  1. קיימת שונות גבוהה בין יחידות הדגימה
  2. ניתן לזהות גורם משותף המשפיע על שתי המדידות
  3. המדידות החוזרות אינן משפיעות זו על זו

7.2 יתרונות וחסרונות

יתרונות:

  • הגברת העוצמה הסטטיסטית
  • הקטנת גודל המדגם הנדרש
  • ביטול משתנים מתערבים

חסרונות:

  • מורכבות בתכנון המחקר
  • אפשרות לאפקטי למידה או עייפות
  • לא תמיד ישים

7.3 המלצות ליישום

  1. בשלב התכנון: שקלו תמיד אפשרות למדגם מזווג
  2. בשלב הניתוח: וודאו שהזיווג אכן מפחית שונות
  3. בפרשנות: זכרו שהמסקנות תקפות להפרשים, לא לערכים המוחלטים

המבחן למדגמים מזווגים מהווה דוגמה מצוינת לאופן שבו תכנון מחקר חכם יכול להגביר משמעותית את כוחו של הניתוח הסטטיסטי. הבנה מעמיקה של העקרונות התיאורטיים, יחד עם יישום נכון בפרקטיקה, מאפשרים לחוקרים להפיק תובנות משמעותיות גם ממדגמים קטנים יחסית.

דור פסקל

חזור לסיכום הקודם
המשך לסיכום הבא