הקדמה: תרשים זרימה להסקה סטטיסטית
הדיון מתחיל בצורך ליצור תרשים זרימה מסודר כדי לעזור בניווט בין המבחנים הסטטיסטיים השונים. המטרה היא לסווג את הבעיות הסטטיסטיות לפי סוג המשתנים (רציפים/קטגוריאליים) ולהתמקד בהסקה סטטיסטית על תוחלות.
כלי מרכזי: משפט הגבול המרכזי ומדגם גדול
ההבחנה המרכזית והכלי החשוב ביותר בקורס הוא משפט הגבול המרכזי (Central Limit Theorem), אשר חל על מדגם גדול.
- מדגם גדול: באופן יוריסטי, מדגם שגודלו גדול מ-30 ($n > 30$).
- השלכות של מדגם גדול:
- ממוצע המדגם ($\bar{X}$) מתפלג נורמלית (בקירוב). זה מפשט את הניתוח כי לא צריך להניח שהתכונה עצמה מתפלגת נורמלית באוכלוסייה.
- השונות ($\sigma^2$) נחשבת לידועה. גם אם היא לא נתונה, ניתן להעריך אותה מהמדגם ($s^2$) ולהתייחס אליה כשונות האוכלוסייה: $s^2 \approx \sigma^2$.
תרשים זרימה לבחירת מבחן סטטיסטי
ניתן לסכם את תהליך קבלת ההחלטות כך:
- האם $\bar{X}$ מתפלג נורמלית?
- כן, אם:
- המדגם גדול (לפי משפט הגבול המרכזי).
- או, אם נתון שהתכונה עצמה מתפלגת נורמלית באוכלוסייה.
- לא, אם המדגם קטן והתכונה אינה מתפלגת נורמלית (במקרה זה, לא למדנו כלים מתאימים בקורס).
- כן, אם:
- בהינתן ש-$\bar{X}$ נורמלי, האם השונות ידועה?
- כן (מהשאלה או כי המדגם גדול): משתמשים בהתפלגות נורמלית (Z).
- לא (והמדגם קטן, אך התכונה נורמלית): משתמשים בהתפלגות t.
מצב | התפלגות לשימוש |
---|---|
$\bar{X}$ נורמלי, שונות ידועה | Z (נורמלית) |
$\bar{X}$ נורמלי, שונות לא ידועה (מדגם קטן) | t |
$\bar{X}$ לא נורמלי | לא נלמד |
רווח סמך וה-Survival Function
ברגע שקובעים את “סוס העבודה” (ההתפלגות המתאימה, Z או t), בניית רווח סמך הופכת לנוסחה כללית:
\[\text{CI} = \bar{X} \pm Z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}\]הערך הקריטי נקבע באמצעות ה-Inverse Survival Function.
מהי ה-Survival Function?
ה-Survival Function (פונקציית ההישרדות) של משתנה מקרי $X$ עבור ערך $x$ היא ההסתברות שהמשתנה יקבל ערך גדול מ-$x$.
\[\text{SF}(x) = P(X > x)\]זהו השטח בזנב הימני של ההתפלגות.
מהי ה-Inverse Survival Function?
ה-iCF היא הפעולה ההפוכה: בהינתן שטח (הסתברות) $\alpha$, היא מחזירה את הערך $x$ שהשטח מימינו הוא $\alpha$.
\[\text{SF}(x) = \alpha \iff \text{iSF}(\alpha) = x\]טריקים שימושיים:
-
סימטריה (בהתפלגות נורמלית סטנדרטית או t): ההסתברות להיות קטן מערך שלילי שווה להסתברות להיות גדול מהערך החיובי המקביל.
\[P(Z < -z) = P(Z > z)\] -
הסתברות משלימה:
\[P(X < x) = 1 - P(X > x) = 1 - \text{SF}(x)\]
דוגמאות
דוגמה 1: ציוני פסיכומטרי
- נתונים: ציוני פסיכומטרי מתפלגים נורמלית עם ממוצע 650 וסטיית תקן 50. $X \sim N(650, 50^2)$.
- שאלה: אורלי הדיקנית רוצה לקבל רק את 2.5% הציונים הגבוהים ביותר. מהו ציון הסף?
- תרגום מתמטי: מצא ערך $c$ כך ש- $P(X > c) = 0.025$.
- פתרון:
-
תקנון: הופכים את אי-השוויון למשתנה נורמלי סטנדרטי Z.
\[P\left(\frac{X - \mu}{\sigma} > \frac{c - \mu}{\sigma}\right) = 0.025\] \[P\left(Z > \frac{c - 650}{50}\right) = 0.025\] -
שימוש ב-iSF: אנחנו מחפשים את הערך $z$ שההסתברות להיות גדול ממנו היא 0.025. ערך זה מוכר כ-1.96.
\[\frac{c - 650}{50} = 1.96\] -
אלגברה: פותרים עבור $c$.
\[c = 650 + 1.96 \times 50 = 748\]
-
דוגמה 2: חברות ביגוד
- נתונים:
- חברה א׳: מספר משלוחים יומי, $X \sim N(200, 10^2)$.
- חברה ב׳: מספר משלוחים יומי, $Y \sim N(200, 20^2)$.
- שאלה 1: ביום מסוים, חברה א׳ שלחה 210 חבילות וחברה ב׳ שלחה 180. איזה נתון “קיצוני” יותר?
- פתרון: “קיצוני” מתייחס למרחק מהממוצע במונחי סטיות תקן.
- חברה א׳: $210$ זה $10$ מעל הממוצע, שזה סטיית תקן אחת ($10/10=1$).
- חברה ב׳: $180$ זה $20$ מתחת לממוצע, שזה סטיית תקן אחת ($20/20=1$).
- מסקנה: שני הנתונים קיצוניים באותה מידה (בהנחת השערה דו-צדדית).
- פתרון: “קיצוני” מתייחס למרחק מהממוצע במונחי סטיות תקן.
- שאלה 2: מה ההסתברות שבשבוע (7 ימים), חברה א׳ תשלח יותר מ-1435 חבילות?
-
פתרון: השאלה היא על סכום משלוחים. קל יותר לעבור לממוצע.
\[P(\sum_{i=1}^{7} X_i > 1435) = P(\bar{X} > \frac{1435}{7}) = P(\bar{X} > 205)\] -
מכאן, מתקננים את ממוצע המדגם $\bar{X}$ ופותרים:
-
- שאלה 3: מהו מספר המשלוחים ש-90% מהימים חברה א׳ מבצעת יותר ממנו?
- תרגום מתמטי: מצא ערך $c$ כך ש- $P(X > c) = 0.90$.
- פתרון:
- תקנון: $P\left(Z > \frac{c - 200}{10}\right) = 0.90$.
-
שימוש בסימטריה: ערך $z$ שהשטח מימינו הוא 0.90 הוא ערך שלילי. לפי סימטריה, הוא הנגדי לערך $z$ שהשטח משמאלו הוא 0.90 (כלומר, שהשטח מימינו הוא 0.10).
\[\text{iSF}(0.9) = -\text{iSF}(0.1)\] -
הערך שמימינו 10% מההתפלגות הוא בקירוב 1.28. לכן, הערך שאנחנו מחפשים הוא -1.28.
\[\frac{c - 200}{10} = -1.28\] - אלגברה: $c = 200 - 1.28 \times 10 = 187.2$.
סיכום וארגון החומר למבחן
שלב 1: קביעת “סוס העבודה” (ההתפלגות)
לפני כל חישוב, יש לשאול:
- האם המדגם גדול ($n>30$)?
- כן $\leftarrow$ $\bar{X}$ נורמלי, שונות ידועה $\leftarrow$ התפלגות Z.
- לא $\leftarrow$ יש לבדוק את הנתונים הנוספים.
- אם המדגם קטן, האם התכונה נורמלית?
- כן $\leftarrow$ $\bar{X}$ נורמלי.
- לא $\leftarrow$ לא יודעים מה לעשות.
- אם $\bar{X}$ נורמלי (ממדגם קטן), האם השונות ידועה?
- כן $\leftarrow$ התפלגות Z.
- לא $\leftarrow$ התפלגות t.
שלב 2: חישוב השונות של הסטטיסטי
סוג מדגם | שונות ידועה | שונות לא ידועה (ובהכרח מדגם קטן) |
---|---|---|
מדגם יחיד | $Var(\bar{X}) = \frac{\sigma^2}{n}$ | $Var(\bar{X}) = \frac{s^2}{n}$ |
שני מדגמים בלתי תלויים | $Var(\bar{X}-\bar{Y}) = \frac{\sigma_X^2}{n_1} + \frac{\sigma_Y^2}{n_2}$ | בהנחת שונויות שוות: משתמשים בשונות משותפת (Pooled Variance): $s_p^2$. $Var(\bar{X}-\bar{Y}) = s_p^2 \left(\frac{1}{n_1} + \frac{1}{n_2}\right)$ |
מדגם מזווג | - | מתייחסים להפרשים ($D = X-Y$) כאל מדגם יחיד. $Var(\bar{D}) = \frac{s_D^2}{n}$ |
הערה חשובה: במדגם מזווג, תמיד נשתמש במבחן t על ההפרשים (לפי מצגת הקורס), מכיוון שאף פעם לא נדע את השונות האמיתית של ההפרשים.
דור פסקל