הקדמה: תרשים זרימה להסקה סטטיסטית

הדיון מתחיל בצורך ליצור תרשים זרימה מסודר כדי לעזור בניווט בין המבחנים הסטטיסטיים השונים. המטרה היא לסווג את הבעיות הסטטיסטיות לפי סוג המשתנים (רציפים/קטגוריאליים) ולהתמקד בהסקה סטטיסטית על תוחלות.

כלי מרכזי: משפט הגבול המרכזי ומדגם גדול

ההבחנה המרכזית והכלי החשוב ביותר בקורס הוא משפט הגבול המרכזי (Central Limit Theorem), אשר חל על מדגם גדול.

  • מדגם גדול: באופן יוריסטי, מדגם שגודלו גדול מ-30 ($n > 30$).
  • השלכות של מדגם גדול:
    1. ממוצע המדגם ($\bar{X}$) מתפלג נורמלית (בקירוב). זה מפשט את הניתוח כי לא צריך להניח שהתכונה עצמה מתפלגת נורמלית באוכלוסייה.
    2. השונות ($\sigma^2$) נחשבת לידועה. גם אם היא לא נתונה, ניתן להעריך אותה מהמדגם ($s^2$) ולהתייחס אליה כשונות האוכלוסייה: $s^2 \approx \sigma^2$.

תרשים זרימה לבחירת מבחן סטטיסטי

ניתן לסכם את תהליך קבלת ההחלטות כך:

  1. האם $\bar{X}$ מתפלג נורמלית?
    • כן, אם:
      • המדגם גדול (לפי משפט הגבול המרכזי).
      • או, אם נתון שהתכונה עצמה מתפלגת נורמלית באוכלוסייה.
    • לא, אם המדגם קטן והתכונה אינה מתפלגת נורמלית (במקרה זה, לא למדנו כלים מתאימים בקורס).
  2. בהינתן ש-$\bar{X}$ נורמלי, האם השונות ידועה?
    • כן (מהשאלה או כי המדגם גדול): משתמשים בהתפלגות נורמלית (Z).
    • לא (והמדגם קטן, אך התכונה נורמלית): משתמשים בהתפלגות t.
מצב התפלגות לשימוש
$\bar{X}$ נורמלי, שונות ידועה Z (נורמלית)
$\bar{X}$ נורמלי, שונות לא ידועה (מדגם קטן) t
$\bar{X}$ לא נורמלי לא נלמד

רווח סמך וה-Survival Function

ברגע שקובעים את “סוס העבודה” (ההתפלגות המתאימה, Z או t), בניית רווח סמך הופכת לנוסחה כללית:

\[\text{CI} = \bar{X} \pm Z_{\alpha/2} \times \frac{\sigma}{\sqrt{n}}\]

הערך הקריטי נקבע באמצעות ה-Inverse Survival Function.

מהי ה-Survival Function?

ה-Survival Function (פונקציית ההישרדות) של משתנה מקרי $X$ עבור ערך $x$ היא ההסתברות שהמשתנה יקבל ערך גדול מ-$x$.

\[\text{SF}(x) = P(X > x)\]

זהו השטח בזנב הימני של ההתפלגות.

מהי ה-Inverse Survival Function?

ה-iCF היא הפעולה ההפוכה: בהינתן שטח (הסתברות) $\alpha$, היא מחזירה את הערך $x$ שהשטח מימינו הוא $\alpha$.

\[\text{SF}(x) = \alpha \iff \text{iSF}(\alpha) = x\]

טריקים שימושיים:

  • סימטריה (בהתפלגות נורמלית סטנדרטית או t): ההסתברות להיות קטן מערך שלילי שווה להסתברות להיות גדול מהערך החיובי המקביל.

    \[P(Z < -z) = P(Z > z)\]
  • הסתברות משלימה:

    \[P(X < x) = 1 - P(X > x) = 1 - \text{SF}(x)\]

דוגמאות

דוגמה 1: ציוני פסיכומטרי

  • נתונים: ציוני פסיכומטרי מתפלגים נורמלית עם ממוצע 650 וסטיית תקן 50. $X \sim N(650, 50^2)$.
  • שאלה: אורלי הדיקנית רוצה לקבל רק את 2.5% הציונים הגבוהים ביותר. מהו ציון הסף?
  • תרגום מתמטי: מצא ערך $c$ כך ש- $P(X > c) = 0.025$.
  • פתרון:
    1. תקנון: הופכים את אי-השוויון למשתנה נורמלי סטנדרטי Z.

      \[P\left(\frac{X - \mu}{\sigma} > \frac{c - \mu}{\sigma}\right) = 0.025\] \[P\left(Z > \frac{c - 650}{50}\right) = 0.025\]
    2. שימוש ב-iSF: אנחנו מחפשים את הערך $z$ שההסתברות להיות גדול ממנו היא 0.025. ערך זה מוכר כ-1.96.

      \[\frac{c - 650}{50} = 1.96\]
    3. אלגברה: פותרים עבור $c$.

      \[c = 650 + 1.96 \times 50 = 748\]

דוגמה 2: חברות ביגוד

  • נתונים:
    • חברה א׳: מספר משלוחים יומי, $X \sim N(200, 10^2)$.
    • חברה ב׳: מספר משלוחים יומי, $Y \sim N(200, 20^2)$.
  • שאלה 1: ביום מסוים, חברה א׳ שלחה 210 חבילות וחברה ב׳ שלחה 180. איזה נתון “קיצוני” יותר?
    • פתרון: “קיצוני” מתייחס למרחק מהממוצע במונחי סטיות תקן.
      • חברה א׳: $210$ זה $10$ מעל הממוצע, שזה סטיית תקן אחת ($10/10=1$).
      • חברה ב׳: $180$ זה $20$ מתחת לממוצע, שזה סטיית תקן אחת ($20/20=1$).
    • מסקנה: שני הנתונים קיצוניים באותה מידה (בהנחת השערה דו-צדדית).
  • שאלה 2: מה ההסתברות שבשבוע (7 ימים), חברה א׳ תשלח יותר מ-1435 חבילות?
    • פתרון: השאלה היא על סכום משלוחים. קל יותר לעבור לממוצע.

      \[P(\sum_{i=1}^{7} X_i > 1435) = P(\bar{X} > \frac{1435}{7}) = P(\bar{X} > 205)\]
    • מכאן, מתקננים את ממוצע המדגם $\bar{X}$ ופותרים:

    \[P(\bar{X} > 205) = P\left(Z > \frac{205 - 200}{10/\sqrt{7}}\right) = 1 - \text{SF}\left(\frac{5}{10/\sqrt{7}}\right) = 1 - \text{SF}(1.3228756555322954)\]
  • שאלה 3: מהו מספר המשלוחים ש-90% מהימים חברה א׳ מבצעת יותר ממנו?
    • תרגום מתמטי: מצא ערך $c$ כך ש- $P(X > c) = 0.90$.
    • פתרון:
      1. תקנון: $P\left(Z > \frac{c - 200}{10}\right) = 0.90$.
      2. שימוש בסימטריה: ערך $z$ שהשטח מימינו הוא 0.90 הוא ערך שלילי. לפי סימטריה, הוא הנגדי לערך $z$ שהשטח משמאלו הוא 0.90 (כלומר, שהשטח מימינו הוא 0.10).

        \[\text{iSF}(0.9) = -\text{iSF}(0.1)\]
      3. הערך שמימינו 10% מההתפלגות הוא בקירוב 1.28. לכן, הערך שאנחנו מחפשים הוא -1.28.

        \[\frac{c - 200}{10} = -1.28\]
      4. אלגברה: $c = 200 - 1.28 \times 10 = 187.2$.

סיכום וארגון החומר למבחן

שלב 1: קביעת “סוס העבודה” (ההתפלגות)

לפני כל חישוב, יש לשאול:

  1. האם המדגם גדול ($n>30$)?
    • כן $\leftarrow$ $\bar{X}$ נורמלי, שונות ידועה $\leftarrow$ התפלגות Z.
    • לא $\leftarrow$ יש לבדוק את הנתונים הנוספים.
  2. אם המדגם קטן, האם התכונה נורמלית?
    • כן $\leftarrow$ $\bar{X}$ נורמלי.
    • לא $\leftarrow$ לא יודעים מה לעשות.
  3. אם $\bar{X}$ נורמלי (ממדגם קטן), האם השונות ידועה?
    • כן $\leftarrow$ התפלגות Z.
    • לא $\leftarrow$ התפלגות t.

שלב 2: חישוב השונות של הסטטיסטי

סוג מדגם שונות ידועה שונות לא ידועה (ובהכרח מדגם קטן)
מדגם יחיד $Var(\bar{X}) = \frac{\sigma^2}{n}$ $Var(\bar{X}) = \frac{s^2}{n}$
שני מדגמים בלתי תלויים $Var(\bar{X}-\bar{Y}) = \frac{\sigma_X^2}{n_1} + \frac{\sigma_Y^2}{n_2}$ בהנחת שונויות שוות: משתמשים בשונות משותפת (Pooled Variance): $s_p^2$.
$Var(\bar{X}-\bar{Y}) = s_p^2 \left(\frac{1}{n_1} + \frac{1}{n_2}\right)$
מדגם מזווג - מתייחסים להפרשים ($D = X-Y$) כאל מדגם יחיד.
$Var(\bar{D}) = \frac{s_D^2}{n}$

הערה חשובה: במדגם מזווג, תמיד נשתמש במבחן t על ההפרשים (לפי מצגת הקורס), מכיוון שאף פעם לא נדע את השונות האמיתית של ההפרשים.

דור פסקל