פתיחה
בוקר טוב כולם. היום אנחנו בזום בגלל חגיגות ל״ג בעומר. אנחנו נמשיך עם משתנים מקריים. סיימנו אתמול משתנים מקריים בינומיים.
הערה: תחרות הממים שלנו לא כל כך ממריאה בגלל שרק סטודנטית אחת שולחת לי ממים. אני אשמח לקבל ממים גם משאר הסטודנטים. זה גם יעזור לכם להבין את החומר וגם יעשה את הלימוד קצת יותר כיפי. בתקווה כשנגיע לנושא כבר לסטטיסטיקה סטטיסטית יהיה לנו הרבה דקויות. אני אוכל לעשה על זה הרבה ממים.
משתנה מקרי גיאומטרי
אנחנו עדיין בעולם של הסתברות. אנחנו נמשיך לעסוק היום עם משתנים בדידים - משתנים מקריים בדידים - ספציפית נמשיך עם משתנים מקריים בדידים ואחר כך גם נגיע למשתנה מקרי נורמלי.
הגדרה
משתנה מקרי בדיד נוסף שאנחנו נלמד עליו הוא משתנה מקרי גיאומטרי.
משתנה מקרי גיאומטרי מתאר מצב שלניסוי מסוים יש סיכוי הצלחה $p$, ותוצאות של ניסויים חוזרים אינן תלויות זו בזו. אנחנו סופרים את מספר הפעמים שביצענו את הניסוי עד שהוא הצליח בפעם הראשונה.
אם אנחנו נותנים מסמן ב-$X$ את המספר הזה, אז $X$ הוא משתנה מקרי גיאומטרי עם פרמטר $p$.
הערכים האפשריים של $X$ הם: $1, 2, 3, \ldots$ עד בלי גבול (אין סוף).
דוגמאות
- מספר הילדים שנולדים למשפחה עד לידת בת
- מספר הפעמים שצריך להטיל קובייה עד שיוצא 6
- מספר כרטיסי חן שצריך לגרד עד שזוכים בפרס
- מספר חשיפות לחיידק עד הידבקות במחלה
- מספר תאונות עבודה עד למקרה מוות
- מספר הזריקות שזורקים לסל עד שקולעים (בהנחה שאנחנו לא משתפרים בין זריקה לזריקה)
- מספר חודשים עד כניסה להריון
התפלגות
מה ההסתברות שהניסוי הצליח בפעם הראשונה בפעם ה-$k$?
איך זה יכול לקרות? אנחנו חייבים לקבל כישלונות בכל $k-1$ הפעמים הראשונות.
אם אנחנו רוצים להצליח בפעם הראשונה בפעם העשירית (כלומר אנחנו רוצים שהמשתנה המקרי הגיאומטרי יהיה בעל ערך $X = 10$), אנחנו חייבים לקבל תשעה כישלונות בכל הניסיונות - בתשעת הניסיונות הראשונים - ואז הצלחה בניסוי העשירי.
זאת אומרת, אנחנו מקבלים סדרה מהסוג: Fail, Fail, Fail, Fail, Fail, $\ldots$ ($k-1$ פעמים) ו-Success (הצלחה אחת).
- ההסתברות למצב של $k-1$ כישלונות היא $(1-p)^{k-1}$
- ההסתברות להצלחה בניסוי ה-$k$ בדיוק היא $p$
ולכן הסיכוי למשתנה מקרי גיאומטרי להיות שווה ל-$k$ הוא:
\[P(X = k) = p \cdot (1-p)^{k-1}\]הדמיה גרפית
בגרף, אנחנו רואים איך נראית פונקציית ההתפלגות של משתנים מקריים גיאומטריים עם פרמטרים שונים:
- בציר ה-X: מספר הניסיונות
-
בציר ה-Y: ערך של ההסתברות עבור מספר הניסיונות הרלוונטי
- בקצב: משתנה מקרי גיאומטרי עם פרמטר (סיכוי הצלחה) $p = 0.2$
- בכחול: משתנה מקרי גיאומטרי עם סיכוי הצלחה $p = 0.8$
ההסתברות דועכת לכיוון 0. זה הגיוני - יש בסופו של דבר סיכוי נמוך מאוד לקבל את ההצלחה הראשונה דווקא בניסוי העשירי או ה-100 או ה-200. זאת אומרת, ההתפלגות צריכה לשאוף ל-0 כש-$X$ גדל.
שימו לב: הסיכוי לקבל הצלחה מיד בניסוי הראשון, לפי הנוסחה שפיתחנו, היא $p$ - בדיוק ההסתברות להצלחה בכל ניסוי.
דוגמה ספציפית
עבור $p = \frac{1}{2}$, ההסתברות לקבל הצלחה בניסוי ה-$k$ היא:
\[P(X = k) = \frac{1}{2} \cdot \left(\frac{1}{2}\right)^{k-1} = \left(\frac{1}{2}\right)^k\]וזה $\frac{1}{2}, \frac{1}{4}, \frac{1}{8}, \frac{1}{16}, \ldots$ - סדרה גיאומטרית מוכרת.
דוגמאות יישום
דוגמה 1: לידת בן
מה ההסתברות שיוולד בן בפעם הראשונה רק בלידה החמישית?
בכל לידה אנחנו עורכים מה שנקרא ניסוי ברנולי - ניסוי הסתברותי בלתי תלוי עם הסתברות קבועה. הסיכוי בכל לידה להצלחה (כלומר ללידת בן בקונטקסט הזה) הוא $\frac{1}{2}$, ולכן $p = \frac{1}{2}$.
$X$ (מספר הילדים שנולדו עד שנולד בן, כולל הלידה של הבן) הוא משתנה מקרי גיאומטרי עם פרמטר $\frac{1}{2}$.
הסיכוי ל-$X$ להיות שווה $5$:
\[\begin{aligned} P(X = 5) &= \frac{1}{2} \cdot \left(\frac{1}{2}\right)^4 \\ &= \left(\frac{1}{2}\right)^5 \\ &= \frac{1}{32} \approx 0.03 \end{aligned}\]דוגמה 2: התקף לב
בהתקף לב יש סיכוי של $70\%$ למות. מה ההסתברות למות בהתקף הלב השלישי?
שימו לב שבשביל למות בהתקף הלב השלישי, אנחנו צריכים לא למות בהתקף הלב הראשון ולא למות בהתקף הלב השני. כלומר, אנחנו עושים ניסויים - התקפי לב - עד להצלחה (בקונטקסט הזה, מוות), ואנחנו צריכים להיכשל (לא להצליח למות) בשני הניסיונות הראשונים ולהצליח למות בהתקף הלב השלישי בדיוק.
להתקף לב יש סיכוי $70\%$ למות. $X$ מתפלג כמשתנה מקרי גיאומטרי עם פרמטר $p = 0.7$.
הסיכוי להצלחה (מוות בהתקף לב) בניסוי השלישי:
\[P(X = 3) = 0.7 \cdot (0.3)^2 = 0.7 \cdot 0.09 = 0.063\]תכונת חוסר הזיכרון
תכונה נורא חשובה של משתנה מקרי גיאומטרי היא שהוא חסר זיכרון.
מאוד קל להבין את זה עבור משתנה מקרי גיאומטרי, וזו תכונה שקיימת גם באנלוג הרציף שלו. לכן כדאי לנו להכיר ולהבין אותה גם עכשיו.
הניסוח המילולי
העתיד אינו תלוי בעבר, בהינתן ההווה.
הסבר אינטואיטיבי
נגיד אני מנסה לשחק ברולטה ואני מחכה שיצא לי מספר כלשהו (לא יודע מה, 32 או 4). זה שעד עכשיו לא יצא לי 32 לא אומר לי שום דבר לגבי הסיכוי שלי להוציא 32 בהטלה כלשהי, בניסוי כלשהו מהבאים.
זאת אומרת, העתיד לא מעניין אותו שהטלתם עכשיו 5 פעמים 31, או 200 פעם מספרים אחרים שאינם 32. העתיד - ההתפלגות של המשתנה המקרי - מעניין אותו רק מה שקורה עכשיו.
אתם נמצאים מול הרולטה, תמשיכו להטיל.
הניסוח המתמטי
הסיכוי לחכות $m$ הטלות בהינתן ההסתברות ש-$X = m$, היא כמו הסיכוי לחכות $m + n$ הטלות בהינתן שחיכיתי כבר $n$ הטלות.
זאת אומרת, הוא לא זוכר מה קרה. חיכיתי $n$ הטלות? אוקיי, אנחנו פה עכשיו. שכח מכל מה שנשאר.
דוגמאות רפואיות
- הידבקות בחיידק במחלקה: נגיד שבכל יום בית החולים מאושפז נדבק בחיידק עמיד לאנטיביוטיקה בסיכוי קבוע. בהינתן שעד היום הוא לא נדבק, גם אם הוא מאושפז חודש, התפלגות מספר הימים שיקח לו להידבק לא השתנתה. עד היום הוא לא נדבק - וזה לא מעניין אותנו. היום הוא יכול להידבק באותו סיכוי, מחר הוא יכול להידבק באותו סיכוי, והתפלגות זמן ההמתנה להידבקות בחיידק היא עדיין גיאומטרית עם אותו פרמטר - היא זהה.
וידוא נרמול
הערכים האפשריים של ההתפלגות הם $1, 2, 3, \ldots$ עד סוף - מספרים שלמים. הסיכוי להגיע לערכים גבוהים מאוד של $X$ (למשל 200 או 300 אלף) הוא נמוך מאוד אם $p$ שווה לחצי, אבל הוא לא אפסי. זאת אומרת שתמיד יש סיכוי כלשהו, אומנם קלוש, לקבל כל ערך שלם.
אנחנו יכולים לבדוק האם מתקיים נרמול - זאת אומרת, שסכום ההסתברויות שווה אחד:
\[\sum_{k=1}^{\infty} P(X = k) = \sum_{k=1}^{\infty} p \cdot (1-p)^{k-1}\]מוציאים $p$ מחוץ לסכום:
\[= p \sum_{k=1}^{\infty} (1-p)^{k-1}\]עכשיו עושים טריק קטן. האיברים בסכום הם:
- כאשר $k = 1$: $(1-p)^0 = 1$
- כאשר $k = 2$: $(1-p)^1 = (1-p)$
- כאשר $k = 3$: $(1-p)^2$
- וכן הלאה
זאת אומרת אנחנו מתחילים את הסכום מ-$k = 0$:
\[= p \sum_{k=0}^{\infty} (1-p)^k\]ואחר כך אנחנו פשוט משתמשים בנוסחה של טור גיאומטרי שאני זוכר מהתיכון. $p$ נמצא בחוץ, וטור גיאומטרי כאשר הגורם $(1-p)$ קטן מ-1, הסכום שלו הוא:
\[\frac{1}{1 - (1-p)} = \frac{1}{p}\]לכן:
\[p \cdot \frac{1}{p} = 1\]תוחלת
התוחלת של משתנה מקרי גיאומטרי היא:
\[\mathbb{E}[X] = \frac{1}{p}\]האינטואיציה
אם הסיכוי להצליח הוא רבע, אני צריך בממוצע 4 ניסיונות כדי להצליח. אם הסיכוי להצליח הוא $\frac{1}{m}$, אני צריך בממוצע $m$ ניסיונות להצליח.
יותר באופן כללי: ממוצע מספר הניסיונות הוא ההופכי של סיכוי ההצלחה.
דוגמאות לתוחלת
דוגמה 1: לידת בן מהי תוחלת מספר הלידות עד שנולד בן?
שוב משתנה מקרי גיאומטרי. הסיכוי לידה של בן הוא $\frac{1}{2}$. התוחלת מספר הלידות: $\mathbb{E}[X] = \frac{1}{\frac{1}{2}} = 2$.
דוגמה 2: התקפי לב תוחלת מספר התקפי הלב עד למוות: בממוצע אדם יחווה $\frac{1}{0.7} = 1.43$ התקפי לב עד למוות.
הערה חשובה: אין שום סיבה שהתוחלת תהיה חלק מהאופציות או תהיה מה שנקרא בתומך של ההתפלגות. אין סיבה שהתוחלת תהיה מספר שההתפלגות יכולה להשיג. במקרה הזה, אחרי 1.43 התקפי לב אותו חולה ימות.
בעיית ההורים
זוג מחליט להביא ילדים לעולם. הזוג ממש רוצה בת (או אולי האישה בעיקר רוצה בת - זה מהניסיון האישי של המרצה: האישה היא זו שרוצה בת, המרצה רצה בן).
הזוג מחליט להביא ילדים לעולם עד שתיוולד להם בת, ובבת הראשונה הם יפסיקו.
כמו שראינו, תוחלת מספר הילדים של הזוג היא שתיים. ולזוג תמיד יש בת אחת בדיוק (כי הם עוצרים כשיש בת ולא דקה לפני).
מה שאומר שתוחלת מספר הבנים היא גם אחד, והיא שווה למספר הבנות.
זו תוצאה קצת מפתיעה. הזוג יכול ללדת מאה בנים, שלוש מאות בנים, עשרים בנים, ווטאבר, ובכל זאת בתוחלת, בממוצע, מספר הבנים שווה למספר הבנות.
מעבר למשתנים מקריים רציפים
הערה: אנחנו נדלג על משתנה מקרי פואסון לדעת המרצה מפאת קוצר הזמן - אנחנו נדלג על משתנה מקרי פואסון ונגיע למשתנים מקריים רציפים.
תזכורת קצרה
- משתנה מקרי: פונקציה שמתאימה ערך מספרי לכל תוצאה של הניסוי (ולכל תוצאה לצורך העניין במרחב המדגם)
- התפלגות של משתנה מקרי בדיד: רשימה של הערכים שהמשתנה מקבל וההסתברות שלהם
- כל ההסתברויות נמצאות בין 0 ל-1
- ההסתברות לקבל ערך שהוא לא מתוך רשימה הנתונה היא 0
- ההסתברות לקבל 1 מתוך קבוצה של ערכים היא סכום ההסתברויות שלהם
משתנה מקרי רציף
משתנה מקרי רציף, לעומת זאת, יכול לקבל כל ערך בתחום מסוים. למשל:
- הוא יכול לקבל כל ערך במקטע $[0, 1]$
- יכול לקבל כל ערך במקטע $[-2, 2]$
- יכול לקבל את כל הישר הממשי
- יכול לקבל כל ערך ממשי בין $0$ לאינסוף
יכול להיות:
- $1$, $7.5$, $7.234$, $\pi$, מספר אוילר
- יכול להיות גם מספרים שלילים: כל מספר בין $-\infty$ ל-$\infty$
- $-\frac{1}{\pi}$, $-320.4547 + \pi$, וכו’
דוגמאות למשתנים מקריים רציפים
- גובה: אומנם אנחנו מודדים במטרים או בסנטימטרים, אבל עקרונית הוא יכול לקבל כל ערך בטווח ערכים כלשהו
- משקל: אנחנו מודדים משקל בקילוגרמים. אף אחד לא יגיד “אני שוקל 34 קילוגרם, 224 גרם, נקודה 33468” או משהו כזה, אבל משקל עקרונית יכול להיות כל משקל בטווח מספרים רציף
- זמן עד לתקלה: יכול להיות שאנחנו מודדים זמן בימים ואנחנו סופרים ימים עד תקלה, ויכול להיות שאנחנו פשוט יושבים על הסטופר ומסתכלים כמה זמן עבר עד לתקלה
- שכיחות של מחלה
- טמפרטורה
כל המשתנים האלה יכולים לקבל ערכים בטווח רציף.
פונקציית צפיפות
אנחנו מתארים התפלגות של משתנה מקרי רציף על ידי פונקציית צפיפות $f(x)$.
פונקציית הצפיפות היא דומה אבל שונה מהותית מפונקציית ההתפלגות שהכרנו מקודם.
מה פונקציית הצפיפות אומרת לנו?
פונקציית הצפיפות אומרת לנו כמה הסתברות יש ליחידת שטח. זה לא כמה הסתברות יש כאן.
זה לא אומר: פונקציית הצפיפות לא אומרת שההסתברות לקבל ערך בנקודה מסוימת היא למשל 0.1.
הבדל חשוב: בפונקציית הצפיפות, אף אחד לא מכריח את פונקציית הצפיפות להיות קטנה מאחד.
איך לחשוב על פונקציית הצפיפות?
הדרך הנכונה לחשוב על פונקציית הצפיפות היא שאם הערך בנקודה מסוימת הוא בערך 0.05, ואני מסתכל על טווח קטן באורך $\Delta x$ (טווח קטן באורך 0.1 או מה שתבחרו), אז ההסתברות להיות בתוך הטווח הזה (שבו הצפיפות היא בערך 0.05) היא:
\[P(X \in \text{interval}) = \text{interval width} \times \text{density} = \Delta x \times 0.05\]או בניסוח פורמאלי יותר:
\[P(a \leq X \leq b) = \text{range width} \times \text{density} = \Delta x \times 0.05\]חישוב הסתברויות
אם אני רוצה לדעת מה ההסתברות להיות בין $A$ ל-$B$, אני יכול לעשות את החישוב הבא:
- אני מחלק את הטווח בין $A$ ל-$B$ לחתיכות קטנות
- בכל חתיכה קטנה:
- אני מסתכל על הצפיפות מעליה
- אני כופל את אורך הטווח בצפיפות
- אני מוסיף את כל ההסתברויות של כל הטווחים הקטנים
אם אני לוקח לכל אורך הטווח $A$ עד $B$ מקטעים מספיק קטנים, אני אקבל את ההסתברות להיות בין $A$ ל-$B$.
זה דומה מאוד לאינטגרל - ספציפית לאינטגרל רימן.
החישוב של ההסתברות מתבצע על ידי חישוב השטח מתחת לעקומה. השטח הזה מחשבים באמצעות אינטגרל:
\[P(A \leq X \leq B) = \int_A^B f(x) \, dx\]הבדלים בין משתנה מקרי בדיד לרציף
משתנה מקרי בדיד
תכונה | משתנה מקרי בדיד |
---|---|
הגבלות על הסתברויות | כל הסתברות חייבת להיות קטנה מאחד, גדולה מאפס |
חישוב הסתברות קבוצה | ההסתברות של קבוצת ערכים היא סכום ההסתברויות שלהם: $P(X = x_1 \text{ או } X = x_2) = P(X = x_1) + P(X = x_2)$ |
נרמול | סכום ההסתברויות של כל הערכים הוא אחד |
הסתברות ערך בודד | $P(X = x_i) = p_i$ |
משתנה מקרי רציף
תכונה | משתנה מקרי רציף |
---|---|
הגבלות על צפיפות | הצפיפות יכולה להיות כל ערך אי-שלילי (כל ערך חיובי או אפס). שום דבר לא מכריח את הצפיפות להיות קטנה מאחד |
חישוב הסתברות טווח | ההסתברות של ערכים בתחום מסוים היא השטח המתאים מתחת לעקומה: $P(A \leq X \leq B) = \int_A^B f(x) \, dx$ |
נרמול | סך כל השטח מתחת לעקומה הוא אחד: $\int_{-\infty}^{\infty} f(x) \, dx = 1$ |
הסתברות ערך בודד | ההסתברות של ערך בודד היא 0: $P(X = c) = 0$ |
נקודה חשובה: הסתברות ערך בודד
במשתנה מקרי בדיד:
- $P(X = 2) = 0.375$
- $P(X = 0) = 0.125$
לעומת זאת, במשתנה מקרי רציף: ההסתברות של ערך בודד היא 0.
זה מאוד מוזר כי אנחנו מקבלים ערך כלשהו, אבל איכשהו הסיכוי לקבל אותו הוא 0. זה בגלל הגדרות מתמטיות של איך שאנחנו מגדירים הסתברות.
הערה: אם אתם מבינים את זה, החיים שלכם בעולם של הסטטיסטיקה יהיו הרבה יותר קלים. אתם תבינו את כל המניפולציות שנעשה עם משתנים מקריים נורמליים ושטח מתחת לעקומה.
הסתברות של ערך בודד במשתנה מקרי רציף
כשאנחנו מאוד קרובים ל-$A$, בואו נגיד לא על $A$, אבל מאוד קרוב ל-$A$, אנחנו לוקחים את $B$ להיות יותר קרוב ל-$A$, ואז השטח מתחת לעקומה קטן.
ככל שנקח את $B$ יותר ויותר קרוב ל-$A$, השטח מתחת לעקומה יצטמצם ויצטמצם, עד שבסוף אם נקח את $B$ להיות שווה ל-$A$ - זאת אומרת נסתכל על ההסתברות של $X$ בין $A$ ל-$A$ (שזו ההסתברות ל-$X$ להיות שווה בדיוק ל-$A$) - נקבל שהשטח מתחת לעקומה הוא 0.
זה הגיוני: אינטגרל ממספר עד אותו מספר הוא 0:
\[P(X = A) = \int_A^A f(x) \, dx = 0\]זאת אומרת השטח מתחת לעקומה יהיה 0.
המסקנה החשובה
השורה התחתונה היא שבמשתנים מקריים רציפים אין לנו מה לדבר על ערך קונקרטי. אנחנו תמיד צריכים לדבר על טווח. הסיכוי לכל ערך ספציפי, לכל ערך בודד, היא 0. הסיכויים היחידים שרלוונטיים הם לטווח כלשהו.
תוחלת של משתנה מקרי רציף
איך אנחנו מגדירים תוחלת של משתנה מקרי רציף?
ההגדרה למי שמכיר נראית מאוד אינטואיטיבית. כל מה שאנחנו עושים זה מחליפים סכומים באינטגרלים - זה בגדול הכל.
השוואה בין בדיד לרציף
משתנה מקרי בדיד
עבור משתנה מקרי בדיד התוחלת היא ממוצע משוקלל של הערכים - לכל ערך אנחנו נותנים את המשקל הראוי לו:
\[\mathbb{E}[X] = \sum_i x_i \cdot P(X = x_i)\]משתנה מקרי רציף
עבור משתנה מקרי רציף - בדיוק אותו דבר. לכל ערך $x$, אנחנו נותנים באינטגרל משקל לפי הצפיפות הרלוונטית לו:
\[\mathbb{E}[X] = \int_{-\infty}^{\infty} x \cdot f(x) \, dx\]עכשיו, כמובן שאין משמעות לערך יחיד, אבל כשאנחנו עושים אינטגרל משוקלל לפי פונקציית הצפיפות, אנחנו מקבלים משהו שהוא באמת מרכז הכובד של ההתפלגות.
שונות של משתנה מקרי רציף
משתנה מקרי בדיד
עבור משתנה מקרי בדיד, אנחנו מסתכלים על סטיות מהתוחלת, מעלים אותן בריבוע, ומשקללים אותן לפי ההסתברות של כל סטייה:
\[\text{Var}(X) = \sum_i (x_i - \mathbb{E}[X])^2 \cdot P(X = x_i)\]משתנה מקרי רציף
במשתנה מקרי רציף, אנחנו עושים דבר אנלוגי לחלוטין. אנחנו לוקחים סטיות מהתוחלת, מעלים אותן בריבוע, ומשקללים אותן לפי פונקציית הצפיפות:
\[\text{Var}(X) = \int_{-\infty}^{\infty} (x - \mathbb{E}[X])^2 \cdot f(x) \, dx\]סיכום המושגים הסטטיסטיים
- התוחלת היא סוג של ממוצע של הערכים של $x$ שאנחנו משקללים על פי ההסתברות
- השונות היא ממוצע של ריבוע סטיות, והיחידות שלה הן יחידות של $x$ בריבוע
- סטיית התקן אנחנו תמיד נגדיר להיות שורש השונות, והיחידות שלה כמו $x$:
האינטואיציה החשובה
התוחלת היא העוגן שלכם. התוחלת היא איפה, סביב מה המשתנה המקרי שלנו מסתובב.
דוגמה: הנסיעות לצפת
הדרך לצפת היא בערך 70 קילומטר (נראה לי 75, לא יודע, משהו כזה) בתוחלת או בממוצע. זה העוגן שלנו.
זאת אומרת, כל נסיעה לצפת מהבית תהיה סביב הערך הזה. היא תתייחס לערך הזה או תסתובב סביבו. לא פתאום מיליון קילומטר או אלף קילומטר.
אז התוחלת היא העוגן, וכמה אנחנו מסתובבים סביב אותו עוגן - יחידת המידה היא סטיית התקן.
זה נורא חשוב להבין במשתנים מקריים נורמליים שאנחנו נראה אותם היום.
אם אנחנו רוצים לדעת כמה אנחנו מסתובבים סביב העוגן שלנו, אנחנו צריכים למדוד את הסיבוב שעשינו ביחידות של סטיית תקן. אין לנו טעם למדוד סטייה מהעוגן, ממרחק הנסיעה הממוצע, בסנטימטרים או בשנות אור.
יחידת המידה הנכונה, הסטטיסטית, היא סטיית התקן.
פונקציית הישרדות
פונקציה חשובה שתעזור לנו גם בהמשך, כשנחקור בעיקר בתור רופאים (זה נורא נפוץ במחקר רפואי), הוא הנושא של הישרדות.
הגדרה
פונקציית ההישרדות (באנגלית: Survival Function) של ערך כלשהו $x$ מוגדרת כההסתברות למשתנה מקרי נתון להיות גדול מאותו $x$:
\[S(x) = P(X > x)\]לכל משתנה מקרי יש פונקציית הישרדות שונה.
ההסתברות הזו להיות גדול מ-$x$ זה בעצם ההסתברות להיות בין $x$ הזה לאינסוף, ולכן פונקציית ההישרדות היא:
\[S(x) = \int_x^{\infty} f(s) \, ds\](שמנו כאן את משתנה האינטגרציה $s$, כדי שלא נתבלבל עם $x$)
תכונות פונקציית ההישרדות
- מה היא עושה: היא מקבלת ערכים ממשיים ומחזירה הסתברויות
- השם שלה מגיע מתחום שנקרא ניתוח הישרדות, שאני מאוד מקווה שנגיע אליו כי הוא רלוונטי לכם בתור רופאים
יישומים רפואיים
בתחום של ניתוח הישרדות נשאל: מה הסיכוי לחולה לשרוד יותר משנתיים? - שאלה רפואית שהיא מאוד רלוונטית.
פונקציית ההישרדות ההופכית
ההופכית של פונקציית ההישרדות עונה לשאלה: מהו הזמן שהסיכוי לשרוד מעבר לו הוא $x$?
למשל, אנחנו רוצים לדעת מהו הזמן שמעבר לו חצי מהחולים ישרדו. אז אנחנו מחשבים את פונקציית ההישרדות ההופכית.
שאלות הפוכות
- פונקציית ההישרדות אומרת לנו: מה הסיכוי לחולה לשרוד יותר משנתיים?
- ההופכית של פונקציית ההישרדות אומרת: מהו הזמן שמעבר לו חצי מהחולים שורדים? או שליש? או רבע מהחולים שורדים?
הבהרה לגבי פרשנות
שאלה: ההופכית מתייחסת לחולים או גם לחולה אחד?
תשובה: את יכולה לחשוב עליה כמתייחסת לאוכלוסייה:
- גישה ראשונה: מהו הזמן שמעבר לו חצי מהחולים באוכלוסייה ישרדו? (אם יש לך אוכלוסייה של זיליארד חולים)
- גישה שנייה: מהו הזמן שמעבר לו הסיכוי לחולה היחיד מולי לשרוד הוא אותו חצי או שליש או רבע?
המשמעות היא אותה משמעות. מה שיותר קל לך - אם יותר קל לך לחשוב על חולה יחיד והסתברות עבור חולה יחיד, תחשבי על חולה יחיד. אם יותר קל לך לחשוב על אוכלוסייה מאוד גדולה ואחוזים מתוך האוכלוסייה הזו, תחשבי על אוכלוסייה גדולה.
סימונים
ההופכית של פונקציית ההישרדות מסומנת ב-$S^{-1}$ או בקיצור של Inverse.
- $S$ (Survival Function): מקבלת הסתברויות (זאת אומרת מספרים בין 0 ל-1) ומחזירה מספר ממשי שהוא הקאט-אוף הרלוונטי
- אנחנו נשתמש בפונקציה הזו גם מחוץ לניתוח הישרדות במשתנים מקריים נורמליים
משתנה מקרי אחיד
משתנה מקרי אחיד סטנדרטי
הדוגמה הראשונה, ואולי הכי פשוטה, למשתנה מקרי רציף היא משתנה מקרי אחיד סטנדרטי.
זה משתנה מקרי שמקבל בסיכוי שווה כל ערך בין 0 ל-1.
מאפיינים
- סימון: $X \sim U(0,1)$ (יוניפורמי/אחיד)
- פונקציית הצפיפות:
- התוחלת: $\mathbb{E}[X] = \frac{1}{2}$ - נמצאת בדיוק באמצע ההתפלגות
זה הגיוני - זה מרכז ההתפלגות, זה מרכז הכובד של ההתפלגות. ככה אנחנו חושבים על תוחלת: האמצע, מרכז הכובד, משהו שקרוב לכולם או רחוק מכולם באותה מידה.
זו ההתפלגות הרציפה הפשוטה ביותר.
פונקציית הישרדות של המשתנה האחיד
פונקציית ההישרדות של אותו משתנה מקרי אחיד:
- עבור ערך 0: הסיכוי להיות גדול מ-0 הוא 1, אז $S(0) = 1$
- עבור הערך 1: הסיכוי להיות גדול מ-1 הוא 0 (בגלל שאין כאן שום דבר מעבר ל-1), אז $S(1) = 0$
- ובגלל שהמשתנה המקרי הזה כל כך נעים לעין והוא אחיד, הירידה בפונקציית ההישרדות היא בשיפוע אחיד, בקו ישר
משתנה מקרי אחיד כללי
דוגמה טיפה יותר מסובכת: משתנה מקרי אחיד $X$ שמקבל בסיכוי זהה כל ערך בין $A$ ל-$B$ (כאשר $A$ ו-$B$ הם מה שהם).
מאפיינים
- סימון: $X \sim U(A,B)$ (יוניפורמי בין $A$ ל-$B$)
- פונקציית הצפיפות:
וידוא נרמול
השטח הכולל חייב להיות 1:
- הצפיפות היא $\frac{1}{B-A}$
- אורך הקטע הוא $B-A$
- השטח: $(B-A) \times \frac{1}{B-A} = 1$ ✓
דוגמה למה הצפיפות יכולה להיות גדולה מ-1
שימו לב שאם נקח $B$ מאוד קרוב ל-$A$ (נגיד במרחק של חצי מ-$A$), הצפיפות תהיה $\frac{1}{\text{distance}} = \frac{1}{0.5} = 2$.
זו דוגמה מאוד פשוטה שמסבירה לנו למה אין שום סיבה שהצפיפות תהיה קטנה מ-1.
הצפיפות היא כמה הסתברות יש לי ליחידת אורך. היא לא כמה הסתברות יש לי כאן - היא לא חייבת להיות קטנה מ-1, אלא האינטגרל שלה הוא 1 (השטח הכולל).
דוגמאות מעשיות
- זמן המתנה לאוטובוס שמגיע פעם ב-10 דקות:
- הגעתם לתחנה, אתם לא יודעים מתי הוא יגיע
- אין סיבה שהוא יגיע תוך 5 דקות בסיכוי גבוה יותר מתוך 6 דקות
- יכול להיות גם שבדיוק פספסתם אותו באותה מידה שהגעתם שנייה לפני שהוא הגיע
- זמן ההמתנה: $U(0,10)$
- סיכוי לפיק בדופק בחולה שהדופק מנוחה שלו הוא 60:
- תגיעו אליו מתי שהוא במשך שנייה
- הסיכוי לפיק מתי שהגעתם יהיה אחיד על פני השנייה הזו
- התפלגות: $U(0,1)$ על פני השנייה
- מיקום של רקומבינציה על כרומוזום:
- אם אורך הכרומוזום הוא $L$
- רקומבינציה לא מעדיפה אזור כזה או אזור אחר
- הסבר: יש לכם שני כרומוזומים והם נחתכים, אז אחד מתחבר לשני במקום שהשני נחתך ולהפך - זה רקומבינציה
- אין שום סיבה שרקומבינציה תקרה במיקום כזה או במיקום אחר
- הסיכוי למיקום של רקומבינציה: $U(0,L)$ (לפחות בקירוב)
משתנה מקרי מעריכי (אקספוננציאלי)
משתנה מקרי אקספוננציאלי או מעריכי הוא האנלוג הרציף של המשתנה המקרי הגיאומטרי - וככה אתם צריכים לחשוב עליו.
הקשר לגיאומטרי
משתנה מקרי אקספוננציאלי זה כמו משתנה מקרי גיאומטרי, רק שאנחנו מודדים זמן רציף.
אתם יכולים לחשוב עליו בתור זמן ההמתנה עד שיקרה אירוע, כשאירוע יכול לקרות בכל פרק זמן באותה הסתברות.
מאפיינים
- פרמטר: נקבע על ידי קצב $\lambda$ (למדה חיובי)
- סימון: $X \sim \text{Exp}(\lambda)$ (אקספוננציאלי עם פרמטר למדה)
- פונקציית הצפיפות:
(מכאן גם מגיע השם אקספוננציאלי/מעריכי - כי הצפיפות היא מעריכית)
- התוחלת: $\mathbb{E}[X] = \frac{1}{\lambda}$
תכונת חוסר הזיכרון
כמו משתנה מקרי גיאומטרי, גם המשתנה המעריכי מאופיין על ידי תכונת חוסר הזיכרון: העתיד אינו תלוי בעבר בהינתן ההווה.
דוגמה קלאסית: התפרקות רדיואקטיבית
דוגמה קלאסית למשתנה מקרי מעריכי היא כמה זמן אנחנו צריכים לחכות להתפרקות רדיואקטיבית (מי שעוסק ברדיולוגיה אולי זה יהיה לו רלוונטי).
התפרקות רדיואקטיבית למשל של אורניום או של רדיום:
- אנחנו מחכים, האטום עושה משהו
- הוא מתי שהוא רוצה מתפרק
- בכל פרק זמן יש לו סיכוי שווה להתפרק
חוסר הזיכרון: אם חיכיתי דקה שאותו אטום יתפרק, זה לא אומר לי שום דבר על כמה אני צריך לחכות בעתיד. זה שחיכיתי עכשיו שעה או דקה או יובל לא אומר שום דבר על כמה אני צריך לחכות, מעבר לידע של הפרמטר $\lambda$.
השוואה לגיאומטרי
אתם רואים את האנלוגיה למשתנה המקרי הגיאומטרי:
גיאומטרי | מעריכי | |
---|---|---|
פרמטר | סיכוי הצלחה $p$ | קצב $\lambda$ |
תוחלת | $\frac{1}{p}$ | $\frac{1}{\lambda}$ |
מאפיין | זמן בדיד | זמן רציף |
ובשניהם התוחלת היא אחד חלקי הפרמטר. באמת אלה משתנים מקריים שההתנהגות שלהם מאוד דומה.
פונקציית הישרדות
פונקציית ההישרדות מופיינת על ידי דעיכה מעריכית:
\[S(x) = P(X > x) = e^{-\lambda x}\]וזו דעיכה מעריכית.
דוגמה: קוהורט חולים
אם יש לי קוהורט (אוסף חולים), נגיד מיליון חולים, שזמן ההישרדות שלהם מוכתב על ידי משתנה מקרי אקספוננציאלי:
אחרי זמן $x$, $e^{-\lambda x}$ מהם יישרדו, והשאר כבר לא שרדו.
רלוונטות רפואית
אתם תתעסקו במשתנה מקרי מעריכי שוב בניתוח הישרדות - נושא מאוד חשוב למי שמתעסק בתרופות וזמן הישרדות אחרי מתן תרופה, או זמן שרידה של החולה אחרי מתן תרופה.
זה המודל הכי פשוט לפונקציית הישרדות. כנראה שלא נגיע לזה, אבל מונחים שבהמשך הקריירה שלכם כנראה תתעסקו בהם. כמה שיותר מוקדם ויותר טוב להכיר את זה.
המשתנה המקרי הנורמלי
המשתנה המקרי האחרון שאני רוצה להציג לכם היום הוא המשתנה המקרי הנורמלי.
חשיבות המשתנה הנורמלי
כנראה המשתנה המקרי הכי חשוב לסטטיסטיקה, לכמעט - אולי אפילו כמעט כל דבר שתעשו.
למה הוא כל כך חשוב?
- ממדל המון תופעות בטבע
- ההבנה היסודית של המשתנה המקרי הנורמלי תעזור לנו מאוד להבין:
- מבחנים סטטיסטיים
- בדיקת השערות
- רווחי סמך
- אלה בתורם יפתחו לכם את הפתח להבנה של מבחנים יותר מתקדמים
- וכל הקונספט הזה של איך בכלל סטטיסטיקה עובדת
הגדרות ודוגמאות
השם והמאפיינים
המשתנה המקרי הנורמלי נקרא גם גאוסיאן (Normal Random Variable / Gaussian באנגלית).
יש לו התפלגות בעלת צורה שכולם קוראים לה צורת פעמון. (לי זה לא תמיד נראה דומה לפעמון, אבל כולם קוראים לזה פעמון, אז מי אני שאתווכח?)
תופעות שמתפלגות נורמלית
המון תופעות מתפלגות נורמלית, בקירוב:
מדדים פיזיולוגיים
- גובה, משקל
- לחץ דם, קולסטרול
מבחנים
- בגרות, פסיכומטרי
תופעות מדעיות
- טעויות מדידה (המון פעמים מקובל להניח, או רואים שהן נורמליות)
- ממוצע מדגם וגדלים אחרים בעלי חשיבות מאוד גדולה בסטטיסטיקה
משפט הגבול המרכזי - הסבר ראשוני
ממוצע מדגם וגדלים אחרים מתנהגים נורמלית בגלל משהו שאנחנו נכיר בהמשך, שנקרא משפט הגבול המרכזי.
ספוילר קטן: משפט הגבול המרכזי אומר שאם תיקחו הרבה מאוד השפעות קטנות ותסכמו אותן, תקבלו משתנה מקרי נורמלי.
דוגמה: גובה האדם
אתם יכולים לראות איך גובה למשל נקבע על פי המון גורמים:
- פיזיולוגיים
- גנטיים
- תזונתיים
- אולי אפילו חינוך (אם מחנכים אתכם להיות גבוהים)
- גן הזה, ומה שאכלתם ארוחת צהריים בגיל שלוש
- המון גורמים אינדיווידואליים בלתי תלויים קטנים
כשהמון גורמים קטנים משתפים פעולה וכל אחד נותן את התרומה שלו, התוצאה היא התפלגות נורמלית.
מכאן החשיבות: ההתפלגות הנורמלית כל כך נפוצה כי היא מגיעה מסכום של הרבה התפלגויות קטנות, בלי קשר למה הן ההתפלגויות האלה.
הכלל: אם תיקחו המון גורמים קטנים ותסכמו אותם, כמעט תמיד תקבלו משתנה מקרי נורמלי.
נוסחת הצפיפות
נוסחת הצפיפות של משתנה מקרי נורמלי היא:
\[f(x) = \frac{1}{\sqrt{2\pi\sigma^2}} \cdot e^{-\frac{(x-\mu)^2}{2\sigma^2}}\]פירוק הנוסחה
בואו נפרק את זה:
גורם הנרמול
\[\frac{1}{\sqrt{2\pi\sigma^2}}\]הגורם שבשבר הוא גורם נרמול. אתם יכולים לשכוח ממנו.
כשתצטרכו אותו, תצטרכו אותו, אבל אתם יכולים לפחות בהתחלה פשוט לשכוח ממנו. תגידו - יש משהו מקדימה, יש איזה משהו שדואג לנרמל את כל הצפיפות הזו ל-1.
האקספוננט - המקום שקורה האקשן
\[e^{-\frac{(x-\mu)^2}{2\sigma^2}}\]יש לנו צפיפות שהיא בחזקת מינוס, משהו בריבוע במונה, חלקי $2\sigma^2$ ($\sigma^2$ שונות, או $\sigma$ סטיית תקן).
האינטואיציה
למה הדבר הזה כל כך חשוב? ולמה שווה לנו להתעכב עליו ולהבין אותו?
הצפיפות ב-$x$ נקבעת בעצם על פי הערך של:
\[\frac{(x - \mu)^2}{2\sigma^2}\]זה:
- $x$ פחות התוחלת $\mu$ (מיו זה תמיד התוחלת, מרכז ההתפלגות)
- בריבוע (סטייה ריבועית מהתוחלת)
- חלקי סטיית התקן בריבוע
או לחילופין: $\left(\frac{x - \mu}{\sigma}\right)^2$ - סטייה מהתוחלת, מחולקת בסטיית התקן, כל זה בריבוע.
מה זה אומר לנו?
- מרכז ההתפלגות נמצא ב-$\mu$
- ההתפלגות סימטרית סביב התוחלת שלה $\mu$
- הרוחב האופייני של ההתפלגות הוא סטיית התקן $\sigma$
המרחק האופייני ממרכז ההתפלגות (מהעוגן שלנו) הוא $\sigma$ - סטיית התקן.
התנהגות הצפיפות
- ככל ש-$x$ רחוק יותר מ-$\mu$ (ולא משנה לאיזה כיוון), האקספוננט שלילי יותר
- אם $\vert x - \mu \vert $ גדול מאוד, אז $(x - \mu)^2$ יהיה גדול
- $e^{-\text{big value}}$ הוא קטן
- לכן ההסתברות להיות רחוק ממרכז ההתפלגות קטנה
בצורה דומה: ככל שסטיית התקן $\sigma$ גדלה, הצפיפות דועכת קטן יותר לאט.
סימונים ופרמטרים
סימון סטנדרטי
אנחנו מסמנים משתנה מקרי נורמלי כזה ב:
\[X \sim \mathcal{N}(\mu, \sigma^2)\]הערה חשובה: תמיד כאן כותבים $\sigma^2$ (לא כותבים נגיד $100$ או $10,000$), אבל מה שאתם כותבים כאן זו השונות.
פרמטרים
- התוחלת של משתנה מקרי כזה היא $\mu$, כמו שאמרנו
- אפשר גם לראות שמרכז ההתפלגות הוא בדיוק האמצע הזה, $\mu$
- השונות היא $\sigma^2$
- סטיית התקן היא $\sigma$
אנחנו לא נוכיח את הנוסחה הזו - לא נראה שאם עושים את האינטגרל וכל הבלגנים האלה של הסטייה הריבועית מהתוחלת, באמת מקבלים $\sigma^2$, אבל תצטרכו להאמין לי.
מה שחשוב שוב: סטיית התקן היא $\sigma$.
המשתנה הנורמלי הסטנדרטי
הגדרה
משתנה מקרי נורמלי סטנדרטי (דוגמה סופר חשובה של משתנה מקרי נורמלי) מתקבל כאשר:
- התוחלת היא 0: $\mu = 0$
- השונות היא 1: $\sigma^2 = 1$ (ולכן $\sigma = 1$)
סימון
אנחנו מסמנים משתנה מקרי כזה ב:
\[Z \sim \mathcal{N}(0, 1)\]תכונות חשובות
כמו שאמרנו:
- ההתפלגות סימטרית סביב התוחלת $\mu$
- השטח מתחת להתפלגות הוא 1 (כמו בכל התפלגות)
- השטח מימין לתוחלת (משיקולים של סימטריה) הוא $\frac{1}{2}$
- שווה לשטח שמשמאל לתוחלת
לכן:
- הסיכוי להיות גדול מהתוחלת (השטח מתחת לעקומה מ-$\mu$ עד אינסוף) הוא $\frac{1}{2}$
- הסיכוי להיות קטן מהתוחלת הוא גם בדיוק $\frac{1}{2}$
מיקום הערכים
- כל הערכים האפשריים וההסתברות שלהם היותר גבוהה מרוכזים סביב התוחלת
- אתם רואים שהצפיפות סביב התוחלת היא הכי גבוהה
- אז אם אתם זוכרים השכיח מסטטיסטיקה תיאורית - השכיח כאן הוא גם התוחלת
התנהגות בקצוות
- ההתפלגות שואפת ל-0 ב-$x$ גדול וב-$x$ קטן מאוד
- הצפיפות היא כמעט אפס ב-$x$ גדול וב-$x$ קטן
חוק מעשי: אם אני מתרחק 4 סטיות תקן ממרכז ההתפלגות (מהתוחלת), לכל צורך ועניין הסיכוי הוא כמעט אפס.
אז אין לכם מה להסתכל אם משהו קורה בסיכוי של 4 סטיות תקן מהתוחלת - אז הוא לא יקרה, אלא אם יש לכם אוכלוסייה עצומה.
סטיית התקן כקנה מידה
כמו שאמרנו הרבה פעמים: סטיית התקן היא קנה המידה לסטיות אופייניות מהתוחלת.
אני אצפה לראות סטייה בטווח של סטיית תקן (פחות או יותר לכאן או לכאן) הרבה יותר מאשר סטייה של עשר סטיות תקן (שזה השטח שיהיה לי אולי במרכז, ממש צמוד לתוחלת).
סטיית התקן אומרת לכם איפה נמצא, באיזה טווח נמצא הבשר של ההתפלגות.
השוואה בין התפלגויות נורמליות שונות
איך נראות התפלגויות נורמליות?
התפלגות סטנדרטית (באדום)
התפלגות נורמלית סטנדרטית עם תוחלת 0 ושונות 1.
השפעת השונות על הרוחב
- אם אני מקטין את השונות (למשל לשונות 0.2), אני מקבל את העקומה הכחולה:
- העקומה הופכת צרה יותר
- הקטנתי את השונות = הפחתתי את אי הוודאות = הגדלתי את הוודאות
- לכן הערכים ממוכרזים יותר סביב התוחלת
- ואין ברירה - בגלל שהערכים ממוכרזים סביב התוחלת, הצפיפות צריכה להיות יותר גבוהה
- אם אני מגדיל את סטיית התקן (לחמש), את השונות (ל-25):
- אני מגדיל את אי הוודאות
- אני מורח את ההתפלגות
- הוודאות קטנה
- ולכן הצפיפות להיות כאן באמצע קטנה
השפעת התוחלת על המיקום
הדוגמה הרביעית כאן היא משתנה מקרי נורמלי עם שונות $\frac{1}{2}$ (שזה קצת פחות רחב מהסטנדרטי) אבל התוחלת הוזזה ל-$(-2)$.
אז כל הקונסטרוקציה הירוקה הזו - כל הצפיפות הירוקה - פשוט זזזנו אותה שמאלה בשני יחידות.
הבנה מעמיקה יותר של הנוסחה
חזרה על הנוסחה
הצפיפות היא ביחס ישר ל:
\[e^{-\frac{(x-\mu)^2}{2\sigma^2}}\](היה כאן $\frac{1}{\sqrt{2\pi\sigma^2}}$ - זה לא מעניין אותנו כרגע, זה קבוע נרמול בלבד)
אנחנו רוצים להבין את האקספוננט - שם מתרחש האקשן.
איך האקספוננט עובד?
ככל ש-$x$ רחוק יותר מ-$\mu$ (ולא משנה לאיזה כיוון), האקספוננט שלילי יותר:
- אם $\vert x - \mu \vert $ גדול מאוד
- אז $(x - \mu)^2$ יהיה גדול
- הערך $\frac{(x-\mu)^2}{2\sigma^2}$ יהיה גדול
- $e^{-\text{big value}}$ זה קטן
- לכן ההסתברות להיות רחוק ממרכז ההתפלגות קטנה
השפעת סטיית התקן
ככל ש-$\sigma$ (סטיית התקן) גדלה, הצפיפות דועכת קטן יותר לאט.
הסבר: אם $\sigma$ גדל, אז בשביל שהדבר הזה $\frac{(x-\mu)^2}{2\sigma^2}$ יהיה שווה (נגיד) $3$, אני צריך לצעוד יותר רחוק מהתוחלת שלי.
דוגמה מספרית
- אם $\sigma = 1$ ואני רוצה ש-$\frac{(x-\mu)^2}{2\sigma^2} = 3$, אני צריך לצעוד מרחק מסוים
- אם $\sigma = 10$ ואני רוצה שאותו ביטוי יהיה שווה $3$, אני אצטרך לצעוד הרבה יותר רחוק מהתוחלת
דוגמאות של משתנה מקרי נורמלי
יש אין ספור דוגמאות מהספרות:
דופק במנוחה
דופק במנוחה באוכלוסייה הוא קצת פחות מ-80. אתם רואים שאם אתם לוקחים דגימות של אנשים באוכלוסייה ומציירים את ההתפלגות, היא נראית די דומה להתפלגות נורמלית.
משקל לידה
אנחנו יודעים שמשקל לידה מתפלג עם:
- תוחלת: 3.39 ≈ 3.4 ק”ג
- סטיית תקן: 0.55 ק”ג
- שונות: $(0.55)^2$ ק”ג²
ואם אנחנו מציירים העקומה סביב התוצאות האלה, באמת היא נראית נורמלית.
המסקנה: ההתפלגות הנורמלית מופיעה המון פעמים בטבע, או ספציפית ברפואה.
טרנספורמציות לינאריות של משתנה נורמלי
לפני שנבין את הנושא של תקנון, נחזור שנייה לטרנספורמציות לינאריות ונתמקד בטרנספורמציות לינאריות עבור משתנה מקרי נורמלי.
המשפט החשוב
אם $X$ משתנה מקרי נורמלי שמתפלג $\mathcal{N}(\mu, \sigma^2)$ ואני כותב:
\[Y = AX + B\]כאשר $A$ ו-$B$ הם סתם מספרים, ו-$X$ מתפלג נורמלית עם תוחלת $\mu$ ושונות $\sigma^2$,
אז $Y$ גם תהיה התפלגות נורמלית, ואנחנו כבר יודעים את הפרמטרים של אותה התפלגות על פי החוקים שפיתחנו מקודם.
התוחלת של הטרנספורמציה
התוחלת מתנהגת תמיד כמו שאנחנו רוצים (אמרנו: תוחלת של סכום זה סכום תוחלות, טרנספורמציה לינארית על תוחלת זה פשוט תציב בפנים את התוחלת).
תוחלת מתנהגת יופי:
\[\begin{aligned} \mathbb{E}[Y] &= \mathbb{E}[AX + B] \\ &= A \cdot \mathbb{E}[X] + B \\ &= A\mu + B \end{aligned}\]השונות של הטרנספורמציה
השונות מתנהגת קצת יותר מוזר. השונות לא מעניין אותה איפה נמצא האמצע, אז לא מעניין אותה שהזזנו את ההתפלגות ימינה או שמאלה ב-$B$.
מעניין אותה רק הסקאלה, כי השונות היא מדד של סקאלה, של קנה מידה.
ובגלל שהשונות - היחידות שלה הן יחידות של המשתנה המקרי בריבוע - הגיוני שהשונות תגדל בריבוע כשאני מכפיל את המשתנה המקרי.
השונות המקורית: $\sigma^2$ כפלתי את המשתנה המקרי $X$ ב-$A$: השונות החדשה היא $A^2\sigma^2$
סטיית התקן של הטרנספורמציה
סטיית התקן היא תמיד שורש השונות. סטיית התקן לא יכולה להיות שלילית.
סטיית התקן מתנהגת בצורה קצת יותר הגיונית או צפויה:
\[\sigma_Y = |A| \cdot \sigma\]סטיית התקן גדלה פי ערך מוחלט $A$.
הדמיה גרפית
בואו נזכר איך ההצגה הגרפית שראינו תקפה גם למשתנים מקריים נורמליים:
-
אני לוקח משתנה מקרי נורמלי ממורכז סביב $\mu$, שקנה המידה האופייני שלו הוא $\sigma$ (סטיית התקן שלו הוא $\sigma$), אז יש לי סטייה $\pm\sigma$ לכל כיוון
-
אני לוקח את המשתנה המקרי הזה ומוסיף לו קבוע $B$: דחפתי את כל המסה של ההתפלגות ימינה. התוחלת פשוט זזה ימינה - התוחלת קיבלה קבוע אדיטיבי - והרוחב לא השתנה
-
אם לקחתי את אותה התפלגות וכפלתי בקבוע: כל ההתפלגות נמרחת לכיוון (ימין אם הקבוע שלי גדול מ-0). התוחלת נזרקה ימינה ל-$A \cdot \mu$, והרוחב של ההתפלגות גם גדל פי-$A$ (מה שאומר שסטיית התקן גדלה פי-$A$ כי $A$ חיובי, והשונות גדלה פי-$A^2$ כי סטיית התקן בריבוע היא השונות)
תקנון - הפעולה הכי חשובה
תקנון היא לדעתי הפעולה הכי חשובה שאתם יכולים ללמוד על משתנה מקרי נורמלי.
כלל הזהב
אם יש לכם שאלה במבחן, בתרגיל הבית, לא משנה איפה - שאלה עם משתנה מקרי נורמלי, דבר ראשון תעשו תקנון.
אני אגיד את זה שוב: אנחנו נבין טוב מה זה תקנון.
יש לכם בעיה עם משתנה מקרי נורמלי? דבר ראשון תעשו תקנון! תזכרו לכם את זה בראש.
מה זה תקנון?
אם $X$ משתנה מקרי נורמלי שמתפלג $\mathcal{N}(\mu, \sigma^2)$, ואני מחסר ממנו את התוחלת ומחלק בסטיית התקן:
\[Z = \frac{X - \mu}{\sigma}\]אני מקבל משתנה מקרי נורמלי סטנדרטי שמסמנים אותו בדרך כלל ב-$Z$.
זו פעולת התקנון - פעולה סופר חשובה לכל העבודה שלנו בהמשך.
למה זה עובד? - הוכחה
זה כולו אלגברה. לפי הנוסחאות שפיתחנו מקודם, כל מה שיש לי כאן זה טרנספורמציה לינארית (כפל בקבוע ותוספת קבוע).
איך מתנהגת התוחלת? איך מתנהגת השונות? ברגע שאני מבין מה קורה לתוחלת ומה קורה לשונות, אני יודע שזה משתנה מקרי נורמלי (הוא מוגדר על ידי התוחלת והשונות - לא צריך יותר מזה שום דבר) וסיימתי.
התוחלת של Z
תוחלת תמיד מתנהגת נעים - תוחלת מאפשרת לכם לעשות את כל השטויות שאתם רוצים לעשות. בתוחלת הכל עובד נקי ונעים ונחמד:
\[\begin{aligned} \mathbb{E}[Z] &= \mathbb{E}\left[\frac{X - \mu}{\sigma}\right] \\ &= \frac{1}{\sigma} \cdot \mathbb{E}[X - \mu] \\ &= \frac{1}{\sigma} \cdot (\mathbb{E}[X] - \mu) \\ &= \frac{1}{\sigma} \cdot (\mu - \mu)\\ &= 0 \end{aligned}\]ניצחתי! תוחלת של המשתנה המקרי הזה היא 0.
השונות של Z
למדנו שהשונות היא הקבוע הכפלי בריבוע כפול השונות המקורית:
\[\text{Var}(Z) = \text{Var}\left(\frac{X - \mu}{\sigma}\right) = \frac{1}{\sigma^2} \cdot \text{Var}(X - \mu)\]אני מתעלם מ-$\frac{\mu}{\sigma}$ (מהקבוע האדיטיבי הזה), וכופל $\frac{1}{\sigma^2}$ את השונות המקורית:
\[\text{Var}(Z) = \frac{1}{\sigma^2} \cdot \sigma^2 = 1\]המסקנה
הטרנספורמציה הזו:
\[Z = \frac{X - \mu}{\sigma}\]מגדירה משתנה מקרי נורמלי סטנדרטי.
זה הגיוני! למה זה הגיוני?
מה אני עושה פה?
שלב 1 - מירכוז: דבר ראשון אני לוקח את המשתנה המקרי וממרכז אותו - דואג שהעוגן שלו יהיה 0. איך אני עושה את זה? מחסר את העוגן האמיתי שלו.
דוגמה: אם אני מסתכל על הנסיעות שלי לצפת - נסיעה ממוצעת נגיד היא 70 קילומטר בתוחלת. בשביל לקבל משתנה מקרי שבו התוחלת היא 0, אני פשוט מחסר 70 מכל נסיעה שלי.
במקום למדוד כמה נסעתי, אני בעצם מודד כמה נסעתי סביב העוגן שלי: האם נסעתי 100 מטר יותר מה-70 קילומטר שלי, או 100 מטר פחות מה-70 קילומטר שלי?
שלב 2 - נרמול: השלב השני יהיה לקחת את הסטיות האלה (סטייה לימין או סטייה לשמאל מהתוחלת) ולנרמל אותן - להשתמש ביחידת המידה היחידה שתקפה במקרה שלי.
יחידת המידה הסטטיסטית
יחידת המידה, קנה המידה, הסרגל - הוא סטיית התקן.
אני רוצה לתבוע לכם את זה לראש, כי זה סופר חשוב וזה יעשה לכם את החיים בהמשך הקורס כל כך קלים וכל כך יותר קלים.
יחידת המידה, הסרגל - הוא $\sigma$.
דוגמה מעשית
אם הסטייה הממוצעת שלי בנסיעות לצפת היא 200 מטר לימין ולשמאל, וסטיתי מהמרחק (מהתוחלת) 100 מטר, אז הערך שאני אקבל יהיה $\frac{100}{200} = 0.5$ - חצי.
חצי שהוא ערך שאני יכול להשוות אותו בין כל משתנים מקריים אחרים.
דוגמה: משקל לידה
למשל, אם אני מסתכל על משקל לידה - תינוקות נולדים במשקל נגיד 3.4, ותינוק נולד במשקל 3.95.
לפי הנתונים ממקודם: זה סטייה של בדיוק סטיית תקן אחת מהממוצע או מהתוחלת.
Z-Score (ציון תקן)
הגדרה
התקנון מעביר אותי לעולם סטנדרטי שבו אני סופר סטיות מהממוצע ביחידות של סטיית תקן.
זה, לדעתי, זה הדרך הכי טובה להבין את התקנון: אני סופר סטיות מהממוצע ביחידות של סטיית תקן.
כמה פעמים סטיית התקן הזו נכנסת לסטייה שמדדתי מהממוצע (מהתוחלת)?
Z נקרא ציון תקן
$Z$ נקרא ציון תקן. לפעמים באנגלית קוראים לו Z-Score.
כמו שאמרנו: מרחק או סטייה מהתוחלת ביחידות של סטיית תקן.
היתרון של Z-Score
Z-Score זה משהו שמאפשר לי להשוות משתנים מקריים שונים - וכל ה-Z-Score חיים באותו עולם.
באמצעות ה-Z-Score אני יכול להשוות סטייה של הנסיעות שלי לצפת למשקל לידה של תינוק. להגיד: “זה יותר קיצוני מזה”.
התקנון מנרמל
ה-Z-Score מתקנן אותי, שם אותי בעולם שבו החיים נעימים, נוחים ומוכרים.
האסטרטגיה הכללית
שלב ראשון בכל בעיה
תמיד לעשות תקנון.
אני רוצה שבשיעור הבא כבר תשרקו את זה. יש לכם משתנה מקרי נורמלי? אפילו בתרגילים היום - משתנה מקרי נורמלי? דבר ראשון תקנון.
למה תקנון כל כך חשוב?
- תקנון מעביר אותנו לעולם נוח - התקנון לוקח משתנה מקרי שאני לא יודע בדיוק מה קורה איתו והופך אותו למשתנה מקרי נורמלי סטנדרטי
- כל העבודה שלי, כל ההכשרה שאני אתן לכם תהיה לעבוד עם משתנים מקריים נורמליים סטנדרטיים
- ואז בסוף לחזור ולהסיק מסקנות עבור המשתנה המקרי המקורי
הפרוצדורה הסטנדרטית
זה תמיד הפרוצדורה (אולי לא תמיד, כמעט תמיד):
- קיבלתם משתנה מקרי נורמלי - קיבלתם דאטה, לא יודע מה
- דבר ראשון: תקנון - נעבור לעולם שבו אנחנו מכירים
- ננסה להסיק מסקנות בעולם שבו אנחנו מכירים - העולם של משתנה מקרי נורמלי סטנדרטי
- בסוף: את התוצאות שקיבלנו בעולם הנעים המוכר הזה נחזיר לעולם הרלוונטי לשאלה
זה הבסיס לפרוצדורה הזו - תקנון.
אני רוצה לתבוע לכם את זה לראש, כי זה סופר חשוב וזה יעשה לכם את החיים בהמשך הקורס כל כך קלים וכל כך יותר קלים.
יחידת המידה, הסרגל - הוא $\sigma$.
לסיכום: $Z$ נקרא ציון תקן (Z-Score) - מרחק או סטייה מהתוחלת ביחידות של סטיית תקן. זה מה שמאפשר לנו להשוות משתנים מקריים שונים, וכל ה-Z-Score חיים באותו עולם.
ה-Z-Score מתקנן אותנו, שם אותנו בעולם שבו החיים נעימים, נוחים ומוכרים. אז שלב ראשון בכל בעיה - תמיד לעשות תקנון.
הפרוצדורה הכללית
אני תמיד רוצה לעשות תקנון, לפתור את הבעיה שלי בעולם הפשוט, המתוקנן, ואז את המסקנות להחזיר לעולם האמיתי.
דוגמה מפורטת: גובה בלידה
נתוני הבעיה
נתון: גובה בלידה מתפלג נורמלית עם תוחלת 50 סנטימטר, סטיית תקן של 3 סנטימטר.
שאלה: מה ההסתברות שגובה הלידה יהיה גבוה מ-56 סנטימטר?
שלב 0: פורמליזציה
אני דבר ראשון עושה שלב אפס - פורמליזציה. אני מעביר את הבעיה שלי לעולם המתמטי:
- משתנה מקרי: $X$ מתפלג נורמלית
- פרמטרים: $X \sim \mathcal{N}(50, 3^2)$
- תוחלת: $\mu = 50$
- סטיית תקן: $\sigma = 3$
- שונות: $\sigma^2 = 9$
שאלה מתמטית: מהו הסיכוי ש-$X > 56$?
\[P(X > 56) = ?\]שלב 1: תקנון
דבר ראשון אני מתקנן. אני מתקנן את צד שמאל - מפחית ממנו את התוחלת ומחלק בסטיית התקן. צד ימין (אגף ימין) אני גם מפחית את התוחלת ומחלק בסטיית התקן:
\[\begin{aligned} P(X > 56) &= P\left(\frac{X - \mu}{\sigma} > \frac{56 - \mu}{\sigma}\right) \\ &= P\left(\frac{X - 50}{3} > \frac{6}{3}\right) \\ &= P(Z > 2) \end{aligned}\]התוצאה
- בצד שמאל: קיבלתי משתנה מקרי נורמלי סטנדרטי $Z$
- בצד ימין: קיבלתי $2$
הפרשנות
שימו לב שזה הגיוני! אני שואל מה ההסתברות שגובה הלידה יהיה גבוה מ-56 סנטימטר - אני שואל מה הסיכוי להיות שני צעדים באורך שלוש מעבר לתוחלת. זה כל מה שאני עושה.
העברתי את השאלה לעולם הסטנדרטי - לעולם שבו:
- אני מודד בצעדים באורך סטיית תקן
- אני מודד מרחק מהתוחלת
- בעולם הזה זה שני צעדים ימינה מהתוחלת
לכן אני רוצה לדעת מה הסיכוי ש-$Z > 2$.
שלב 2: חישוב באמצעות פייתון
פייתון נחלץ לעזרתנו. אני מגדיר משתנה מקרי נורמלי סטנדרטי ושואל אותו מה הפונקציית הישרדות שלו עבור הערך 2:
from scipy.stats import norm
# Survival function for x = 2 in standard normal
sf_value = norm.sf(2)
print("P(X > 2) =", sf_value)
אתם יכולים להריץ את הקוד בעורך הפייתון המקוון שלנו.
הפלט יהיה:
P(X > 2) = 0.022750131948179195
מתמטית: זה אומר ש:
\[P(X > 56) = P(Z > 2) = S_Z(2)\]כאשר $S_Z(2)$ היא פונקציית ההישרדות - הסיכוי למשתנה המקרי $Z$ הסטנדרטי להיות גדול מ-2.
התוצאה הסופית
הערך הזה הוא 0.023, זאת אומרת בערך 2.3%.
זה מה שאמרנו: סיכוי להיות גדול מ-2 בפונקציית ההישרדות עבור משתנה מקרי נורמלי מתוקנן.
העיקרון הכללי של התקנון
מה עשיתי?
כל מה שעשיתי זה:
- לקחתי את $X$
- חיסרתי ממנו את התוחלת
- חילקתי בסטיית התקן
- לקחתי את הערך הרלוונטי עבורי (56)
- חיסרתי ממנו את התוחלת
- חילקתי בסטיית התקן
התהליך
אני עושה סטנדרטיזציה (או תקנון) לשני האגפים בהסתברות:
איך אני עושה את התקנון?
- מחסר תוחלת
- מחלק בסטיית תקן
- מקבל משתנה מקרי נורמלי סטנדרטי
מה אני מקבל?
- כאן אני מקבל את הערך הרלוונטי
- את מספר הצעדים ביחידות של סטיית תקן
56 מרוחק שתי סטיות תקן מהתוחלת.
אם הבנתם את זה, מצבכם טוב - אתם תבינו גם את ההמשך.
חישוב הסתברויות - בניית אינטואיציה
המטרה
קצת חישוב הסתברויות בשביל לבנות אינטואיציה. קצת משחקים בשביל לבנות אינטואיציה.
אני רוצה לקבל אינטואיציה עבור ההסתברות של $X$ להיות גדול מ-$C$ כלשהו, ואני אעזור בנוסחה של התקנון.
אני תמיד רוצה לעשות דבר ראשון תקנון (אבל יגיע שלב שזה כבר יהיה אוטומטי).
הפרוצדורה הסטנדרטית
מה שאני רוצה לעשות זה למדוד סטייה מהתוחלת ביחידות של סטיית תקן.
בדוגמה שלנו:
- התוחלת היא 50
- סטיית התקן היא 3
דוגמה 1: P(X > 50)
אני רוצה לחשב את ההסתברות ש-$X > 50$.
חישוב ציון התקן
מהו ציון התקן? אני רוצה לחשב כמה צעדים עשיתי מהתוחלת ביחידות של סטיית תקן:
\[\begin{aligned} Z &= \frac{\text{distance from the mean}}{\text{standard deviation units}} \\ &= \frac{50 - 50}{3} \\ &= \frac{0}{3} \\ &= 0 \end{aligned}\]כאן עשיתי 0 צעדים מהתוחלת (כי אני על התוחלת, לא משנה אם זה יחידות של סטיית תקן או לא).
התוצאה
- ציון התקן: 0
- ההסתברות המתאימה: $P(Z > 0)$
תרגמתי את הבעיה מהעולם המסובך לעולם הנורמלי, והערך הוא בדיוק חצי.
דוגמה 2: P(X > 53)
דוגמה קצת יותר מסובכת. אני רוצה לדעת מה ההסתברות להיות גדול מ-53.
התקנון
אני משתמש בנוסחה - מחסר משני הצדדים את התוחלת ומחלק בסטיית התקן:
\[\begin{aligned} P(X > 53) &= P\left(\frac{X - 50}{3} > \frac{53 - 50}{3}\right) \\ &= P\left(Z > \frac{3}{3}\right) \\ &= P(Z > 1) \end{aligned}\]חישוב ציון התקן
\[Z = \frac{53 - 50}{3} = \frac{3}{3} = 1\]מה שאני עושה כאן זה שוב מודד צעדים מהתוחלת ביחידות של סטיית תקן.
- עשיתי שלושה (אני במרחק שלוש מהתוחלת)
- ביחידות של סטיית תקן (סטיית תקן שווה שלוש)
- זאת אומרת שלוש נכנס בתוך שלוש פעם אחת
ציון התקן שלי הוא אחד.
התוצאה
ההסתברות המתאימה היא ההסתברות של משתנה מקרי נורמלי מתוקנן להיות גדול מאחד: $P(Z > 1)$.
הערך הזה קטן מחצי - תרגמתי את הבעיה בעולם האמיתי לבעיה בעולם המתוקנן.
דוגמה 3: P(X > 51.5)
אני רוצה לדעת מה ההסתברות ל-$X > 51.5$.
התקנון
אני עושה את אותה פרוצדורה - מתקנן:
\[P(X > 51.5) = P\left(\frac{X - 50}{3} > \frac{51.5 - 50}{3}\right) = P\left(Z > 0.5\right)\]חישוב ציון התקן
\[Z = \frac{51.5 - 50}{3} = \frac{1.5}{3} = 0.5\]כמה צעדים זה ביחידות של סטיית תקן? חצי צעד.
- $1.5$ זה חצי מ-$3$
- לכן אני עושה פה חצי צעד ביחידות של סטיית תקן
- ציון התקן שלי הוא חצי
התוצאה
ההסתברות היא $P(Z > 0.5)$ וההסתברות הזו עדיין קטנה מחצי.
דוגמה 4: P(X > 59)
עוד דוגמה - ההסתברות להיות גדול מ-59:
\[P(X > 59) = P\left(\frac{X - 50}{3} > \frac{59 - 50}{3}\right) = P(Z > 3)\]חישוב ציון התקן
\[Z = \frac{59 - 50}{3} = \frac{9}{3} = 3\]גודל הצעד שלי: $\frac{9}{3}$, כלומר עשיתי שלושה צעדים בגודל של סטיית התקן.
- $9$ זה שלושה צעדים באורך $3$
- $\frac{9}{3} = 3$
התוצאה
הסיכוי הזה של $X$ להיות גדול מ-59 הוא ההסתברות של $Z$ (משתנה מקרי נורמלי מתוקנן) להיות במרחק 3 סטיות תקן, או להיות במרחק 3 מהתוחלת (מ-0).
גם הסתברות קטנה מחצי.
דוגמה 5: P(X > 47) - ערך שלילי
אני רוצה לחשב את ההסתברות של $X$ להיות גדול מ-47. פה זה קצת יתחיל לבלבל, אבל אני ממשיך עם אותה פרוצדורה.
התקנון
\[P(X > 47) = P\left(\frac{X - 50}{3} > \frac{47 - 50}{3}\right) = P(Z > -1)\]חישוב ציון התקן
\[Z = \frac{47 - 50}{3} = \frac{-3}{3} = -1\]- עשיתי מינוס - התרחקתי מינוס 3 מהתוחלת
- כמה זה ביחידות של סטיית תקן? $\frac{-3}{3} = -1$
- זאת אומרת: $3$ נכנס ב-$(-3)$ פעם אחת, אבל הוא בכיוון השלילי
ציון התקן הוא מינוס 1. עשיתי צעד 1 שלילי או מינוס צעד בגודל של סטיית תקן.
התוצאה
ההסתברות היא הסתברות של משתנה מקרי נורמלי מתוקנן להיות גדול מ-$(-1)$: $P(Z > -1)$.
והסתברות הזו היא דווקא גדולה מחצי.
תכונות של פונקציית ההישרדות
יחס הפוך בין הפרמטר להסתברות
ככל ש-$c$ גדל, ההסתברות להיות גדול מ-$c$ קטנה. פונקציית ההישרדות יורדת כשהפרמטר שלה גדל.
דוגמה מהתרגילים
בדוגמה הקודמת:
- הסיכוי להיות גדול מ-59 קטן מהסיכוי להיות גדול מ-53
- $P(X > 59) < P(X > 53)$
זה הגיוני - ככל שאנחנו דורשים ערך יותר גבוה, הסיכוי לקבל אותו קטן.
חישוב הסתברויות אחרות במשתנה מתוקנן
תזכורת: אנחנו בעולם המתוקנן
נניח שיש לנו $z_0$ כלשהו שהוא גדול מ-0. אני רוצה לדעת מה ההסתברות של $Z$ קטן מ-$z_0$.
עכשיו אנחנו בעולם המתוקנן - אני לא צריך לתקנן.
כלל 1: המשלים
\[P(Z < z_0) = 1 - P(Z > z_0)\]הסיכוי של $Z$ להיות קטן מ-$z_0$ זה המשלים של הסיכוי להיות גדול מ-$z_0$.
כלל 2: סימטריה
\[P(Z > -z_0) = P(Z < z_0)\]הסיכוי של $Z$ להיות גדול מ-$(-z_0)$ זה אותו סיכוי של $Z$ להיות קטן מ-$z_0$, בגלל סימטריה.
אנחנו פשוט הופכים, עוברים באמצעות סימטריה לצד השני ומסתכלים על הגודל שזה כבר גודל שחושב.
כלל 3: הסתברות בטווח
\[P(z_1 < Z < z_2) = P(Z > z_1) - P(Z > z_2)\]אני רוצה לחשב את ההסתברות של $Z$ להיות בין $z_1$ ל-$z_2$. $z_1$ ו-$z_2$ יכולים להיות חיוביים או שליליים - לא מעניין אותי.
איך אני מחשב את הגודל?
- אני יודע את ההסתברות להיות גדול מ-$z_1$ - זה כל השטח (גם הכחול הכהה וגם הכחול הבהיר)
- הסיכוי להיות גדול מ-$z_2$ הוא רק השטח הכחול הבהיר הזה
- לכן השטח שמעניין אותי זה ההפרש ביניהם
כל השטח מימין ל-$z_1$ פחות כל השטח מימין ל-$z_2$.
תכונות נוספות חשובות
הסתברות להיות גדול מהתוחלת
\[P(Z > 0) = \frac{1}{2}\]ההסתברות למשתנה מקרי נורמלי מתוקנן להיות גדול מ-0 היא בדיוק חצי.
הסתברות לערך מדויק
\[P(Z = c) = 0\]ההסתברות לכל ערך כלשהו, כל ערך מדויק, היא תמיד 0. זאת אומרת ההסתברות להיות גם ב-0, גם ב-2, גם ב-3 היא 0.
אנחנו תמיד מדברים על טווחים.
דוגמה מעשית: ציוני פסיכומטרי
נתוני הבעיה
ציונים במבחן הפסיכומטרי מתפלגים נורמלית עם:
- תוחלת: 550
- סטיית תקן: 100
שאלה: מה ההסתברות לקבל מעל 650?
שלב 0: פורמליזציה
משתנה מקרי: $X$ מתפלג נורמלית עם תוחלת 550, סטיית תקן 100:
\[X \sim \mathcal{N}(550, 100^2)\]זהירות! פה צריך לא ליפול, להיזהר - השונות היא $100^2 = 10,000$.
השאלה המתמטית
אני רוצה לדעת מה הסיכוי של $X$ להיות גדול מ-650:
\[P(X > 650) = ?\]שלב 1: תקנון
אני עובר לעולם הנורמלי. אני מחשב את ציון התקן של 650:
\[Z = \frac{650 - 550}{100} = \frac{100}{100} = 1\]הפרשנות
הגודל 650 הוא מרוחק 100 מ-550 - סטיית תקן אחת מהתוחלת.
התוצאה
לכן, החישוב מראה שציון התקן הוא 1:
\[P(X > 650) = \boxed{P(Z > 1)}\]הסיכוי ל-$X$ גדול מ-650 הוא כמו הסיכוי של משתנה מקרי נורמלי להיות גדול מ-1.
חישוב באמצעות פייתון
פייתון אומר לנו - אני אומר לפייתון: “תן לי את הפונקציית הישרדות של 1 עבור משתנה מקרי נורמלי סטנדרטי.”
from scipy.stats import norm
# survival function for x = 1 in standard normal
sf_value = norm.sf(1)
print("P(Z > 1) =", sf_value)
זה מה שזה אומר: הסיכוי ל-$Z$ גדול מ-1.
הפלט יהיה:
P(Z > 1) = 0.15865525393145707
התוצאה הסופית
אני מקבל 0.16 וזו ההסתברות שלי - כ-16%.
סיכום
זה היה שיעור מלא בדוגמאות מעשיות של איך לבצע תקנון ולחשב הסתברויות.
הנקודות החשובות:
- תמיד להתחיל בתקנון כשמתמודדים עם משתנה מקרי נורמלי
- תקנון = מדידת מרחק מהתוחלת ביחידות של סטיית תקן
- Z-Score מאפשר להשוות בין משתנים שונים
- פונקציית ההישרדות עוזרת לחשב הסתברויות
- סימטריה של ההתפלגות הנורמלית מקלה על החישובים
לשיעור הבא