הסתברות
הגדרות:
- הססתברות: ביטוי מפרי למידת הסבירות שמאורע כלשהו יתרחש.
- ניסוי מקרי (Random Experiment): תופעה.ניסוי עם יותר מתוצאה אפשרית אחת, כאשר התוצאה נקבעת באקראי.
- מרחב המדגם (Sample Space): קבוצת כל התוצאות האפשריות של ניסוי מקרי. מסומן באות היוונית אומגה $\Omega$.
לדוגמה, בהטלת קוביה מרחקב המדגם:
\[\Omega = \{1, 2, 3, 4, 5, 6\}\]-
מאורע (Event): תת קבוצה של מרחב המדגם. מאורע יכול להיות מאורע בטוח (כל התוצאות) או מאורע בלתי אפשרי (אף תוצאה). סימונים: לפעמים האות $E$ או ב- $A, B, C$. מאורע פשוט - מאורע שמכיל תוצאה אחת בלבד. מאורע מורכב - מאורע שמכיל יותר מתוצאה אחת.
- הסתברות של מאורע (Probability of an Event): הסבירות שמאורע יתרחש. מסומנת באות P. ההסתברות היא מספר בין 0 ל-1. אם ההסתברות היא 0, המאורע לא יתרחש. אם ההסתברות היא 1, המאורע יקרה בוודאות. ההסתברות של מאורע $E$ מסומנת ב- $P(E)$ ומקיימת $0 \leq P(E) \leq 1$.
- מאורע בטוח (Certain Event): מאורע שמתרחש בוודאות. ההסתברות שלו היא 1.
- מאורע בלתי אפשרי (Impossible Event): מאורע שלא יתרחש לעולם. ההסתברות שלו היא 0.
חישוב הסתברות
דוגמה - מין הצאצא
התוצאה האפשרית: זכר, מקבה ($n=2$)
מאורע א׳: זכר
- $n_E = 1$
- $P(E) = \frac{n_E}{n} = \frac{1}{2} = 0.5$
הטלת שני מטבעות
התוצאות האפריות: עץ עץ, עץ פלי, פלי עץ, פלי פלי ($n=4$)
מאורע א׳: קיבנלו פעמיים עץ
כלל הכפל למספר התוצאות האפשריות
- כלל הכפל (Multiplication Rule): אם יש $n$ ניסויים, וכל ניסוי יכול להניב $m$ תוצאות שונות, אז מספר התוצאות האפשריות של כל הניסויים הוא $m^n$.
- כלל הכפל של הסתברויות (Multiplication Rule of Probabilities): אם יש $n$ ניסויים, וכל ניסוי יכול להניב $m$ תוצאות שונות, אז ההסתברות של כל התוצאות האפשריות היא $P(E) = P_1 \cdot P_2 \cdot … \cdot P_n$.
חישוב הסתברות: הטלת שתי קוביות
מה ההסתברות שסכום התוצאות הוא 5?
נראשום את כל התוצאות האפשריות של הטלת שתי קוביות:
\[\begin{array}{|c|c|c|c|c|c|c|} \hline \text{תוצאה 1} & \text{תוצאה 2} & \text{תוצאה 3} & \text{תוצאה 4} & \text{תוצאה 5} & \text{תוצאה 6} \\ \hline 1 & 1 & 2 & 3 & 4 & 5 \\ 1 & 2 & 3 & 4 & 5 & 6 \\ 1 & 3 & 4 & 5 & 6 & 7 \\ 1 & 4 & 5 & 6 & 7 & 8 \\ 1 & 5 & 6 & 7 & 8 & 9 \\ 1 & 6 & 7 & 8 & 9 & 10 \\ \hline \end{array}\]נחפש את התוצאות שמסכמות ל-5:
\(\begin{array}{|c|c|c|c|c|c|c|} \hline \text{תוצאה 1} & \text{תוצאה 2} & \text{תוצאה 3} & \text{תוצאה 4} & \text{תוצאה 5} & \text{תוצאה 6} \\ \hline 1 & 4 & 5 & 6 & 7 & 8 \\ 1 & 5 & 6 & 7 & 8 & 9 \\ 1 & 6 & 7 & 8 & 9 & 10 \\ \hline \end{array}\) נראה שההסתברות היא $\frac{4}{36} = \frac{1}{9}$.
מאורע משלים
- מאורע משלים (Complementary Event): מאורע שמכיל את כל התוצאות האפשריות של ניסוי, חוץ מהתוצאה של המאורע המקורי. אם $E$ הוא מאורע, אז המאורע המשלים שלו מסומן ב-$E’$ או $\bar{E}$.
פורמאלית, ההסתברות של מאורע משלים היא:
\[P(E') = 1 - P(E)\]תכונות של הסתברות
- יכולה לקבל רק ערכים בתחום $[0, 1]$.
…
בחירה של $k$ מתוך $n$
- בחירה של $k$ מתוך $n$ (Combination of $k$ from $n$): מספר הדרכים לבחור $k$ פריטים מתוך $n$ פריטים. מסומן ב-$C(n, k)$ או $\binom{n}{k}$.
תרגול 3
תזכורת: קשר סמטרי בין 2 משתנים (שונות משותפת, מקדם המתאם של פירסון)
שונות משותפת
\[Cov(X, Y) = E[(X - \mu_X)(Y - \mu_Y)]\]מדד ״גרוע״ אבל מדד 0 אין קשר חיובי גדול = קשר חיובי חזק. שלילי מאוד = קשר הפוך חזק.
נע בין $-\infty$ ל-$\infty$.
מקדם המתאם הלינארי של פירסון
\[r= \frac{Cov(X, Y)}{\sigma_X \cdot \sigma_Y}\]$Cov(X, Y)$ - שונות משותפת $\sigma_X$ - סטיית תקן של $X$ $\sigma_Y$ - סטיית תקן של $Y$ $Cov(X, Y)$ - שונות משותפת
מדד ״מצויין״ עבור קשר לינארי. ״גרוע״ עבור לא לינארי.
קשר לא סימטרי: ניבוי $Y$ באמצעות $X$ בעזרת מודל לינארי.
גודל הרגרסיה הלינארית
\[\hat{Y} = ax_i + b\]הקו האוטימלי לחיזוי $Y$ בעזרת $X$ = סכום ריבוי שגיאות הכי מינמאלי.
חישוב a, b
\[a = \frac{Cov(X, Y)}{\var(X)} = r \cdot \frac{\sigma_Y}{\sigma_X}\] \[b = \bar{Y} - a \cdot \bar{X}\]מתקבל בעזרת פתרון בעיית מינימום על סכום ריבועי השגיאות:
\[E=\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (Y_i - \hat{Y}_i)^2\]כמה המודל הלינארי מצליח לנבא את $Y$?
מקדם המתאם (לאו דווקא לינארי)
\[R^2 = 1 - \frac{Var(e)}{Var(Y)}\]$Var(e)$ - שונות השגיאות $Var(Y)$ - שונות $Y$
בין - $0$ ל-$1$ וככל שקרוב ל-1 כך $X$ מנבא יותר מוצלח ל-$Y$.
היחס $\frac{Var(e)}{Var(Y)}$ מנרמל את פיזור שגיאת ההתאמה בפיזור בטבעי של $Y$.
הוא קטן תמי מ-1 ומהווה מדד טוב לכמה ההתאמה גרועה.
בהתאמה לינראית (רגרסיה לינארית) $R^2=r^2$.
תרגילים
שאלה 1
שאלה 2
חוקר אמד את משוואת הרגרסיה לניבוי Y באזת X וקיבל את $Y=-2x+5$, מכאן נובע:
א. כש-$x$ עולה ביחידה אחת, $Y$ יורד ב-2 יחידות.
נכון.
שאלה 3
נערך מחקר על הקשר בין סידן בדם לבין לחץ דם. במחקר מדדו ל-38 נחקרים את לחץ הדם (X) לחץ הדם חושב כממוצע בין לחץ דם הסיסטלי והדיאסטולי, וריכוז סידן בדם סומן $Y$.
\[\begin{aligned} \hat{x} = 94.5,\hat{y} = 107.9 \\ \sun (x_i - \hat{x})^2 = 23975.5 \\ \sum (y_i - \hat{y})^2 = 9564.3 \\ \sum (x_i - \hat{x})(y_i - \hat{y}) = 2792.5 \end{aligned}\]- חשבו את מקדם המתאם בהסתמך על והגרף. מהי מידת הקשר הלינארי בין שני המשתנים?
…
ב. חשבו את משוואת קו הרגרסיה. מהו השיפוע ומה משמעותו? העבירו את הקו בגרף?
\[a = r \cdot \frac{\sigma_Y}{\sigma_X} = \sqrt{0.34}\] \[b= \bar{Y} - a \cdot \bar{X} = 107.9 - 0.58 \cdot 94.5\] דור פסקלחזרה לעמוד הראשי