הסתברות

הגדרות:

  • הססתברות: ביטוי מפרי למידת הסבירות שמאורע כלשהו יתרחש.
  • ניסוי מקרי (Random Experiment): תופעה.ניסוי עם יותר מתוצאה אפשרית אחת, כאשר התוצאה נקבעת באקראי.
  • מרחב המדגם (Sample Space): קבוצת כל התוצאות האפשריות של ניסוי מקרי. מסומן באות היוונית אומגה $\Omega$.

לדוגמה, בהטלת קוביה מרחקב המדגם:

\[\Omega = \{1, 2, 3, 4, 5, 6\}\]
  • מאורע (Event): תת קבוצה של מרחב המדגם. מאורע יכול להיות מאורע בטוח (כל התוצאות) או מאורע בלתי אפשרי (אף תוצאה). סימונים: לפעמים האות $E$ או ב־ $A, B, C$. מאורע פשוט - מאורע שמכיל תוצאה אחת בלבד. מאורע מורכב - מאורע שמכיל יותר מתוצאה אחת.

  • הסתברות של מאורע (Probability of an Event): הסבירות שמאורע יתרחש. מסומנת באות P. ההסתברות היא מספר בין 0 ל־1. אם ההסתברות היא 0, המאורע לא יתרחש. אם ההסתברות היא 1, המאורע יקרה בוודאות. ההסתברות של מאורע $E$ מסומנת ב־ $P(E)$ ומקיימת $0 \leq P(E) \leq 1$.
  • מאורע בטוח (Certain Event): מאורע שמתרחש בוודאות. ההסתברות שלו היא 1.
  • מאורע בלתי אפשרי (Impossible Event): מאורע שלא יתרחש לעולם. ההסתברות שלו היא 0.

חישוב הסתברות

דוגמה - מין הצאצא

התוצאה האפשרית: זכר, מקבה ($n=2$)

מאורע א׳: זכר

  • $n_E = 1$
  • $P(E) = \frac{n_E}{n} = \frac{1}{2} = 0.5$

הטלת שני מטבעות

התוצאות האפריות: עץ עץ, עץ פלי, פלי עץ, פלי פלי ($n=4$)

מאורע א׳: קיבנלו פעמיים עץ

כלל הכפל למספר התוצאות האפשריות

  • כלל הכפל (Multiplication Rule): אם יש $n$ ניסויים, וכל ניסוי יכול להניב $m$ תוצאות שונות, אז מספר התוצאות האפשריות של כל הניסויים הוא $m^n$.
  • כלל הכפל של הסתברויות (Multiplication Rule of Probabilities): אם יש $n$ ניסויים, וכל ניסוי יכול להניב $m$ תוצאות שונות, אז ההסתברות של כל התוצאות האפשריות היא $P(E) = P_1 \cdot P_2 \cdot … \cdot P_n$.

חישוב הסתברות: הטלת שתי קוביות

מה ההסתברות שסכום התוצאות הוא 5?

נראשום את כל התוצאות האפשריות של הטלת שתי קוביות:

\[\begin{array}{|c|c|c|c|c|c|c|} \hline \text{result 1} & \text{result 2} & \text{result 3} & \text{result 4} & \text{result 5} & \text{result 6} \\ \hline 1 & 1 & 2 & 3 & 4 & 5 \\ 1 & 2 & 3 & 4 & 5 & 6 \\ 1 & 3 & 4 & 5 & 6 & 7 \\ 1 & 4 & 5 & 6 & 7 & 8 \\ 1 & 5 & 6 & 7 & 8 & 9 \\ 1 & 6 & 7 & 8 & 9 & 10 \\ \hline \end{array}\]

נחפש את התוצאות שמסכמות ל־5:

\[\begin{array}{|c|c|c|c|c|c|c|} \hline \text{result 1} & \text{result 2} & \text{result 3} & \text{result 4} & \text{result 5} & \text{result 6} \\ \hline 1 & 4 & 5 & 6 & 7 & 8 \\ 1 & 5 & 6 & 7 & 8 & 9 \\ 1 & 6 & 7 & 8 & 9 & 10 \\ \hline \end{array}\]

נראה שההסתברות היא $\frac{4}{36} = \frac{1}{9}$.

מאורע משלים

  • מאורע משלים (Complementary Event): מאורע שמכיל את כל התוצאות האפשריות של ניסוי, חוץ מהתוצאה של המאורע המקורי. אם $E$ הוא מאורע, אז המאורע המשלים שלו מסומן ב־$E’$ או $\bar{E}$.

פורמאלית, ההסתברות של מאורע משלים היא:

\[P(E') = 1 - P(E)\]

תכונות של הסתברות

  1. יכולה לקבל רק ערכים בתחום $[0, 1]$.

בחירה של $k$ מתוך $n$

  • בחירה של $k$ מתוך $n$ (Combination of $k$ from $n$): מספר הדרכים לבחור $k$ פריטים מתוך $n$ פריטים. מסומן ב־$C(n, k)$ או $\binom{n}{k}$.

תרגול 3

תזכורת: קשר סמטרי בין 2 משתנים (שונות משותפת, מקדם המתאם של פירסון)

שונות משותפת

\[Cov(X, Y) = E[(X - \mu_X)(Y - \mu_Y)]\]

מדד ״גרוע״ אבל מדד 0 אין קשר חיובי גדול = קשר חיובי חזק. שלילי מאוד = קשר הפוך חזק.

נע בין $-\infty$ ל־$\infty$.

מקדם המתאם הלינארי של פירסון

\[r= \frac{Cov(X, Y)}{\sigma_X \cdot \sigma_Y}\]

$Cov(X, Y)$ - שונות משותפת $\sigma_X$ - סטיית תקן של $X$ $\sigma_Y$ - סטיית תקן של $Y$ $Cov(X, Y)$ - שונות משותפת

מדד ״מצויין״ עבור קשר לינארי. ״גרוע״ עבור לא לינארי.

קשר לא סימטרי: ניבוי $Y$ באמצעות $X$ בעזרת מודל לינארי.

גודל הרגרסיה הלינארית

\[\hat{Y} = ax_i + b\]

הקו האוטימלי לחיזוי $Y$ בעזרת $X$ = סכום ריבוי שגיאות הכי מינמאלי.

חישוב a, b

\[a = \frac{Cov(X, Y)}{\var(X)} = r \cdot \frac{\sigma_Y}{\sigma_X}\] \[b = \bar{Y} - a \cdot \bar{X}\]

מתקבל בעזרת פתרון בעיית מינימום על סכום ריבועי השגיאות:

\[E=\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (Y_i - \hat{Y}_i)^2\]

כמה המודל הלינארי מצליח לנבא את $Y$?

מקדם המתאם (לאו דווקא לינארי)

\[R^2 = 1 - \frac{Var(e)}{Var(Y)}\]

$Var(e)$ - שונות השגיאות $Var(Y)$ - שונות $Y$

בין - $0$ ל־$1$ וככל שקרוב ל־1 כך $X$ מנבא יותר מוצלח ל־$Y$.

היחס $\frac{Var(e)}{Var(Y)}$ מנרמל את פיזור שגיאת ההתאמה בפיזור בטבעי של $Y$.

הוא קטן תמי מ־1 ומהווה מדד טוב לכמה ההתאמה גרועה.

בהתאמה לינראית (רגרסיה לינארית) $R^2=r^2$.

תרגילים

שאלה 1

שאלה 2

חוקר אמד את משוואת הרגרסיה לניבוי Y באזת X וקיבל את $Y=-2x+5$, מכאן נובע:

א. כש־$x$ עולה ביחידה אחת, $Y$ יורד ב־2 יחידות.

נכון.

שאלה 3

נערך מחקר על הקשר בין סידן בדם לבין לחץ דם. במחקר מדדו ל־38 נחקרים את לחץ הדם (X) לחץ הדם חושב כממוצע בין לחץ דם הסיסטלי והדיאסטולי, וריכוז סידן בדם סומן $Y$.

\[\begin{aligned} \hat{x} = 94.5,\hat{y} = 107.9 \\ \sum (x_i - \hat{x})^2 = 23975.5 \\ \sum (y_i - \hat{y})^2 = 9564.3 \\ \sum (x_i - \hat{x})(y_i - \hat{y}) = 2792.5 \end{aligned}\]
  1. חשבו את מקדם המתאם בהסתמך על והגרף. מהי מידת הקשר הלינארי בין שני המשתנים?
\[R^2 = r^2 = \left(\frac{Cov(X, Y)}{\sigma_X \cdot \sigma_Y}\right)^2\] \[= \left(\frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})\right)^2\]

ב. חשבו את משוואת קו הרגרסיה. מהו השיפוע ומה משמעותו? העבירו את הקו בגרף?

\[a = r \cdot \frac{\sigma_Y}{\sigma_X} = \sqrt{0.34}\] \[b= \bar{Y} - a \cdot \bar{X} = 107.9 - 0.58 \cdot 94.5\]
דור פסקל