הסתברות

הגדרות:

  • הססתברות: ביטוי מפרי למידת הסבירות שמאורע כלשהו יתרחש.
  • ניסוי מקרי (Random Experiment): תופעה.ניסוי עם יותר מתוצאה אפשרית אחת, כאשר התוצאה נקבעת באקראי.
  • מרחב המדגם (Sample Space): קבוצת כל התוצאות האפשריות של ניסוי מקרי. מסומן באות היוונית אומגה $\Omega$.

לדוגמה, בהטלת קוביה מרחקב המדגם:

\[\Omega = \{1, 2, 3, 4, 5, 6\}\]
  • מאורע (Event): תת קבוצה של מרחב המדגם. מאורע יכול להיות מאורע בטוח (כל התוצאות) או מאורע בלתי אפשרי (אף תוצאה). סימונים: לפעמים האות $E$ או ב- $A, B, C$. מאורע פשוט - מאורע שמכיל תוצאה אחת בלבד. מאורע מורכב - מאורע שמכיל יותר מתוצאה אחת.

  • הסתברות של מאורע (Probability of an Event): הסבירות שמאורע יתרחש. מסומנת באות P. ההסתברות היא מספר בין 0 ל-1. אם ההסתברות היא 0, המאורע לא יתרחש. אם ההסתברות היא 1, המאורע יקרה בוודאות. ההסתברות של מאורע $E$ מסומנת ב- $P(E)$ ומקיימת $0 \leq P(E) \leq 1$.
  • מאורע בטוח (Certain Event): מאורע שמתרחש בוודאות. ההסתברות שלו היא 1.
  • מאורע בלתי אפשרי (Impossible Event): מאורע שלא יתרחש לעולם. ההסתברות שלו היא 0.

חישוב הסתברות

דוגמה - מין הצאצא

התוצאה האפשרית: זכר, מקבה ($n=2$)

מאורע א׳: זכר

  • $n_E = 1$
  • $P(E) = \frac{n_E}{n} = \frac{1}{2} = 0.5$

הטלת שני מטבעות

התוצאות האפריות: עץ עץ, עץ פלי, פלי עץ, פלי פלי ($n=4$)

מאורע א׳: קיבנלו פעמיים עץ

כלל הכפל למספר התוצאות האפשריות

  • כלל הכפל (Multiplication Rule): אם יש $n$ ניסויים, וכל ניסוי יכול להניב $m$ תוצאות שונות, אז מספר התוצאות האפשריות של כל הניסויים הוא $m^n$.
  • כלל הכפל של הסתברויות (Multiplication Rule of Probabilities): אם יש $n$ ניסויים, וכל ניסוי יכול להניב $m$ תוצאות שונות, אז ההסתברות של כל התוצאות האפשריות היא $P(E) = P_1 \cdot P_2 \cdot … \cdot P_n$.

חישוב הסתברות: הטלת שתי קוביות

מה ההסתברות שסכום התוצאות הוא 5?

נראשום את כל התוצאות האפשריות של הטלת שתי קוביות:

\[\begin{array}{|c|c|c|c|c|c|c|} \hline \text{תוצאה 1} & \text{תוצאה 2} & \text{תוצאה 3} & \text{תוצאה 4} & \text{תוצאה 5} & \text{תוצאה 6} \\ \hline 1 & 1 & 2 & 3 & 4 & 5 \\ 1 & 2 & 3 & 4 & 5 & 6 \\ 1 & 3 & 4 & 5 & 6 & 7 \\ 1 & 4 & 5 & 6 & 7 & 8 \\ 1 & 5 & 6 & 7 & 8 & 9 \\ 1 & 6 & 7 & 8 & 9 & 10 \\ \hline \end{array}\]

נחפש את התוצאות שמסכמות ל-5:

\(\begin{array}{|c|c|c|c|c|c|c|} \hline \text{תוצאה 1} & \text{תוצאה 2} & \text{תוצאה 3} & \text{תוצאה 4} & \text{תוצאה 5} & \text{תוצאה 6} \\ \hline 1 & 4 & 5 & 6 & 7 & 8 \\ 1 & 5 & 6 & 7 & 8 & 9 \\ 1 & 6 & 7 & 8 & 9 & 10 \\ \hline \end{array}\) נראה שההסתברות היא $\frac{4}{36} = \frac{1}{9}$.

מאורע משלים

  • מאורע משלים (Complementary Event): מאורע שמכיל את כל התוצאות האפשריות של ניסוי, חוץ מהתוצאה של המאורע המקורי. אם $E$ הוא מאורע, אז המאורע המשלים שלו מסומן ב-$E’$ או $\bar{E}$.

פורמאלית, ההסתברות של מאורע משלים היא:

\[P(E') = 1 - P(E)\]

תכונות של הסתברות

  1. יכולה לקבל רק ערכים בתחום $[0, 1]$.

בחירה של $k$ מתוך $n$

  • בחירה של $k$ מתוך $n$ (Combination of $k$ from $n$): מספר הדרכים לבחור $k$ פריטים מתוך $n$ פריטים. מסומן ב-$C(n, k)$ או $\binom{n}{k}$.

תרגול 3

תזכורת: קשר סמטרי בין 2 משתנים (שונות משותפת, מקדם המתאם של פירסון)

שונות משותפת

\[Cov(X, Y) = E[(X - \mu_X)(Y - \mu_Y)]\]

מדד ״גרוע״ אבל מדד 0 אין קשר חיובי גדול = קשר חיובי חזק. שלילי מאוד = קשר הפוך חזק.

נע בין $-\infty$ ל-$\infty$.

מקדם המתאם הלינארי של פירסון

\[r= \frac{Cov(X, Y)}{\sigma_X \cdot \sigma_Y}\]

$Cov(X, Y)$ - שונות משותפת $\sigma_X$ - סטיית תקן של $X$ $\sigma_Y$ - סטיית תקן של $Y$ $Cov(X, Y)$ - שונות משותפת

מדד ״מצויין״ עבור קשר לינארי. ״גרוע״ עבור לא לינארי.

קשר לא סימטרי: ניבוי $Y$ באמצעות $X$ בעזרת מודל לינארי.

גודל הרגרסיה הלינארית

\[\hat{Y} = ax_i + b\]

הקו האוטימלי לחיזוי $Y$ בעזרת $X$ = סכום ריבוי שגיאות הכי מינמאלי.

חישוב a, b

\[a = \frac{Cov(X, Y)}{\var(X)} = r \cdot \frac{\sigma_Y}{\sigma_X}\] \[b = \bar{Y} - a \cdot \bar{X}\]

מתקבל בעזרת פתרון בעיית מינימום על סכום ריבועי השגיאות:

\[E=\sum_{i=1}^n e_i^2 = \sum_{i=1}^n (Y_i - \hat{Y}_i)^2\]

כמה המודל הלינארי מצליח לנבא את $Y$?

מקדם המתאם (לאו דווקא לינארי)

\[R^2 = 1 - \frac{Var(e)}{Var(Y)}\]

$Var(e)$ - שונות השגיאות $Var(Y)$ - שונות $Y$

בין - $0$ ל-$1$ וככל שקרוב ל-1 כך $X$ מנבא יותר מוצלח ל-$Y$.

היחס $\frac{Var(e)}{Var(Y)}$ מנרמל את פיזור שגיאת ההתאמה בפיזור בטבעי של $Y$.

הוא קטן תמי מ-1 ומהווה מדד טוב לכמה ההתאמה גרועה.

בהתאמה לינראית (רגרסיה לינארית) $R^2=r^2$.

תרגילים

שאלה 1

שאלה 2

חוקר אמד את משוואת הרגרסיה לניבוי Y באזת X וקיבל את $Y=-2x+5$, מכאן נובע:

א. כש-$x$ עולה ביחידה אחת, $Y$ יורד ב-2 יחידות.

נכון.

שאלה 3

נערך מחקר על הקשר בין סידן בדם לבין לחץ דם. במחקר מדדו ל-38 נחקרים את לחץ הדם (X) לחץ הדם חושב כממוצע בין לחץ דם הסיסטלי והדיאסטולי, וריכוז סידן בדם סומן $Y$.

\[\begin{aligned} \hat{x} = 94.5,\hat{y} = 107.9 \\ \sun (x_i - \hat{x})^2 = 23975.5 \\ \sum (y_i - \hat{y})^2 = 9564.3 \\ \sum (x_i - \hat{x})(y_i - \hat{y}) = 2792.5 \end{aligned}\]
  1. חשבו את מקדם המתאם בהסתמך על והגרף. מהי מידת הקשר הלינארי בין שני המשתנים?
\[R^2 = r^2 = \left(\frac{Cov(X, Y)}{\sigma_X \cdot \sigma_Y}\right)^2\] \[= \left(\frac{1}{n-1}\sum_{i=1}^n (X_i - \bar{X})(Y_i - \bar{Y})\right)^2\]

ב. חשבו את משוואת קו הרגרסיה. מהו השיפוע ומה משמעותו? העבירו את הקו בגרף?

\[a = r \cdot \frac{\sigma_Y}{\sigma_X} = \sqrt{0.34}\] \[b= \bar{Y} - a \cdot \bar{X} = 107.9 - 0.58 \cdot 94.5\]
דור פסקל

חזרה לעמוד הראשי