פתיח – אנושיות לפני נוסחאות
לתיעוד - ההרצאה הועברה במהלך מלחמת חרבות ברזל, מבצע עם כלביא 2025. המרצה גילה אמפתיה רבה.
מקווה שאתם בטוחים בין האזעקות. אם קשה – יש פסיכולוגית בפקולטה, וגם אני פה לשיחה.
למה בכלל צריך מדדי סיכון?
כאשר שני המשתנים שלנו קטגוריאליים (למשל עישון
כן
/לא
ו‑סרטן יש
/אין
) – לא מספיק לבדוק “הפרש”; אנחנו רוצים יחס שמעיד בכמה משתנה אחד מגדיל (או מקטין) את ההסתברות להשתנות השני.
סמל | מהות | דוגמאות |
---|---|---|
$E$ | Exposure – גורם סיכון (מחלק לחשופים / לא חשופים) | עישון, מגדר, תואר אקדמי |
$O$ | Outcome – תוצאה | סרטן, קוצר‑ראייה, תמותה |
RR | Relative Risk | $\dfrac{P(O\mid E)}{P(O\mid \bar E)}$ |
OR | Odds Ratio | $\dfrac{\text{odds}(O\mid E)}{\text{odds}(O\mid \bar E)}$ |
- RR = 1 ← אין קשר;
- RR > 1 ← החשיפה מסוכנת (גורם הסיכון מעלה את הסיכון);
- RR < 1 ← החשיפה מגנה
Relative Risk (RR)
אינטואיציה
“פי‑3 סיכון” נקלט מיידית; ההפרש בין $1/10{,}000$ ל‑$1/1{,}000{,}000$ – הרבה פחות.
טבלת 2 × 2 והנוסחה
Outcome = 1 | Outcome = 0 | סה”כ | |
---|---|---|---|
Exposure = 1 | $A$ | $B$ | $A+B$ |
Exposure = 0 | $C$ | $D$ | $C+D$ |
דוגמה 1 – קוצר‑ראייה
קוצר‑ראייה | ראייה תקינה | סה”כ | |
---|---|---|---|
גברים | 75 | 25 | 100 |
נשים | 60 | 40 | 100 |
הערה: לא בודקים חולים / לא חולים - אלא חשופים / לא חשופים.
האם יש קשר בין מין לבין קוצר ראייה? נשלים את הטבלה:
קוצר‑ראייה | ראייה תקינה | סה”כ | |
---|---|---|---|
גברים | 75 | 25 | 100 |
נשים | 60 | 40 | 100 |
סה”כ | 135 | 65 | 200 |
הסיכון בגברים:
\[P(O\mid E) = \frac{75}{100} = 0.75\]הסיכון בנשים:
\[P(O\mid \bar E) = \frac{60}{100} = 0.6\]הסיכון היחסי:
\[RR = \frac{P(O\mid E)}{P(O\mid \bar E)} = \frac{0.75}{0.6} = 1.25\]כאן המין היה החשיפה.
באופן ככלי:
\[RR_\text{Male} = \tfrac{75/100}{60/100}=1.25\]להיות
גבר
מעלה את הסיכון לקוצר‑ראייה ב‑$25 \%$.
מגבלה מובנית – צריך קוהורט (עוקבה)
מחקר עוקבה (קוהורט - Cohort study) הוא שיטה למחקר מדעי בשימוש בענפים כגון רפואה, מדעי החברה, אקטואריה, סיעוד, אקולוגיה, ניתוח עסקי ועוד. זהו סוג של מחקר תצפיתי ולא מחקר התערבותי. במחקר מתרחש מעקב אחר קבוצת אנשים ותיעוד של מאפיינים או אירועים רלוונטיים למחקר. מחקרים אלו נחשבים ל״תקן הזהב״ (Gold standard) של המחקרים התצפיתיים בהם מחפשים יחסים אטיולוגיים, כמו למשל האם יש קשר בין חשיפה לגורם כלשהו למחלה או תופעת לוואי מסוימת והאם הקשר יכול להיות סיבתי (אם כי לא ניתן לקבוע סיבתיות על סמך מחקר עוקבה). פירוש המונח ״עוקבה״ הוא קבוצת אנשים בעלי אפיון סטטיסטי או דמוגרפי משותף, כגון שנת לידה, מצב משפחתי וכו׳, הנתונה למעקב ולמחקר. קבוצת העוקבה בהכרח תהיה קבוצת אנשים אשר לא חולים במחלה הנבדקת. ויקיפדיה
כדי ש‑RR יהיה תקף חייבים לדגום על‑פי החשיפה ולעקוב בזמן. במחקר מקרה–ביקורת אי‑אפשר להעריך RR ישירות.
דוגמה 2 – הטיטאניק
מת | חי | סה”כ | |
---|---|---|---|
גברים | 1364 | 367 | 1731 |
נשים | 126 | 344 | 470 |
הסיכון בגברים:
\[P(O\mid E) = \frac{1364}{1731} \approx 0.79\]הסיכון בנשים:
\[P(O\mid \bar E) = \frac{126}{470} \approx 0.27\]הסיכון היחסי:
\[RR = \frac{0.79}{0.27}\approx 2.926\]סיכון המוות לגבר היה גבוה פי‑3 לעומת אישה.
רווח סמך לסיכון יחסי
רווח סמך ללוגריתם ה‑RR:
תחת השערת האפס, הסיכון היחסי בעל התפלגות א-סימטרית ימנית כאשר השכיר הוא 1
הלוגריתם של הסיכון היחסי מתפלג נורמלית בקרוב, עם שכיח (וממוצע) של $\log RR = 0$.
נוכל לתקנן מ״מ זה להיות נורמלי סטנדרטי:
\[Z = \frac{\log RR}{\sigma_{\log RR}} \sim \mathcal{N}(0, 1)\]
- מחשבים $\log RR$ (הופך את ההתפלגות לסימטרית).
-
שונות:
\[\mathrm{Var}(\log(RR))=\tfrac{1}{A}-\tfrac{1}{A+B}+\tfrac{1}{C}-\tfrac{1}{C+D}\] -
נמצא רווח סמך של $95 \%$ סביב $\log RR$:
\[\log RR \pm 1.96 \cdot \sqrt{\tfrac{1}{A}-\tfrac{1}{A+B}+\tfrac{1}{C}-\tfrac{1}{C+D}}\] - אם נרצה רווחי סמך אחרים נחליף את $1.96$ ב‑$Z$ המתאים.
דוגמה – טיטאניק
לוגריתם הסיכון היחסי של גברים (חשיפה) לעומת נשים (לא חשיפה):
\[\log RR = \log(2.926) \approx 1.073\]סטיית התקן היא:
\[\sigma_{\log RR} = \sqrt{\tfrac{1}{1364}+\tfrac{1}{126}-\tfrac{1}{1731}+\tfrac{1}{470}} \approx 0.077\]רווח סמך של $95 \%$ סביב $\log RR$:
\[\log RR \pm 1.96 \cdot \sigma_{\log RR} = 1.073 \pm 1.96 \cdot 0.077\]כלומר:
\[\boxed{\log RR \in [0.92, 1.22]}\]נחזור לסיכון היחסי על ידי העלאה בחזקה (אקספוננט):
\[RR \in [e^{0.92}, e^{1.22}] \approx [2.514, 3.404]\]חשוב לחזור מאקספוננט.
דוגמה 3 – COVID‑19 בהריון
$RR = 0.94$, 95% CI [$0.63$, $1.33$] – אין עדות סטטיסטית לכך ש‑COVID-19 מעלה את הסיכון ל‑Outcome המשולב.
Odds Ratio (OR)
הגדרת Odds
\[\text{odds} = \frac{\text{Happening}}{\text{Not happening}}\]נסמן ב-$P(O)$ את ההסתברות לתוצאה $O$.
\[\text{odds}(O)=\frac{P(O)}{1-P(O)}\]ה-odds שאם נבחר יום אקראי בשבוע נקבל יום של סופ”ש (שישי או שבת):
\[\text{odds}(P=2/7)=\frac{2/7}{1-2/7}=\frac{2/7}{5/7}=\boxed{\frac{2}{5}}\]לפעעמים גם נכתב כך:
\[2:5\]המשמעות:
- $\text{Odds} < 1$ יותר סביר שהמאורע לא יקרה מאשר יקרה.
- $\text{Odds} > 1$ יותר סביר שהמאורע יקרה מאשר לא יקרה.
- $\text{Odds} = 1$ סיכוי שווה.
נוסחת ה‑OR בטבלת 2×2
\[OR = \frac{A/B}{C/D}=\frac{AD}{BC}\]דוגמה – קוצר‑ראייה שוב
מתוך 100 גברים, 75 סובלים מקוצר ראיה והשאר לו:
\[\text{odds}(O\mid E) = \frac{75}{25} = 3\]עבור נשים:
\[\text{odds}(O\mid \bar E) = \frac{60}{40} = 1.5\]ה-Odds Ratio (OR) הוא היחס בין שני ה-odds:
\[OR = \frac{3}{1.5} = 2\]נקרא גם יחס הסיכויים או יחס צולב.
למה OR כל‑כך חשוב?
- נחשב בכל עיצוב מחקר (כולל מקרה–ביקורת).
- קל להשוות בין מאמרים.
- מופיע ברגרסיה לוגיסטית.
CI ל‑OR
\[\sigma^2\_{\log OR}=\frac{1}{A}+\frac{1}{B}+\frac{1}{C}+\frac{1}{D}\]בדיוק כמו RR, רק עם סכום הפוכים.
דוגמה – אחות גילברט
מוות | אין מוות | סה”כ | |
---|---|---|---|
נוכחת | 40 | 217 | 257 |
לא‑נוכחת | 34 | 1350 | 1384 |
CI 95 % לא כולל 1 ← $P≈10^{-20}$ ← קשר סטטיסטי רצחני; עדיין לא הוכחת גורם.
טרנספורמציה לוגריתמית – מהות ולא קישוט
- התפלגויות RR ו‑OR ימניות וארוכות‑זנב.
- $\log$ מקלב אותן ← Z‑critical.
- טעות נפוצה: לשכוח לחזור מאקספוננט ← תקבלו CI שגוי סביב $\log RR$ ולא סביב RR.
קשר ≠ סיבתיות
“איך מבודדים גורם שלישי?” – שאלה מצוינת. תשובה קצרה: בנתונים תצפיתיים אי‑אפשר בלי הנחות. גם בניסוי אקראי – צריך להאמין שהאקראיות שוברת Confounders סמויים.
סיכום מהיר
מדד | מתי משתמשים | יתרון | חסרון |
---|---|---|---|
RR | מחקרי עוקבה, ניסויי התערבות | פירוש אינטואיטיבי | דורש מעקב לפי חשיפה |
OR | עוקבה, מקרה–ביקורת, לוגיסטית | ניתן לחישוב תמיד | פחות אינטואיטיבי |
בשיעור הבא: Fisher Exact, וספוילר – $OR$ עם דגימות קטנות.
דור פסקלחזור לשיעור הקודם