תרגיל 2 - סטטיסטיקה לרפואנים
סמסטר ב׳ 2025
המטלה זכתה לציון של 98/100
. מובאת כאן לסיוע לצרכי למידה אישית לאחר פרסום הפתרון הרשמי, ולא כתחליף לו. אין להעתיק או להסתמך על הדברים.
תוכן עניינים:
- תרגיל 2 - סטטיסטיקה לרפואנים
- שאלה 1: משך שהות בבית חולים זיו
- שאלה 2: קריאטינין לאחר דיאליזה
- שאלה 3: אורך חיי סוללה
- שאלה 4: רמות גלוקוז בפלזמה
- (א) רווח סמך 95% למחקר קטן (n=16)
- (ב) רווח סמך 90% בהתפלגות נורמלית (n=64)
- (ג) רווח סמך 90% בהתפלגות t (n=64)
- (ד) מבחן דו-צדדי להשוואת מחקרים
- (ה) מבחן חד-צדדי (חשד שהמשתתפים בקבוצה הגדולה צמו פחות, וכך העלו רמת גלוקוז בדם)
- (ו) מבחן חד-צדדי (חשד שהמשתתפים בקבוצה הקטנה צמו פחות, וכך העלו רמת גלוקוז בדם)
- שאלה 5: רמות חלבון C-ריאקטיבי
- שאלה 6: רמות חלבון C-ריאקטיבי חלק II
שאלה 1: משך שהות בבית חולים זיו
נתונים:
- סינוסיטיס חריף: $P = 0.18$, שהות ממוצעת = 2 ימים
- תיקון ברך לאחר ניתוח: $P = 0.27$, שהות ממוצעת = 5 ימים
- צלוליטיס קל: $P = 0.55$, שהות ממוצעת = 3 ימים
- מר מבפה שוחרר בערב החמישי (שהה 5 ימים)
מכיוון שחולים משתחררים בהסתברות קבועה כל ערב (התפלגות גיאומטרית), וממוצע השהות = $\frac{1}{p}$, נקבל:
- סינוסיטיס חריף: $p = \frac{1}{2} = 0.5$
- תיקון ברך לאחר ניתוח: $p = \frac{1}{5} = 0.2$
- צלוליטיס קל: $p = \frac{1}{3} \approx 0.333$
לשהות של בדיוק 5 ימים:
\[P(\text{staying} = 5) = (1-p)^4 \times p\]- סינוסיטיס חריף: $(0.5)^4 \times 0.5 = 0.03125$
- תיקון ברך לאחר ניתוח: $(0.8)^4 \times 0.2 = 0.08192$
- צלוליטיס קל: $(2/3)^4 \times (1/3) \approx 0.0658$
לפי משפט בייס:
\[\begin{aligned} P&(\text{knee repair} | \text{stayed 5 days}) = \\[10pt] &= \frac{P(\text{stayed 5 days} | \text{knee repair}) \cdot P(\text{knee repair})}{P(\text{stayed 5 days})} \\[10pt] &= \frac{0.08192 \cdot 0.27}{(0.03125 \cdot 0.18) + (0.08192 \cdot 0.27) + (0.0658 \cdot 0.55)} \\[10pt] &= \frac{0.0221184}{0.0640234} \end{aligned}\]סך הכל:
\[\boxed{P(\text{knee repair} | \text{stayed 5 days}) \approx 0.345}\]שאלה 2: קריאטינין לאחר דיאליזה
נתון:
- לפני דיאליזה: $C \sim N(64, 8^2)$
- שינוי: $\Delta \sim N(-24, 12^2)$
- אחרי דיאליזה: $C + \Delta$
(א) התפלגות קריאטינין לאחר דיאליזה
\[C + \Delta \sim N(64 + (-24), 8^2 + 12^2) = \boxed{\mathcal{N}(40, 208)}\](ב): סיכוי שדיאליזה מעלה רמות קריאטינין
נבדוק:
\[P(\text{dialysis increases creatinine levels}) = P(\Delta > 0)\] \[Z = \frac{0 - (-24)}{12} = 2\] \[\boxed{P(\Delta > 0) = \text{SF}(2) = 0.0228 \text{ [normal]}}\](ג) $P(\text{After Dialysis} \leq 25)$
\[Z = \frac{25 - 40}{14.42} = -1.04\] \[\boxed{P(\text{After Dialysis} \leq 25) = 1 - \text{SF}(1.04) = 0.1492 \text{ [normal]}}\](ד) אחוזון 90 של רמות אחרי דיאליזה
נחפש $x$ כך ש-$P(C + \Delta > x) = 0.1$
\[\begin{aligned} x &= 40 + i\text{SF}(0.1) \times 14.42 \\[10pt] &= 40 + 1.282 \times 14.42 \\[10pt] &= \boxed{58.49 \text{ mg/dL}} \end{aligned}\]שאלה 3: אורך חיי סוללה
התפלגות מעריכית עם ממוצע = 8 שנים, לכן $\lambda = \frac{1}{8}$
(א) $P(T \geq 12)$
\[P(T \geq 12) = e^{-12/8} = e^{-1.5} = \boxed{0.2231}\](ב) $P(T \geq 7 \vert T \geq 5)$
לפי תכונת חוסר הזיכרון:
\[P(T \geq 7 | T \geq 5) = P(T \geq 2) = e^{-2/8} = e^{-0.25} = \boxed{0.7788}\](ג) זמן להישרדות של 80%
נחפש $t$ כך ש-$P(T \geq t) = 0.8$
\[e^{-t/8} = 0.8\] \[t = -8 \times \ln(0.8) \approx 1.785 \text{ years}\] \[1.785 \text{ years} = 1 \text{ year} + 0.785 \text{ years}\] \[0.785 \times 12 = 9.42 \text{ months} = 9 \text{ months} + 12.6 \text{ days}\] \[\boxed{\text{1 year, 9 months, 13 days}}\]שאלה 4: רמות גלוקוז בפלזמה
(א) רווח סמך 95% למחקר קטן (n=16)
המדגם קטן (פחות מ-30), אבל נתון שרמת הגלוקוז לאחר צום מתפלגת נורמאלית, כך שנוכל להשתמש בהתפלגות t.
\[\begin{aligned} CI &= \bar{x} \pm t_{0.025, df=15} \times \frac{s}{\sqrt{n}} \\ &= 140 \pm i\text{SF}(0.025) \times \frac{16}{\sqrt{16}} \\ &= 140 \pm i\text{SF}(0.025) \times 4 \\ &= (140 - i\text{SF}(0.025) \times 4, 140 + i\text{SF}(0.025) \times 4) \\ &= (140 - 2.131 \times 4, 140 + 2.131 \times 4) \\ &= \boxed{(131.48, 148.52) \text{ [t, df=15]}} \end{aligned}\](ב) רווח סמך 90% בהתפלגות נורמלית (n=64)
נתון שבמחקר הגדול יותר:
\[\begin{aligned} \bar{x} &= 120 \\ S &= 12 \\ n &= 64 \end{aligned}\] \[\begin{aligned} CI &= \bar{x} \pm i\text{SF}(0.05) \times \frac{S}{\sqrt{n}} \\ &= 120 \pm i\text{SF}(0.05) \times \frac{12}{\sqrt{64}} \\ &= 120 \pm 1.645 \times \frac{12}{8} \\ &= 120 \pm 1.645 \times 1.5 \\ &= (120 - 2.4675, 120 + 2.4675) \\ &= \boxed{(117.53, 122.47) \text{ [normal]}} \end{aligned}\](ג) רווח סמך 90% בהתפלגות t (n=64)
\[\begin{aligned} CI &= \bar{x} \pm i\text{SF}(0.05) \times \frac{s}{\sqrt{n}} \\ &= 120 \pm i\text{SF}(0.05) \times \frac{12}{\sqrt{64}} \\ &= 120 \pm 1.669 \times \frac{12}{8} \\ &= 120 \pm 1.669 \times 1.5 \\ &= (120 - 2.5035, 120 + 2.5035) \\ &= \boxed{(117.50, 122.50) \text{ [t, df=63]}} \end{aligned}\]ההבדל: התפלגות t נותנת רווחים מעט רחבים יותר (פחות ביטחון), אך עם n=64 היא קרובה מאוד לנורמלית ($\Delta \approx 0.03$). ההבדל מהסעיף הקודם נובע מכך שבסעיף ב’ השתמשנו בהתפלגות נורמלית עם $n=64$. מכיוון שבסעיף הנוכחי המדגם יחסית גדול (64), התפלגות t מתקרבת לנורמלית.
\[\begin{aligned} \text{CI}_{\text{t}} &= (117.50, 122.50) \\ \text{CI}_{\text{normal}} &= (117.53, 122.47) \\ \text{Difference} &= \Delta = \text{CI}_{\text{t}} - \text{CI}_{\text{normal}} \\ &= (117.50 - 117.53, 122.50 - 122.47) \\ &= (-0.03, 0.03) \end{aligned}\]
(ד) מבחן דו-צדדי להשוואת מחקרים
נעזור לחוקרת שחושדת כי ההנחיות שניתנו לקבוצה הקטנה לא היו ברורות לנסח מבחן.
נסמן את ממוצע רמות הגלוקוז בקבוצת המחקר הקטנה ב-$\mu_1$ ובקבוצת המחקר הגדולה ב-$\mu_2$.
השערות:
-
$H_0$: אין הבדל בין ממוצעי רמות הגלוקוז בשתי הקבוצות ($\mu_1 = \mu_2$)
\[H_0: \mu_1 = \mu_2 \implies \mu_D = \mu_1 - \mu_2 = 0\] -
$H_1$: יש הבדל בין ממוצעי רמות הגלוקוז בשתי הקבוצות ($\mu_1 \neq \mu_2$)
\[H_1: \mu_1 \neq \mu_2 \implies \mu_D = \mu_1 - \mu_2 \neq 0\]
נבחר $\alpha = 0.05$.
הנחה קריטית ביותר: אנחנו מניחים שהמדגמים בלתי תלויים. כלומר, ללא זיווג, ללא מדידות חזורות וללא תלות בין המדגמים.
נחשב את ממוצע ההפרש בין הקבוצות:
\[\bar{D} = \bar{x}_1 - \bar{x}_2 = 140 - 120 = 20\]נתון שרמות גלוקוז מתפלגות נורמאלית באוכלוסייה, אבל אנחנו רוצים לבדוק את ההבדל בין הממוצעים של שתי קבוצות בלתי תלויות. אין לנו מידע על השונות של ההפרים.
כדי לפתור את הבעיה נאמוד את השונות מתוך המדגם. נניח התפלגות נומאלית ולכן תחת השערת האפס נוכל להגדיר אומד משותף לשונות:
\[S^2 = \frac{(n_1 - 1) S_1^2 + (n_2 - 1) S_2^2}{n_1 + n_2 - 2}\]נחשב:
\[\begin{aligned} S^2 &= \frac{(16 - 1) \cdot 16^2 + (64 - 1) \cdot 12^2}{16 + 64 - 2} \\ &= \frac{15 \cdot 256 + 63 \cdot 144}{78} \\ &= \frac{3840 + 9072}{78} \\ &= \frac{12912}{78} \approx 165.23 \end{aligned}\]מכיוון שאחת הקבוצות קטנה מ-30, נשתמש בהתפלגות t. נגדיר סטטיסטי:
\[t = \frac{\bar{D}}{S \sqrt{\tfrac{1}{n_1} + \frac{1}{n_2}}} \sim t_{df=n_1+n_2-2}\]נחשב:
\[t = \frac{20}{\sqrt{165.23} \cdot \sqrt{\tfrac{1}{16} + \tfrac{1}{64}}} = \boxed{5.57 \text{ [t, df=78]}}\]נחשב את ערך ה-p:
\[\text{p-value} = 2 \cdot \text{SF}(5.57) \approx 2 \cdot 1.75 \times 10^{-7} = \boxed{3.49 \times 10^{-7} \text{ [t, df=78]}}\]מכיוון ש-$\text{p-value} < 0.05$, דוחים את $H_0$ ומסיקים שיש הבדל מובהק בין רמות הגלוקוז בקבוצות. כלומר, סביר שההנחיות שניתנו לקבוצה הקטנה לא היו ברורות.
(ה) מבחן חד-צדדי (חשד שהמשתתפים בקבוצה הגדולה צמו פחות, וכך העלו רמת גלוקוז בדם)
נניח שהחשד הוא שהקבוצה הגדולה צמה פחות, כלומר רמות הגלוקוז בקבוצה הגדולה גבוהות יותר.
נגדיר מחדש את השערות:
-
$H_0$: אין הבדל בין ממוצעי רמות הגלוקוז בשתי הקבוצות ($\mu_1 = \mu_2$)
\[H_0: \mu_1 = \mu_2 \implies \mu_D = \mu_1 - \mu_2 = 0\] -
$H_1$: רמות הגלוקוז בקבוצה הגדולה גבוהות יותר ($\mu_2 > \mu_1$)
\[H_1: \mu_2 > \mu_1 \implies \mu_D = \mu_1 - \mu_2 < 0\]כלומר מבחן חד צדדי - שמאלי.
נבחר $\alpha = 0.05$.
הנתונים נשארים זהים:
\[\begin{aligned} df &= n_1 + n_2 - 2 = 16 + 64 - 2 = 78 \\ \bar{D} &= 20 \\ S^2 &= 165.23 \\ s &= \sqrt{S^2} \approx 12.85 \\ t &= \frac{20}{12.85 \cdot \sqrt{\tfrac{1}{16} + \tfrac{1}{64}}} \approx 5.57 \end{aligned}\]עבור $H_1: \mu_2 > \mu_1$ (כלומר $\mu_1 - \mu_2 < 0$), עם $t = 5.57 > 0$:
\[\begin{aligned} \text{p-value} &= P(T \leq 5.57) \\ &= 1 - \text{SF}(5.57) \approx 1 - 1.75 × 10^{-7} \\ &= \boxed{0.9999 \text{ [t, df=78]}} \end{aligned}\]מכיוון ש-$\text{p-value} > 0.05$, לא דוחים את $H_0$. התוצאות מראות שרמות הגלוקוז בקבוצה הקטנה דווקא גבוהות יותר, בניגוד לחשד. לכן, אין ראיות לכך שהקבוצה הגדולה צמה פחות.
(ו) מבחן חד-צדדי (חשד שהמשתתפים בקבוצה הקטנה צמו פחות, וכך העלו רמת גלוקוז בדם)
נניח שהחשד הוא שהקבוצה הקטנה צמה פחות, כלומר רמות הגלוקוז בקבוצה הקטנה גבוהות יותר.
נגדיר מחדש את השערות:
-
$H_0$: אין הבדל בין ממוצעי רמות הגלוקוז בשתי הקבוצות ($\mu_1 = \mu_2$)
\[H_0: \mu_1 = \mu_2 \implies \mu_D = \mu_1 - \mu_2 = 0\] -
$H_1$: רמות הגלוקוז בקבוצה הקטנה גבוהות יותר ($\mu_1 > \mu_2$)
\[H_1: \mu_1 > \mu_2 \implies \mu_D = \mu_1 - \mu_2 > 0\]
נבחר $\alpha = 0.05$.
הנתונים נשארים זהים:
\[\begin{aligned} df &= n_1 + n_2 - 2 = 16 + 64 - 2 = 78 \\ \bar{D} &= 20 \\ S^2 &= 165.23 \\ s &= \sqrt{S^2} \approx 12.85 \\ t &\approx \frac{20}{12.85 \cdot \sqrt{\tfrac{1}{16} + \tfrac{1}{64}}} \approx 5.57 \end{aligned}\]נחשב את ערך ה-p:
\[\text{p-value} = \text{SF}(5.57) \approx 1.75 \times 10^{-7}\] \[\boxed{\text{p-value} < 1.75 \times 10^{-7} \text{ [t, df=78]}}\]מכיוון ש-$\text{p-value} < 0.05$, אנחנו דוחים את $H_0$ לפיה אין הבדל בין רמות הגלוקוז בין הקבוצות, לטובת ההשערה האלטרנטיבית $H_1$ לפיה רמות הגלוקוז בקבוצה הקטנה גבוהות יותר. כלומר, סביר שההנחיות שניתנו לקבוצה הקטנה לא היו ברורות.
שאלה 5: רמות חלבון C-ריאקטיבי
(א) תיאור מבחן לבדיקה האם הטיפול מפחית את רמות ה-CRP
חישוב CRP_After - CRP_Before
נותן את הפרשים הבאים:
PatientID | CRP_Before | CRP_After | CRP_Difference |
---|---|---|---|
1 | $12.1$ | $ 7.8$ | $-4.3$ |
2 | $10.5$ | $ 6.2$ | $-4.3$ |
3 | $13.3$ | $ 9.4$ | $-3.9$ |
4 | $11.0$ | $ 7.1$ | $-3.9$ |
5 | $14.6$ | $10.5$ | $-4.1$ |
6 | $ 9.8$ | $ 6.7$ | $-3.1$ |
7 | $12.7$ | $ 8.8$ | $-3.9$ |
8 | $13.1$ | $ 9.2$ | $-3.9$ |
9 | $10.9$ | $ 7.0$ | $-3.9$ |
10 | $11.6$ | $ 6.8$ | $-4.8$ |
הממוצע של הפרשים הוא $-4.01$ עם סטיית תקן של $0.433$.
ננסח מבחן חד-צדדי.
השערות:
- $H_0: \mu_d = 0$ (אין שינוי ברמות CRP)
- $H_1: \mu_d < 0$ (רמות CRP יורדות לאחר טיפול)
נבחר $\alpha = 0.05$.
כלומר, נשתמש במבחן t מזווג כדי לבדוק אם יש ירידה מובהקת ברמות CRP לאחר טיפול, כאשר אנחנו מאמינים שהטיפול יגרום לירידה ברמות CRP.
זה מבחן חד צדדי כנדרש.
(ב) קוד ותוצאת מבחן t מזווג
עם ממוצע הפרשים:
\[\bar{D} = -4.01\]וסטיית תקן של הפרשים:
\[SE = \frac{0.433}{\sqrt{10}} \approx 0.137\]from scipy import stats
differences = [-4.3, -4.3, -3.9, -3.9, -4.1, -3.1, -3.9, -3.9, -3.9, -4.8]
t_stat, p_value = stats.ttest_1samp(differences, 0, alternative='less')
print(f"t-stat: {t_stat}")
print(f"p-value: {p_value}")
# in scientific notation
mantissa, exponent = f"{p_value:.2e}".split("e")
exponent = int(exponent)
print(f"p-value: {mantissa} × 10^{exponent} [t, df = 9]")
כלומר:
\[\begin{aligned} t &= \tfrac{-4.01}{0.137} \approx -29.27 \\ \end{aligned}\]עם $t = -29.27$ ומבחן חד-צדדי שמאלי:
\[\boxed{\text{p-value} < 1.55 \times 10^{-10} \text{ [t, df = 9]}}\] מכיוון ש-$\text{p-value} < 0.05$, דוחים את $H_0$ ומסיקים שיש ירידה מובהקת ברמות CRP לאחר טיפול.
(ג) קוד ותוצאת מבחן t בלתי תלוי
המבחן הבלתי תלוי מתייחס לקבוצות כבלתי תלויות, ומאבד את מידע הזיווג. זה מגדיל את שגיאת התקן כי הוא לא מתחשב במתאם בין מדידות לפני ואחרי על אותו חולה.
דרגת החופש:
\[df = n_1 + n_2 - 2 = 10 + 10 - 2 = 18\]# Important: ttest_ind(after, before, alternative='less')
# tests if mean(after) < mean(before), which is what we want
from scipy import stats
after = [7.8, 6.2, 9.4, 7.1, 10.5, 6.7, 8.8, 9.2, 7.0, 6.8]
before = [12.1, 10.5, 13.3, 11.0, 14.6, 9.8, 12.7, 13.1, 10.9, 11.6]
t_stat, p_value = stats.ttest_ind(after, before, alternative='less', equal_var=True)
print(f"p-value: {p_value}")
# in scientific notation
mantissa, exponent = f"{p_value:.2e}".split("e")
exponent = int(exponent)
print(f"p-value: {mantissa} × 10^{exponent} [t, df = 18]")
print(f"t-stat: {t_stat}")
קיבלנו את הסטטיסטי:
\[t \approx -6.16\] \[\boxed{\text{p-value} \approx 4.03 \times 10^{-6} \text{ [t, df = 18]}}\] במבחן הבלתי תלוי, התוצאה מובהקת סטטיסטית, אך פחות מובהקת מהמבחן המזווג. זה נובע מהאובדן של מידע הזיווג, שמפחית את הכוח הסטטיסטי של המבחן.
מה שהשתנה מהמבחן בסעיף הקודם הוא ש-$df = 18$ במקום $9$, כי יש לנו 20 מדידות (10 חולים, כל אחד עם מדידה לפני ואחרי). זה מפחית את המובהקות של התוצאה.
כל זאת בהנחה שהשונות בין הקבוצות דומה, אחרת היינו משתמשים בגרסה הלא שוויונית של המבחן.
שאלה 6: רמות חלבון C-ריאקטיבי חלק II
רגרסיה ליניארית של CRP אחרי טיפול על CRP לפני טיפול
משוואת הרגרסיה:
\[\text{CRP}_{\text{after}} = \beta_0 + \beta_1 \times \text{CRP}_{\text{before}}\]פלט OLS
OLS Regression Results
==============================================================================
Dep. Variable: CRP_After R-squared: 0.914
Model: OLS Adj. R-squared: 0.903
Method: Least Squares F-statistic: 85.10
Date: Sun, 22 Jun 2025 Prob (F-statistic): 1.55e-05
Time: 14:54:32 Log-Likelihood: -4.9902
No. Observations: 10 AIC: 13.98
Df Residuals: 8 BIC: 14.59
Df Model: 1
Covariance Type: nonrobust
==============================================================================
coef std err t P>|t| [0.025 0.975]
------------------------------------------------------------------------------
const -3.1534 1.212 -2.602 0.032 -5.948 -0.359
CRP_Before 0.9284 0.101 9.225 0.000 0.696 1.160
==============================================================================
(א) מקדמי רגרסיה
מתוך פלט OLS:
- חותך (Intercept): $\beta_0 = -3.15 \, \mathrm{mg/dL}$
- שיפוע (Slope): $\beta_1 = 0.93 \, \mathrm{mg/dL}$
משוואת הרגרסיה המתקבלת:
\[\boxed{\text{CRP}_{\text{after}} = -3.15 + 0.93 \times \text{CRP}_{\text{before}}}\](ב) רווחי סמך 95%
מתוך העמודות [0.025, 0.975] בפלט:
- רווח סמך לחותך: $[-5.95, -0.36] \mathrm{mg/dL}$
- רווח סמך לשיפוע: $[0.70, 1.16]$
(ג) בחירת מודל
המלצה: יש לכלול גם חותך וגם שיפוע במודל.
נימוקים סטטיסטיים:
- השיפוע ($\beta_1 = 0.93$) מובהק סטטיסטית:
- רווח הסמך $[0.70, 1.16]$ אינו כולל את 0
- $p\text{-value} < 0.001$ (מהפלט: $p = 0.000$)
- הסטטיסטי $t = 9.225$ גבוה מאוד
- החותך ($\beta_0 = -3.15$) מובהק סטטיסטית:
- רווח הסמך $[-5.95, -0.36]$ אינו כולל את 0
- $p\text{-value} = 0.032 < 0.05$
- הסטטיסטי $t = -2.602$
פרשנות קלינית:
- השיפוע (0.93): לכל עלייה של $1 \, \mathrm{mg/dL}$ ב-CRP לפני טיפול, צפויה עלייה של $0.93 \, \mathrm{mg/dL}$ ב-CRP אחרי טיפול
- החותך (-3.15): מייצג ירידה קבועה של $3.15 \, \mathrm{mg/dL}$ בכל החולים, ללא תלות ברמה ההתחלתית - זאת ההשפעה הישירה של הטיפול
(ד) שונות מוסברת ($R^2$)
\[\boxed{R^2 = 0.914}\]פרשנות:
- 91.4% מהשונות ברמות CRP אחרי הטיפול מוסברת על ידי רמות CRP לפני הטיפול
- זה מודל עם התאמה מצוינת לנתונים
- רק 8.6% מהשונות נובעת מגורמים אחרים (תגובה אינדיבידואלית, שגיאות מדידה וכו’)
קשר לשאלה 5:
התוצאות עקביות עם מבחן t המזווג מהשאלה הקודמת:
- מבחן t הראה ירידה ממוצעת מובהקת של 4.01 mg/dL
- הרגרסיה מראה שהירידה מורכבת מ:
- ירידה קבועה של 3.15 mg/dL (החותך)
- שמירה על 93% מהערך המקורי (השיפוע)
- שניהם מאששים שהטיפול יעיל בהורדת רמות CRP