מבוא לקורס

מידע אדמיניסטרטיבי

מרצה: ד”ר יאיר דהן (רקע במתמטיקה ושיטות מתמטיות באפידמיולוגיה, התפשטות מחלות, דיאגנוסטיקה והסקה סיבתית)

מועדי הרצאות:

  • ימי שני: 8:45-10:00
  • ימי חמישי: 14:15-16:00

מועדי תרגולים: ימי חמישי, 12:15-14:00 (שעתיים לפני ההרצאה)

מתרגלות: מפר, גלית, סנגרה

חובות הקורס: תרגילי בית (במקום בחינה סופית בגלל המצב). חלק מהתרגילים יוגשו במודל/מערכת למידה דיגיטלית וחלק באופן פיזי או אלקטרוני.

המלצה חשובה: שיתוף פעולה בתרגילים מומלץ מאוד - רק יש לציין עם מי שיתפתם פעולה.

חובת נוכחות: יש חובת נוכחות בשיעורים ובתרגילים.

חומרי עזר: מצגות, ספרים (סטטיסטיקה ללא סטטיסטיקאים, חוברת האוניברסיטה הפתוחה, ספר של מלוויתן), קורסים אינטרנטיים.

מדוע לומדים סטטיסטיקה?

סטטיסטיקה היא אוסף כלים המאפשר:

  • להבין מידע המגיע בצורה מספרית או סמי-מספרית
  • להסיק מסקנות כמותיות
  • להחליט איזה מודל מתאר נכון את המציאות
  • לחזות מה יקרה בעתיד
  • לנתח באופן ביקורתי נתונים המוצגים במחקרים

לסטודנטים לרפואה, היכולת לנתח מאמרים מדעיים בצורה ביקורתית היא קריטית, שכן הרפואה מתקדמת ומשתנה. רופאים צריכים:

  • לדעת לזהות התפרצויות של מחלות במחלקה
  • להתעסק עם נתונים מספריים
  • להבין מחקרים במסגרת רפואה מבוססת ראיות

כפי שהמרצה הדגיש: “אתם לא יכולים לברוח מזה”. התחומים בהם סטטיסטיקה משמשת ברפואה כוללים:

  • אפידמיולוגיה ובריאות הציבור
  • בדיקת יעילות תרופות
  • הבנת הקשר בין מוטציות, תזונה, גורם ומחלה
  • בדיקת יכולת הניבוי של בדיקות דם לגבי מחלות

מטרת הקורס היא לאפשר הבנה של:

  • כיצד מסיקים מידע ממדגם
  • כיצד להבין אם אפקט שנצפה הוא אמיתי או מקרי (למשל, האם תרופה שמשפרת את מצבו של מטופל אחד היא באמת יעילה, או שמא זה מקרי?)
  • העקרונות הבסיסיים של הסקה סטטיסטית

הקורס יתקדם בהדרגה:

  1. סטטיסטיקה תיאורית: הבנת סוגי מידע, התפלגויות, תכונות של התפלגויות, וקשרים בין משתנים.
  2. הסתברות: הבנת אי-ודאות, משתנים מקריים (בינומיים, נורמליים, גיאומטריים), והסתברות מותנית.
  3. הסקה סטטיסטית: הבנת מושג המדגם, הסתברות לקבלת תוצאות מסוימות במדגם, ואומדן תכונות של אוכלוסייה.

סטטיסטיקה תיאורית

הנושא הראשון בקורס הוא סטטיסטיקה תיאורית - כיצד לארגן, להציג ולסכם מידע שהתקבל מניסוי או מחקר.

סוגי משתנים

בסטטיסטיקה, השאלה הבסיסית ביותר שניתן לשאול על מידע היא: אילו ערכים הוא יכול לקבל, או מהם סוגי המשתנים.

לדוגמה, כאשר עורכים ניסוי לבדיקת השפעה של תרופה להורדת לחץ דם, ניתן למדוד:

  • לחץ דם (נמדד במילימטר כספית)
  • האם המשתתף בקבוצת ביקורת (כן/לא)
  • מינון התרופה
  • זמן לקיחת התרופה
  • מין המשתתף (זכר/נקבה)
  • רמת שביעות רצון
  • גובה
  • טמפרטורה

משתנים אלו שונים מאוד באופיים ובדרך המדידה שלהם.

משתנים איכותיים (קטגוריים) לעומת משתנים כמותיים

  • משתנים איכותיים מייצגים קטגוריות ולא כמויות. לדוגמה: מין (זכר/נקבה), קבוצת ביקורת (כן/לא), מקצוע, שם.
  • משתנים כמותיים מייצגים ספירה או מדידה. לדוגמה: גובה, טמפרטורה, לחץ דם, משקל.

כפי שאחד הסטודנטים ציין בהרצאה, ניתן לחלק את המשתנים ל:

  • משתנים פיזיים (גובה, מין, גיל)
  • משתנים חברתיים או מופשטים (עוסק בעבודה מסוימת, שביעות רצון)

סולמות מדידה

משתנים כמותיים מאופיינים על ידי סולם מדידה. סולמות המדידה השונים מגדירים אילו פעולות מתמטיות ניתן לבצע על הערכים המתקבלים:

  1. סולם נומינלי (שמי): הערכים מייצגים קטגוריות בלבד, ללא סדר משמעותי ביניהן. לדוגמה: מין, תעודת זהות, מספר חולצה של שחקן כדורסל, מקום מגורים.
    • מה שמייחד ערכים נומינליים: המספר (אם קיים) לא נותן שום אינפורמציה כמותית ממשית - “זה שרשום לי מספר חולצה 18, לא אומר שאני בן 18 או שוקל 18 קילו” (ציטוט מהמרצה)
    • פעולות מותרות: השוואה (שווה/שונה) בלבד
    • אין משמעות להשוות “נקבה גדול מזכר” או “תעודת זהות שלי גדולה מהתעודת זהות של ניקול”
    • אין סדר והמספרים הם שרירותיים לחלוטין
  2. סולם סדר (אורדינלי): הערכים מייצגים קטגוריות שיש משמעות לסדר ביניהן. לדוגמה: רמת שביעות רצון (1-5), רמת כאב.
    • כל קטגוריה מקבלת מספר שמייצג את מיקומה בסדר
    • פעולות מותרות: השוואה (גדול/קטן/שווה)
    • אין משמעות לפעולות אריתמטיות - “אני לא יכול להגיד כאב 3 פלוס כאב 7 שווה כאב 10” (ציטוט מהמרצה)
    • אבל כן ניתן לומר שכאב ברמה 4 גרוע יותר (גדול יותר) מכאב ברמה 3
  3. סולם מרווח (אינטרוולי): בנוסף לסדר, יש משמעות להפרשים בין הערכים. לדוגמה: טמפרטורה במעלות צלזיוס.
    • פעולות מותרות: השוואה, חיבור וחיסור
    • המרצה לא הרחיב על סולם זה בהרצאה
  4. סולם יחס (רציו): בנוסף להפרשים, יש משמעות ליחסים בין הערכים ויש אפס מוחלט. לדוגמה: משקל, גובה, טמפרטורת גוף.
    • פעולות מותרות: השוואה, חיבור, חיסור, כפל וחילוק
    • דוגמאות מההרצאה: “אני שוקל 71 קילו, אני יכול להוריד 5 קילו… אני יכול להוריד גם 20 קילו”, “טמפרטורת הגוף שלי עכשיו היא 37 מעלות, אני יכול להוריד 5 מעלות טמפרטורת הגוף, נראה שזה לא יהיה לי טוב, אבל אני יכול להוריד את זה”

משתנים בדידים לעומת רציפים

משתנים כמותיים מתחלקים גם למשתנים בדידים ורציפים:

  • משתנה בדיד: יכול לקבל רק ערכים מסוימים ומוגדרים. לדוגמה: מספר ילדים במשפחה, מספר חולים שהבריאו (“לא יכול להיות חצי חולה שהבריא”).
  • משתנה רציף: יכול לקבל כל ערך בתחום מסוים. לדוגמה: גובה, משקל, טמפרטורה, לחץ דם.

המרצה הדגיש: “משתנה רציף יהיה משתנה כמותי בלבד.” לעומת זאת, משתנה בדיד יכול להיות איכותי או כמותי.

בהקשר זה, המרצה ציין גם שציון במבחן הוא בדרך כלל מספר שלם, אבל במקרים רבים מתייחסים אליו כאל משתנה רציף מבחינה סטטיסטית.

התפלגות נתונים

התפלגות מתארת את הצורה שבה הנתונים מופיעים - כיצד ערכים שונים מופיעים בתדירויות שונות. המרצה הסביר זאת כך: “זאת אומרת, או יש לי סיכוי של חצי להיוולד זכר, סיכוי של חצי להיוולד נקבה, או מתוך האוכלוסייה 51% הן נקבה, ו-49% הן זכר”.

כאשר יש מספר קטן של נתונים, ניתן פשוט לרשום את כל הערכים. כאשר יש מספר גדול של נתונים, נדרשת אגרגציה כלשהי לתיאור ההתפלגות.

הצגת נתונים של משתנים איכותיים או בדידים

המרצה הסביר שכאשר המשתנה איכותי או כמותי בדיד (כלומר, מספר האפשרויות סופי), הדרך הסטנדרטית והפשוטה ביותר לתאר את המידע היא באמצעות טבלת שכיחויות.

טבלת שכיחויות: טבלה המציגה את הערכים האפשריים ואת מספר הפעמים שכל ערך מופיע (שכיחות).

לדוגמה, תוצאות סקר שביעות רצון עם 20 משתתפים:

דירוג שביעות רצון שכיחות שכיחות יחסית
1 (נמוכה מאד) 1 0.05
2 5 0.25
3 3 0.15
4 7 0.35
5 (גבוהה מאד) 4 0.20
סה”כ 20 1.00

המרצה הסביר: “אם מתוך 20 איש 5 היו שביעי רצון 2, אז השכיחות היחסית שלהם באוכלוסייה היא רבע [5 מתוך 20]. אם מתוך 20 איש 7 היו שביעי רצון 4, השכיחות היחסית שלהם היא [7 חלקי 20 =] 0.35.”

שכיחות יחסית: השכיחות מחולקת במספר התצפיות הכולל. שכיחות יחסית מייצגת את החלק היחסי של כל ערך באוכלוסייה.

המרצה הדגיש שסכום כל השכיחויות חייב להיות שווה למספר התצפיות הכולל (במקרה זה 20), וסכום כל השכיחויות היחסיות חייב להיות שווה ל-1 (או 100%).

דיאגרמת עמודות (מקלות): תצוגה גרפית של טבלת השכיחויות, שבה גובה כל עמודה מייצג את השכיחות או השכיחות היחסית. המרצה הדגיש את חשיבות הבנת הצירים בכל גרף - ציר ה-X מציג את הערכים האפשריים, וציר ה-Y מציג את השכיחות או השכיחות היחסית.

דיאגרמת עוגה: המרצה ציין שדיאגרמת עוגה שימושית כאשר השכיחות היחסית חשובה יותר, ופחות שימושית כאשר יש הרבה ערכים או כאשר השכיחויות קרובות זו לזו. “אתם לא יכולים לראות בעין, להרגיש בעין את המספרים, [אבל] אתם כן יכולים לראות את החלק היחסי.”

הצגת נתונים של משתנים רציפים

המרצה הדגים את הבעייתיות בהצגת נתונים של משתנים רציפים באמצעות שאלת הגובה - כשביקש מהסטודנטים לומר את גובהם, התקבלו ערכים שונים כמו 1.62, 1.72, 1.80, 1.63 וכן הלאה. הוא הסביר שייצוג כזה של נתונים לא יעיל: “זה מועיל למישהו הייצוג הזה? לא… אין פה חזרה, כל הערכים זה כזה [שונים], כל בלאגן. צריך לעשות קצת סדר.”

בינינג או קיבוץ לקטגוריות (Binning): כאשר המשתנה רציף (כמו גובה או לחץ דם), נהוג לחלק את התחום למקטעים (bins) ולספור כמה תצפיות נופלות בכל מקטע. המרצה הדגים זאת באמצעות חלוקת ערכי קולסטרול:

“נגיד, דוגמה היפותטית, רמת קולסטרול בדם נמדדת במיליגרם לדציליטר… אני הולך להחליט באופן יחסית שרירותי שהתחום הרלוונטי הוא בין 50 ל-200, ומחלקים את התחום לשמונה מקטעים.”

המרצה הדגיש שבחירת המקטעים היא החלטה די שרירותית, וצריך לבחור אותם כך שההתפלגות תוצג באופן אינפורמטיבי:

  • אם לוקחים מעט מקטעים מדי (למשל רק שניים), מאבדים מידע משמעותי
  • אם לוקחים מקטעים צרים מדי, חוזרים לבעיה המקורית שבכל מקטע יש תצפית אחת או שתיים

היסטוגרמה: תצוגה גרפית של התפלגות משתנה רציף, שבה גובה כל עמודה מייצג את מספר או אחוז התצפיות שנופלות במקטע מסוים.

המרצה הבהיר נקודה חשובה לגבי הגדרת המקטעים - כיצד מגדירים את גבולות המקטעים. למשל, אם יש מקטעים 50-100, 100-150, 150-200, איך מטפלים בערך 100 או 150 בדיוק? הוא הסביר שהכלל המקובל הוא “שואף לימין” - כלומר, ערך שנמצא בדיוק על הגבול משתייך למקטע הבא (הימני).

צורות התפלגות

המרצה הציג מספר צורות התפלגות שונות והדגים אותן באמצעות סטודנטים בכיתה כדי להמחיש את ההבדלים ביניהן.

התפלגות סימטרית

המרצה הסביר שההתפלגות הנורמלית (“פעמון”) היא דוגמה קלאסית להתפלגות סימטרית. הוא ציין ש”הסטנדרט בסטטיסטיקה הוא להגיד ש… קומת פעמון מתארת את רוב התופעות הטבעיות.” המרצה הדגיש שזה לא תמיד נכון, אבל “זה נכון בקירוב, נכון מספיק טוב בשבילנו.”

כאשר מישהו אומר “זה לא בדיוק נורמלי”, המרצה מסביר ש”הדאטה שלכם גם מספיק נורמלי” וזו החלטתכם אם לקבל את הקירוב.

התפלגות אסימטרית

המרצה הסביר שהתפלגות אסימטרית היא התפלגות שיש לה “זנב” - ערכים קיצוניים בצד אחד:

  • התפלגות אסימטרית חיובית (ימנית): כאשר יש “זנב” ארוך לכיוון הערכים הגבוהים. דוגמאות מההרצאה: התפלגות הכנסות, מחירי דירות, מספר ילדים במשפחה.

המרצה הסביר: “למשל, הכנסה, אם התמזל מזלכם להיות, נגיד, באחוזון העליון של המשתכרים במדינת ישראל, אתם תגלו שאתם לא מרגישים עשירים, וכל מי שמעליכם, עדיין מרוויח הרבה יותר מכם. זו התכונה של הכנסה, שיש זנב מאוד מאוד ארוך, מאוד מאוד כבד, וההתפלגות מאוד לא סימטרית, בגלל זה יש אנשים שיש להם המון, ויש אנשים שיש להם פחות.”

  • התפלגות אסימטרית שלילית (שמאלית): כאשר יש “זנב” ארוך לכיוון הערכים הנמוכים. דוגמה מההרצאה: ציונים במבחן קל.

המרצה הסביר שבמקרה כזה יש “חסם עליון” (למשל, ציון מקסימלי של 100 במבחן) שמונע מההתפלגות להתפשט לימין, אבל היא יכולה להתפשט לשמאל (ציונים נמוכים יותר).

התפלגויות נוספות

  • התפלגות דו-מודלית (Bimodal): התפלגות עם שתי “פסגות” או יותר. המרצה הדגים זאת באמצעות קבוצת סטודנטים שחולקה לשתי קבוצות נפרדות.

  • התפלגות אחידה (Uniform): כל הערכים בתחום מופיעים בסבירות דומה. המרצה הגדיר אותה כ”התפלגות שלכל התוצאות, כל האפשרויות יש סיכוי פחות או יותר שווה.”

המרצה הדגיש שכל ההגדרות האלה הן קצת שרירותיות. למשל, התפלגות יכולה להיות גם אסימטרית וגם דו-מודלית. כמו כן, “התפלגות ביומדלית היא סימטרית? [תשובה מהכיתה:] יכולה להיות. תשובות ספקניות זה אחלה. יכולה להיות. מעולה. התפלגות אחידה היא סימטרית? תמיד.”

מדדי מיקום מרכזי

המרצה הסביר: “מדדי מיקום מנסים לסכם את ההתפלגות באמצעות מספר אחד.” הוא נתן דוגמה: “נגיד, יש לי התפלגות הגבהים: מטר שבעים ושתיים, מטר שישים ושלוש, מטר שמונים… והבוס שלי, מנהל המחלקה, אומר לי ‘תסכם לי את הגבהים במחלקה שלך’… ‘תן לי מספר אחד’.”

סימונים מתמטיים

המרצה הציג את הסימונים המתמטיים המקובלים:

  • משתנה מקרי מסומן באות לטינית גדולה: $X$, $Y$, $Z$ וכו’
  • מספר התצפיות (גודל המדגם) מסומן ב-$n$
  • הערכים של המשתנה מסומנים ב-$X_1$, $X_2$, …, $X_n$

המרצה גם הציג את הסימון $\sum$ (סיגמא) לסכימה: $\sum_{i=1}^{n}X_i = X_1 + X_2 + … + X_n$

והדגים באמצעות דוגמה פשוטה: $\sum_{i=2}^{4}X_i = X_2 + X_3 + X_4 = 3 + 5 + 6 = 14$

ממוצע (Mean)

הממוצע הוא סכום כל הערכים מחולק במספר התצפיות:

$\bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i$

כאשר:

  • $\bar{X}$ מסמן את הממוצע (נקרא גם “X גדול” או “X עם קו מעל”, ובאוכלוסייה מסומן כ-$\mu$)
  • $n$ הוא מספר התצפיות
  • $X_i$ הוא הערך של התצפית ה-$i$

המרצה הדגים בדוגמה פשוטה: אם המדגם הוא 3, 6, 2, 7, 4, אז הממוצע הוא $\frac{3 + 6 + 2 + 7 + 4}{5} = \frac{22}{5} = 4.4$

מאפיינים של הממוצע:

  • לוקח בחשבון את כל הערכים במדגם
  • רלוונטי רק למשתנים כמותיים
  • לא ניתן לחשב ממוצע של משתנה נומינלי (כמו זכר/נקבה, קופת חולים כללית/מכבי/מאוחדת)
  • ישנה מחלוקת לגבי חישוב ממוצע למשתנה אורדינלי (כמו רמת שביעות רצון) - המרצה ציין שיש שיאמרו שאין לזה משמעות, ויש שכן עושים זאת בפרקטיקה

המרצה הדגיש שהממוצע אינו עמיד (רובוסטי) לערכים קיצוניים, והדגים זאת בדוגמה של מדידת גובה: “מדדתי גובה באוכלוסייה ובטעות, בבן אדם השביעי, במקום לכתוב 1.72 מטר, שכחתי את הנקודה וכתבתי 172 מטר.” במקרה כזה, הממוצע היה קופץ ל-18.8 מטרים, שהוא ערך חסר משמעות.

ממוצע קטום (Trimmed Mean): כדי להתמודד עם רגישות לערכים קיצוניים, המרצה הציג את הממוצע הקטום - שיטה שבה “בצורך חישוב הממוצע אנחנו לוקחים אחוז מסוים של התצפיות הגבוהות והנמוכות ביותר וזורקים אותן, ואחר כך מחשבים את הממוצע על הערכים הנותרים.”

המרצה הסביר שהממוצע הקטום “מושפע יותר מהערכים המרכזיים, פחות מהערכים הקיצוניים”. הוא הדגיש שהשיטה שימושית במיוחד במקרים שבהם ידוע שיש ערכים קיצוניים בתופעה שנמדדת, כמו בדוגמה שנתן: “את מודדת יעילות של תרופה… ואת יודעת שאחד מ-20 מישהו, שיש לו מוטציה גנטית כלשהי או מחלה, כשהתרופה מזניקה את לחץ הדם לשמיים… ואת אומרת, טוב, אני לא יודעת מי הם בדיוק… נשתמש בממוצע קטום.”

חציון (Median)

המרצה הגדיר את החציון כ”ערך שלפחות חצי מהתצפיות קטנות ממנו, ולפחות חצי מהתצפיות גדולות ממנו.” הוא הדגיש: “לדייק - לפחות חצי גדולות או שוות, לפחות חצי קטנות או שוות.”

לחישוב החציון:

  1. מסדרים את כל הערכים בסדר עולה
  2. אם יש מספר אי-זוגי של תצפיות, החציון הוא הערך האמצעי
  3. אם יש מספר זוגי של תצפיות, ישנה שרירותיות מסוימת בבחירת החציון:
    • ניתן לקחת את הממוצע של שני הערכים האמצעיים (הגישה המקובלת)
    • ניתן לבחור את אחד משני הערכים האמצעיים

המרצה הדגים עם מדגם פשוט: 1, 3, 4, 600. “אנחנו מסדרים את הערכים של המדגם, בוחרים בערך האמצעי, וזהו, זה החציון.”

עבור מספר זוגי של תצפיות, המרצה הדגיש שיש אלמנט של שרירותיות: “שרירותי במובן שאת יכולה לבחור כל ערך בין [שני הערכים האמצעיים]… אבל את לא תמחרי פה שבע מאות אלף.” הוא הסביר שחציון אינו בהכרח ערך יחיד בהתפלגות בדידה: “בהתפלגות נורמלית או התפלגות רציפה, יש לך חציון יחיד. אבל בעולם הנופך שלנו, חציון הוא לא יחיד.”

מאפיינים של החציון:

  • המרצה הדגים באמצעות סטודנטים בכיתה שהחציון אינו מושפע כמעט כלל מערכים קיצוניים (יותר רובוסטי מהממוצע) - כאשר ה”סטודנט” עם הערך הקיצוני ביותר זז הרחק מאוד, החציון כמעט ולא השתנה
  • החציון תקף גם למשתנים בסולם סדר (אורדינליים): “אני יכול להגיד שהסביעות רצון החציונית היא 3. אני לא צריך לעשות פעולה מעבר להשוואה, זה גדול מזה, זה קטן מזה.”
  • המרצה תיאר את החציון כערך ש”חוצה לכם את ההתפלגות, בדיוק באמצע” - חצי מהשטח (או חצי מהנתונים) נמצא מימין וחצי משמאל

שכיח (Mode)

המרצה הגדיר את השכיח כ”הערך שמופיע הכי הרבה פעמים” בנתונים. עבור טבלת שביעות הרצון שהוצגה קודם, ערך 4 הוא השכיח כי הוא מופיע 7 פעמים, יותר מכל ערך אחר.

מאפיינים של השכיח:

  • לא מושפע כלל מערכים קיצוניים. המרצה הסביר: “אני יכול לשנות את כל… אני יכול לקחת את הערך אחד, להפוך אותו למינוס 200 מיליון, זה למינוס 700 אלף וזה למינוס 500, ועדיין השכיח לא ישתנה.”
  • רלוונטי לכל סולמות המדידה, כולל סולם נומינלי: “גם זכר נקבה, [אם] יש לי 50 זכרים, 60 נקבות, נקבה זה הערך השכיח.”
  • יכולים להיות כמה ערכים שכיחים (אם יש כמה ערכים שמופיעים אותו מספר פעמים)

המרצה ציין שהוא לא חושב שהסטודנטים ישתמשו בשכיח הרבה בפרקטיקה, אבל “זה כזה סטנדרט” בסטטיסטיקה שחשוב להכיר אותו.

היחסים בין מדדי המיקום בהתפלגויות שונות

המרצה הסביר את היחסים בין ממוצע, חציון ושכיח בהתפלגויות שונות:

  • בהתפלגות סימטרית: הממוצע, החציון והשכיח שווים זה לזה - “הכל נמצא בדיוק באמצע”

  • בהתפלגות אסימטרית חיובית (ימנית): ממוצע > חציון > שכיח המרצה הסביר שהזנב הארוך לכיוון הערכים הגבוהים “גורר” את הממוצע לכיוון זה. החציון, למרות שהוא רובסטי יותר, מושפע גם הוא במידת מה מהזנב הארוך.

  • בהתפלגות אסימטרית שלילית (שמאלית): שכיח > חציון > ממוצע במקרה זה הכל מתהפך - הזנב השמאלי גורר את הממוצע לכיוון הערכים הנמוכים.

  • בהתפלגות אחידה: המרצה הסביר שהממוצע והחציון שווים, והשכיח אינו מוגדר באופן חד-משמעי כי “כל ערך בהתפלגות הוא השכיח. כי כל ערך בהתפלגות מגיע הכי הרבה פעמים, כי כל ערך בהתפלגות מגיע אותו מספר פעמים.”

המרצה הדגיש: “אתם לא צריכים לזכור מה קורה לחציון, ומה קורה לשכיח, ומה קורה לזה, לזה, לזה. אם אתם יכולים לשחק קצת עם מספרים, זה מספיק.” הוא המליץ לנתח את ההתפלגות וביול: “איפה השכיח? זה הכי קל. איפה החציון? בוא נראה בערך לפי השטח. איפה הגיוני שיהיה החציון?… וממוצע, תזכרו שהוא עוד יותר רחוק.”

מדדי פיזור

המרצה הסביר שמדדי פיזור משלימים את מדדי המיקום המרכזי. הוא המחיש זאת בדוגמה: “הלכתי למנהל המחלקה שלי, אמרתי לו… לחץ דם חציוני במחלקה, סיסטולי הוא 122, לחץ דם דיאסטולי חציוני הוא כאן הוא 70-60… הוא אומר לי טוב, אבל אני רוצה לדעת עוד… ואני רוצה לדעת איך ההתפלגות מפוזרת, ואני אומר, טוב, הנה, קח את כל הדאטה, [והוא עונה:] לא, לא, לא, תסכם לי את זה.”

מדדי פיזור, כמו שהסביר המרצה, “מסבירים לכם כמה שונות יש בערכים, כמה התפלגות רחבה.” הוא המחיש זאת באמצעות שתי התפלגויות עם אותו ממוצע ואותו חציון, אבל פיזור שונה מהותית - אחת עם זנבות כבדים ואחת יותר ממורכזת.

טווח (Range)

המרצה הסביר שהטווח הוא “ההפרש בין הערך הגדול ביותר לערך הקטן ביותר” במדגם:

$\text{טווח} = \max(X) - \min(X)$

הוא הדגיש שהטווח הוא המדד הפשוט ביותר לפיזור.

מאפיינים של הטווח:

  • פשוט מאוד לחישוב
  • רגיש מאוד לערכים קיצוניים - “המקסימום והמינימום זה הדברים שנמצאים הכי הכי בקצוות. אז הטווח הוא הכי הכי רגיש לחריגים.”
  • המרצה ציין שהטווח “יכול לתת לכם תחושה על מה הגיוני לצפות. בסדר, אם הטווח של לחץ הדם במחלקה שלכם, הסיסטולי הוא נגיד ממאה עד מאה שמונים, אז אתם יודעים, אוקיי, אני לא מצפה לראות לחץ דם חמישים מילימטר כספית.”

שונות (Variance)

המרצה הגדיר את השונות כ”ערך שאמור לייצג את השונות של הדאטה, כמה הוא משתנה.” הוא הסביר את חישוב השונות בשני שלבים:

  1. חישוב הממוצע ($\bar{X}$)
  2. חישוב ממוצע הריבועים של ההפרשים מהממוצע

הנוסחה של השונות:

$s^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2$

כאשר:

  • $s^2$ היא השונות
  • $\bar{X}$ הוא הממוצע
  • $n$ הוא מספר התצפיות
  • $X_i$ הוא הערך של התצפית ה-$i$

המרצה הדגיש את ההפרש הריבועי $(X_i - \bar{X})^2$ - כלומר, מחשבים את ההפרש של כל תצפית מהממוצע, מעלים בריבוע, סוכמים את כל ההפרשים הריבועיים, ומחלקים במספר התצפיות.

כשנשאל למה משתמשים בריבוע ולא בערך מוחלט של ההפרשים, המרצה הציע שתי תשובות:

  1. “התשובה הצינית היא שמתמטיקה עובדת ככה, הסטטיסטיקה והמתמטיקה עובדות ככה יותר בקלות.”
  2. “התשובה הפחות צינית זה שהשונות מגיעה מההתפלגות הנורמלית, ובאמצעות ההתפלגות הנורמלית אנחנו יכולים לעשות ניסים ונפלאות שלא היינו יכולים לעשות עם דברים אחרים.”

הסיבה המעשית היא שהעלאה בריבוע מונעת קיזוז של סטיות חיוביות ושליליות - אם היינו סוכמים את ההפרשים עצמם (ללא ריבוע), התוצאה תמיד הייתה 0 (כי סכום הסטיות מהממוצע הוא תמיד 0).

דוגמה מפורטת לחישוב שונות:

המרצה הדגים חישוב שונות עם 5 ציונים של תלמידים: 89, 78, 84, 91, 83

  1. חישוב הממוצע: $\bar{X} = \frac{89 + 78 + 84 + 91 + 83}{5} = 85$
  2. חישוב ההפרשים מהממוצע:
    • $89 - 85 = 4$
    • $78 - 85 = -7$
    • $84 - 85 = -1$
    • $91 - 85 = 6$
    • $83 - 85 = -2$
  3. העלאת ההפרשים בריבוע:
    • $4^2 = 16$
    • $(-7)^2 = 49$
    • $(-1)^2 = 1$
    • $6^2 = 36$
    • $(-2)^2 = 4$
  4. סכימת ההפרשים הריבועיים: $16 + 49 + 1 + 36 + 4 = 106$
  5. חלוקה במספר התצפיות: $\frac{106}{5} = 21.2$

לכן, השונות היא 21.2.

המרצה ציין שלשונות אין אינטואיציה טובה מבחינת המשמעות - יחידות המידה של השונות הן בריבוע של יחידות המידה המקוריות. למשל, אם מודדים גובה בסנטימטרים, יחידות השונות יהיו סנטימטרים בריבוע. למרות זאת, אפשר להבין ששונות גדולה מתאימה לפיזור גדול בנתונים.

המרצה הזכיר שבהמשך הקורס תוצג סטיית התקן, שהיא שורש השונות, והיא תהיה בעלת יחידות זהות למשתנה המקורי, ולכן יותר אינטואיטיבית להבנה.

דור פסקל