עניינים אדמיניסטרטיביים

בתחילת השיעור דובר על העלאת מצגות של ההרצאות והתרגילים למודל, והמרצה התחייב לנסות להעלות אותן מראש ככל האפשר. בנוסף, הוזכר כי שיעור יום חמישי הבא יתחיל בשעה 8 בבוקר.

חזרה על מדדי מיקום מרכזי

ממוצע (Mean)

הממוצע הוא סכום כל הערכים מחולק במספר הערכים. כפי שהוסבר בהרצאה: “הממוצע, הסכום של כל הערכים, חלקי מספר הערכים”.

חציון (Median)

החציון הוא ערך שחצי מהדגימות קטנות ממנו וחצי גדולות ממנו. המרצה הדגיש: “בחציון אני לא בהכרח מתייחס לערכים הספציפיים, אלא רק אני רוצה ערך שחצי מהדגימות יהיו גדולות ממנו, וחצי מהדגימות יהיו קטנות ממנו.”

אופן חישוב החציון:

  • עבור מספר אי-זוגי של דגימות: מסדרים את הערכים ובוחרים את הערך האמצעי. למשל, עבור הערכים {1, 4, 7, 8, 10}, החציון הוא 7.
  • עבור מספר זוגי של דגימות: מסדרים את הערכים ומחשבים את הממוצע של שני הערכים האמצעיים. למשל, עבור {1, 4, 7, 8}, החציון הוא (4+7)/2 = 5.5.

מדדי פיזור

טווח (Range)

הטווח הוא ההפרש בין הערך הגדול ביותר לערך הקטן ביותר במדגם:

$\text{טווח} = \max(X) - \min(X)$

המרצה הדגים עם דוגמה: “כאן הטווח יהיה הערך הגדול ביותר 1.87, פחות הערך הקטן ביותר 1.65.”

הטווח מאוד רגיש לערכים קיצוניים כי הוא מושפע אך ורק מהערכים הקיצוניים (המקסימום והמינימום). המרצה הדגיש: “הטווח מאוד מאוד רגיש לחריגים, בעצם הוא מושפע אך ורק מחריגים. החריגים זה המקסימום והמינימום, פר הגדרה.”

שונות (Variance)

המרצה הגדיר את השונות: “השונות היא ממוצע של ריבועי הפרשים מהממוצע”.

$s^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2$

כאשר:

  • $s^2$ היא השונות
  • $\bar{X}$ הוא הממוצע
  • $n$ הוא מספר התצפיות
  • $X_i$ הוא הערך של התצפית ה-$i$

המרצה הסביר את תהליך החישוב: “בשביל חישוב השונות אני לוקח את הערך הראשון, מחשב את ההפרש שלו מהממוצע, מעלה בריבוע. לוקח את הערך השני, מחשב את ההפרש שלו מהממוצע, מעלה בריבוע… עד הערך ה-n. סוכם את כל הערכים האלה ומחלק ב-n.”

המרצה ציין שבחישוב שונות מדגמית לצורך הסקה על האוכלוסייה, מקובל להשתמש בנוסחה עם $n-1$ במכנה במקום $n$:

$s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2$

עם זאת, הוא הדגיש: “אם זה משנה, אז אין לכם מספיק דאטה.” כלומר, כאשר $n$ גדול מספיק, ההבדל בין שתי הנוסחאות זניח.

המרצה ערך הדגמה עם סטודנטים כדי להראות מדוע סכום ההפרשים מהממוצע הוא תמיד אפס, ולכן יש צורך בהעלאה בריבוע.

בהקשר של השאלה מדוע משתמשים בריבוע ההפרשים ולא בערך מוחלט, המרצה הסביר:

  1. אם היינו משתמשים בסכום הפרשים ללא ריבוע, התוצאה הייתה תמיד אפס (כי סכום ההפרשים מהממוצע הוא תמיד אפס)
  2. “הרבה מאוד מתמטיקה טובה וסטטיסטיקה טובה קורית כשאנחנו מעלים בריבוע”
  3. השונות קשורה להתפלגות הנורמלית, “ההתפלגות הכי נפוצה בטבע”

המרצה הדגיש שיש בעיה אינטואיטיבית בשונות - יחידות המידה של השונות הן בריבוע של יחידות המידה המקוריות: “אני מעלה את 4 סנטימטר בריבוע, אני מקבל 16 סנטימטר בריבוע. מה זה? סנטימטר בריבוע זה שטח, אנחנו מדברים על גבהים. משהו כאן לא מסתדר, בסדר? אז זו בעיה מאוד מאוד משמעותית בשונות, מבחינת הפירוש האינטואיטיבי שלה.”

המרצה הראה גם שהשונות היא אפס כאשר כל הערכים זהים: “אם כל הערכים הם 5, אז 5 פחות 5 זה 0, 5 פחות 5 זה 0, 5 פחות 5 זה 0, והריבוע של 0 הוא 0”.

סטיית תקן (Standard Deviation)

המרצה הגדיר את סטיית התקן כשורש של השונות:

$s = \sqrt{s^2} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2}$

היתרון העיקרי של סטיית התקן על פני השונות הוא שהיא מבוטאת באותן יחידות כמו המשתנה המקורי. המרצה הדגיש: “סטיית התקן היא הסרגל שלנו. היא מספרת לנו מה הגיוני ומה לא.”

המרצה הסביר שאם ממוצע הגבהים בכיתה הוא 177 ס”מ וסטיית התקן היא 7 ס”מ, אפשר באופן סביר לצפות שרוב הסטודנטים יהיו בטווח של 177±7 ס”מ, כלומר בין 170 ל-184 ס”מ.

“אם סטיית התקן היא שבע סנטימטר, זה הרבה, זה זה לגמרי אאוט, זה חייבת שאומע לגמרי. אני לא אצפה שהבדלי המשקלים כאן יהיו במיליגרמים. בסדר? יש שונות יותר גדולה ממיליגרמים בינינו. אוקיי? סטיית התקן היא השנתות, היא קנה המידה, היא הסרגל.”

המרצה הוסיף שסטיית תקן אחת מכסה כ-66% מהנתונים, ושתי סטיות תקן מכסות כ-95% מהנתונים בהתפלגות נורמלית.

אחוזונים (Percentiles)

אחוזון (percentile) $p$ הוא ערך ש-$p$ אחוז מהנתונים קטנים ממנו ו-$(100-p)$ אחוז מהנתונים גדולים ממנו. ליתר דיוק, המרצה הגדיר: “אחוזון $p$ הוא ערך שלפחות $p$ אחוז מהנתונים קטנים או שווים לו, ולפחות $(100-p)$ אחוז מהנתונים גדולים או שווים לו.”

המרצה נתן מספר דוגמאות:

  • אחוזון 25 (רבעון ראשון/Q1): ערך ש-25% מהנתונים קטנים ממנו ו-75% גדולים ממנו
  • אחוזון 50 (חציון/Q2): ערך ש-50% מהנתונים קטנים ממנו ו-50% גדולים ממנו
  • אחוזון 75 (רבעון שלישי/Q3): ערך ש-75% מהנתונים קטנים ממנו ו-25% גדולים ממנו
  • אחוזון 90: ערך ש-90% מהנתונים קטנים ממנו ו-10% גדולים ממנו (מכונה גם “העשירון העליון”)
  • אחוזון 10: ערך ש-10% מהנתונים קטנים ממנו ו-90% גדולים ממנו (מכונה גם “העשירון התחתון”)

“אם אתם שומעים חדשות, ורוצים כתיפונים שאין לי אותך מה, אתם שומעים על העשירון העליון שמכניסים ככה וככה, והעשירון התחתון בדיוק זה. העשירון התחתון זה הנקודה שעשרה אחוז האוכלוסייה מרוויחים פחות ממנו, ותשעים אחוז האוכלוסייה מרוויחים יותר ממנו. העשירון העליון זה חלק האוכלוסייה שתשעים אחוז מרוויחים פחות ממנו, והעשרה אחוז מרוויחים יותר ממנו.”

לחישוב אחוזון $p$ מתוך מדגם של $n$ ערכים:

  1. לסדר את כל הערכים בסדר עולה
  2. לחשב את המיקום $k = p \cdot n / 100$
  3. אם $k$ הוא מספר שלם, לקחת את הערך במיקום $k$
  4. אם $k$ אינו מספר שלם, לעגל למספר השלם הקרוב

המרצה הדגים: “נחשב את האחוזון ה-25, 25 אחוז מתוך 20 זה חמש, אז אני לוקח את התצפית החמישית… אם אני רוצה לחשב את האחוזון העשירי, 10 אחוז מתוך 20 שווה לשניים, אז אני לוקח את התצפית השנייה.”

המרצה ציין שאחוזונים ניתן לחשב רק לסולמות סדר, רווח ומנה (לא לסולמות נומינליים), כי נדרשת היכולת להשוות ערכים: “מה זה אחוזון של קופת חולים כללית, אחוזון של קופת חולים מכבי ומאוחדת. אין כזה דבר.”

תחום בין-רבעוני (Interquartile Range - IQR)

התחום הבין-רבעוני הוא ההפרש בין הרבעון העליון (Q3) לרבעון התחתון (Q1):

$IQR = Q3 - Q1$

המרצה הגדיר: “התחום הבין-רבעוני הוא ההפרש בין המספר שהוא הרבעון העליון לרבעון התחתון.”

בתשובה לשאלה מה המשמעות של ערך ה-IQR, המרצה הסביר: “זה אומר לך טווח שבו היית מצפה שתצפיות השתנה… זה נותן לך טווח של 50 אחוז המרכזיים, זה אומר כמה שונות, כמה השתנות יש לי במידע, בלי להבין מה הממוצע או החציון.”

תחום זה מייצג את הטווח שבו נמצאים 50% מהנתונים המרכזיים. המרצה הדגיש שהתחום הבין-רבעוני כשלעצמו אינו אומר הרבה ללא הקשר: “52 בפני עצמו לא אומר לך כמעט כלום. אנחנו נשתמש בתחום הבין-רבעוני בהמשך בשביל להציג דאטה. אבל בפני עצמו, אם תגידי למנהל מחלקה שלך, תחום הבין-רבעוני הוא 56, זה לא אומר שום דבר.”

טרנספורמציות וההשפעה שלהן על מדדים סטטיסטיים

המרצה הדגים באמצעות סטודנטים כיצד טרנספורמציות שונות משפיעות על מדדי המיקום והפיזור:

הזזה (הוספת או חיסור קבוע)

המרצה הדגים עם סטודנטים: “יופי, אתם זזים שני צעדים ימינה.” כאשר מוסיפים קבוע $c$ לכל ערך:

  • הממוצע גדל ב-$c$
  • החציון גדל ב-$c$
  • השכיח גדל ב-$c$
  • מדדי פיזור (שונות, סטיית תקן, IQR) לא משתנים
  • האחוזונים גדלים ב-$c$

כפל (הכפלה בקבוע)

המרצה הדגים: “אני הופך את הסקאלה ל-סנטימטר. זה אומר שנגיד, אם פה האפס, כולם הופכים למרחק גדול פי מאה מהאפס.” כאשר מכפילים את כל הערכים בקבוע $c$:

  • הממוצע גדל פי $c$
  • החציון גדל פי $c$
  • השכיח גדל פי $c$
  • סטיית התקן גדלה פי $ c $ (“מה קורה לסטיית התקן?… פי? - במאה”)
  • השונות גדלה פי $c^2$ (“מה קורה לשונות? - מאה בריבוע”)
  • התחום הבין-רבעוני גדל פי $ c $
  • האחוזונים גדלים פי $c$ (אם $c > 0$)

טרנספורמציה לינארית

טרנספורמציה לינארית היא שילוב של הזזה וכפל, מהצורה $Y = a \cdot X + b$. המרצה ציין: “טרנספורמציה לינארית היא הכפלה בקבוע, עוברים למשל ממטר לסנטימטר, והזזה בקבוע.”

זיהוי ערכים חריגים (Outliers)

המרצה הציג את שיטת הגדרות של טוקי (Tukey’s fences) לזיהוי ערכים חריגים:

“שיטה שיחסית מוכרת בספרות, אז כדאי לנו להכיר אותה, לזיהוי ערכים חריגים. השיטה נקראת הגדרות של טוקי… ותוקי אומר ככה, אני רוצה לזהות ערכים חריגים, אני אמציא שיטה לזיהוי ערכים חריגים.”

  1. מחשבים את הרבעון הראשון (Q1) והרבעון השלישי (Q3)
  2. מחשבים את התחום הבין-רבעוני: $IQR = Q3 - Q1$
  3. ערך נחשב חריג אם הוא:
    • גדול מ-$Q3 + 1.5 \cdot IQR$ (חריג עליון)
    • קטן מ-$Q1 - 1.5 \cdot IQR$ (חריג תחתון)

המרצה ציין שהמקדם 1.5 הוא שרירותי: “למה אחד וחצי? זה שרירותי… תוקי בספר שלו כתב שאם אתם רוצים ערכים חריגים ממש ממש, אתם תיקחו 3.”

המרצה הדגיש: “אני מציע לכם בחום להשתמש בשיקול דעת… ואין שיטה נכונה, בסדר, זה הכל כזה קצת אומנות, ולהבין מה קורה.”

תרשים קופסה (Box Plot)

המרצה הסביר: “דיאגרמת התיבה, אתם תראו את זה במאמרים, זה חשוב. בדיאגרמת התיבה אנחנו מיישמים את שיטת הגדרות של טוקי.”

תרשים קופסה (Box Plot או Box-and-Whiskers Plot) הוא דרך גרפית להציג את הנתונים, והוא מבוסס על שיטת הגדרות של טוקי:

  • הקופסה מייצגת את התחום הבין-רבעוני (IQR), כאשר הקצה התחתון הוא Q1 והקצה העליון הוא Q3
  • קו אמצעי בתוך הקופסה מייצג את החציון
  • “שפמים” (whiskers) נמשכים מהקופסה עד לערכים הקיצוניים שאינם חריגים
  • ערכים חריגים מסומנים כנקודות בודדות מחוץ לשפמים

המרצה ציין שתרשימי קופסה נפוצים מאוד בספרות הרפואית והמדעית: “זה מאוד מאוד מאוד נפוץ בספרות הרפואית. הייתי אומר שזה אפילו כמעט סטנדרט.”

תרגיל בית

בסוף ההרצאה, המרצה הזכיר שתרגיל הבית הראשון יהיה בפייטון, והסביר את הרציונל לשימוש בכלים מחשוביים מודרניים בלימוד סטטיסטיקה:

“הרציונל שלי, באמת זה לטובתכם. בסדר, אם אני אלמד אתכם סטטיסטיקה כמו שהיא למדו אותי להסתכל בטבלאות, אני לא יודע אם מישהו למד ככה פעם סטטיסטיקה, אנחנו לא בשנות השבעים. בסדר, אנחנו בעידן המחשבים של GPT. אין סיבה שתלמדו כלים שיבזבזו לכם את הזמן.”

הוא הדגיש: “אני מבטיח לכם שאני אעשה לכם את זה הכי קליל שאפשר. אני באמת אשתדל להקל עליכם בתוכנית. לא צריך לפחד.”

דור פסקל