חזרה על מדדי מיקום מרכזי
ממוצע (Mean)
הממוצע הוא סכום כל הערכים חלקי מספר הערכים.
חציון (Median)
החציון הוא ערך שחצי מהדגימות קטנות ממנו וחצי גדולות ממנו. בחציון לא בהכרח מתייחסים לערכים הספציפיים, אלא רק מעוניינים בערך שחצי מהדגימות יהיו גדולות ממנו, וחצי מהדגימות יהיו קטנות ממנו.
אופן חישוב החציון:
- עבור מספר אי־זוגי של דגימות: מסדרים את הערכים ובוחרים את הערך האמצעי. למשל, עבור הערכים {1, 4, 7, 8, 10}, החציון הוא 7.
- עבור מספר זוגי של דגימות: מסדרים את הערכים ומחשבים את הממוצע של שני הערכים האמצעיים. למשל, עבור {1, 4, 7, 8}, החציון הוא (4+7)/2 = 5.5.
מדדי פיזור
טווח (Range)
הטווח הוא ההפרש בין הערך הגדול ביותר לערך הקטן ביותר במדגם:
\[\text{range} = \max(X) - \min(X)\]הטווח רגיש לערכים קיצוניים כי הוא מושפע אך ורק מהערכים הקיצוניים (המקסימום והמינימום)
שונות (Variance)
השונות היא ממוצע של ריבועי הפרשים מהממוצע.
\[s^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2\]כאשר:
- $s^2$ היא השונות
- $\bar{X}$ הוא הממוצע
- $n$ הוא מספר התצפיות
- $X_i$ הוא הערך של התצפית ה־$i$
בשביל חישוב השונות לוקחים את הערך הראשון, מחשבים את ההפרש שלו מהממוצע, מעלים בריבוע. לוקחים את הערך השני, מחשבים את ההפרש שלו מהממוצע, מעלים בריבוע וחוזר חלילה - עד הערך ה־n. סוכם את כל הערכים האלה ומחלק ב־n.
בחישוב שונות מדגמית לצורך הסקה על האוכלוסייה, מקובל להשתמש בנוסחה עם $n-1$ במכנה במקום $n$:
\[s^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2\]עם זאת, אם זה משנה, כנראה שאין מספיק דאטה. כלומר, כאשר $n$ גדול מספיק, ההבדל בין שתי הנוסחאות זניח.
הדגמה עם סטודנטים כדי להראות מדוע סכום ההפרשים מהממוצע הוא תמיד אפס, ולכן יש צורך בהעלאה בריבוע.
בהקשר של השאלה מדוע משתמשים בריבוע ההפרשים ולא בערך מוחלט:
- אם היינו משתמשים בסכום הפרשים ללא ריבוע, התוצאה הייתה תמיד אפס (כי סכום ההפרשים מהממוצע הוא תמיד אפס)
- הרבה מאוד מתמטיקה טובה וסטטיסטיקה טובה קורית כשאנחנו מעלים בריבוע
- השונות קשורה להתפלגות הנורמלית, ההתפלגות הכי נפוצה בטבע
יש בעיה אינטואיטיבית בשונות - יחידות המידה של השונות הן בריבוע של יחידות המידה המקוריות. למשל, אם עוסקים בגבהים ומעלים את 4 סנטימטר בריבוע מקבלים 16 סנטימטר בריבוע - שזה שטח. אבל במקור מדברים על גבהים. משהו כאן לא מסתדר: אז זו בעיה מאוד מאוד משמעותית בשונות, מבחינת הפירוש האינטואיטיבי שלה.
כאשר כל הערכים זהים השונות היא אפס: אם כל הערכים הם 5, אז 5 פחות 5 זה 0, 5 פחות 5 זה 0, 5 פחות 5 זה 0, והריבוע של 0 הוא 0.
סטיית תקן (Standard Deviation)
סטיית התקן מוגדרת כשורש של השונות:
\[s = \sqrt{s^2} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2}\]היתרון העיקרי של סטיית התקן על פני השונות הוא שהיא מבוטאת באותן יחידות כמו המשתנה המקורי. סטיית התקן היא הסרגל שלנו. היא מספרת לנו מה הגיוני ומה לא.
אם ממוצע הגבהים בכיתה הוא 177 ס”מ וסטיית התקן היא 7 ס”מ, אפשר באופן סביר לצפות שרוב הסטודנטים יהיו בטווח של 177±7 ס”מ, כלומר בין 170 ל־184 ס”מ.
סטיית תקן אחת מכסה כ־66% מהנתונים, ושתי סטיות תקן מכסות כ־95% מהנתונים בהתפלגות נורמלית.
אחוזונים (Percentiles)
אחוזון (percentile) $p$ הוא ערך ש־$p$ אחוז מהנתונים קטנים ממנו ו־$(100-p)$ אחוז מהנתונים גדולים ממנו. ליתר דיוק, אחוזון $p$ הוא ערך שלפחות $p$ אחוז מהנתונים קטנים או שווים לו, ולפחות $(100-p)$ אחוז מהנתונים גדולים או שווים לו.
מספר דוגמאות:
- אחוזון 25 (רבעון ראשון/Q1): ערך ש־25% מהנתונים קטנים ממנו ו־75% גדולים ממנו
- אחוזון 50 (חציון/Q2): ערך ש־50% מהנתונים קטנים ממנו ו־50% גדולים ממנו
- אחוזון 75 (רבעון שלישי/Q3): ערך ש־75% מהנתונים קטנים ממנו ו־25% גדולים ממנו
- אחוזון 90: ערך ש־90% מהנתונים קטנים ממנו ו־10% גדולים ממנו (מכונה גם “העשירון העליון”)
- אחוזון 10: ערך ש־10% מהנתונים קטנים ממנו ו־90% גדולים ממנו (מכונה גם “העשירון התחתון”)
לחישוב אחוזון $p$ מתוך מדגם של $n$ ערכים:
- לסדר את כל הערכים בסדר עולה
- לחשב את המיקום $k = p \cdot n / 100$
- אם $k$ הוא מספר שלם, לקחת את הערך במיקום $k$
- אם $k$ אינו מספר שלם, לעגל למספר השלם הקרוב
ניתן לחשב אחוזונים רק לסולמות סדר, רווח ומנה (לא לסולמות נומינליים), כי נדרשת היכולת להשוות ערכים: למשל, אין כזה דבר ״אחוזון של קופת חולים כללית, אחוזון של קופת חולים מכבי ומאוחדת״.
תחום בין-רבעוני (Interquartile Range - IQR)
התחום הבין-רבעוני הוא ההפרש בין הרבעון העליון (Q3) לרבעון התחתון (Q1):
\[IQR = Q3 - Q1\]התחום הבין-רבעוני הוא ההפרש בין המספר שהוא הרבעון העליון לרבעון התחתון.
בתשובה לשאלה מה המשמעות של ערך ה־IQR: זה נותן טווח שבו ניתן לצפות שתצפיות השתנה - זה נותן טווח של 50 אחוז המרכזיים, זה אומר כמה שונות, כמה השתנות יש במידע, בלי להבין מה הממוצע או החציון.
תחום זה מייצג את הטווח שבו נמצאים 50% מהנתונים המרכזיים. התחום הבין-רבעוני כשלעצמו אינו אומר הרבה ללא הקשר: למשל, 52 בפני עצמו לא אומר כמעט כלום. נשתמש בתחום הבין-רבעוני בהמשך בשביל להציג דאטה. אבל בפני עצמו הוא פחות מסייע.
טרנספורמציות וההשפעה שלהן על מדדים סטטיסטיים
הזזה (הוספת או חיסור קבוע)
כאשר מוסיפים קבוע $c$ לכל ערך:
- הממוצע גדל ב־$c$
- החציון גדל ב־$c$
- השכיח גדל ב־$c$
- מדדי פיזור (שונות, סטיית תקן, IQR) לא משתנים
- האחוזונים גדלים ב־$c$
כפל (הכפלה בקבוע)
כאשר מכפילים את כל הערכים בקבוע $c$ (למשל, מעבר ממטר לסנטימטר על ידי כפל ב־100):
- הממוצע גדל פי $c$
- החציון גדל פי $c$
- השכיח גדל פי $c$
- סטיית התקן גדלה פי \(\|c\|\)
- השונות גדלה פי $c^2$
- התחום הבין-רבעוני גדל פי \(\|c\|\)
- האחוזונים גדלים פי $c$ (אם $c > 0$)
טרנספורמציה לינארית
טרנספורמציה לינארית היא שילוב של הזזה וכפל, מהצורה $Y = a \cdot X + b$. טרנספורמציה לינארית היא הכפלה בקבוע, עוברים למשל ממטר לסנטימטר, והזזה בקבוע.
זיהוי ערכים חריגים (Outliers)
שיטת הגדרות של טוקי (Tukey’s fences) לזיהוי ערכים חריגים:
- מחשבים את הרבעון הראשון (Q1) והרבעון השלישי (Q3)
- מחשבים את התחום הבין-רבעוני: $IQR = Q3 - Q1$
- ערך נחשב חריג אם הוא:
- גדול מ־$Q3 + 1.5 \cdot IQR$ (חריג עליון)
- קטן מ־$Q1 - 1.5 \cdot IQR$ (חריג תחתון)
המקדם 1.5 הוא שרירותי: תוקי כתב במקור שאם אתם רוצים ערכים חריגים אף יותר, לוקחים 3. צריך להשתמש בשיקול דעת - אין שיטה נכונה, זה הכל קצת אומנות, וצריך להבין מה קורה.
תרשים קופסה (Box Plot)
דיאגרמת התיבה נראית הרבה במאמרים, והיא דבר חשוב. בדיאגרמת התיבה מיישמים את שיטת הגדרות של טוקי.
תרשים קופסה (Box Plot או Box-and-Whiskers Plot) הוא דרך גרפית להציג את הנתונים, והוא מבוסס על שיטת הגדרות של טוקי:
- הקופסה מייצגת את התחום הבין-רבעוני (IQR), כאשר הקצה התחתון הוא Q1 והקצה העליון הוא Q3
- קו אמצעי בתוך הקופסה מייצג את החציון
- “שפמים” (whiskers) נמשכים מהקופסה עד לערכים הקיצוניים שאינם חריגים
- ערכים חריגים מסומנים כנקודות בודדות מחוץ לשפמים
תרשימי קופסה נפוצים מאוד בספרות הרפואית והמדעית, אולי אפילו סדנטדרט.
דור פסקל