סקירה כללית של מדדי פיזור
טווח (Range)
טווח הוא מדד פיזור בסיסי המחושב כהפרש בין הערך המקסימלי לערך המינימלי במדגם:
\[\text{range} = \text{max} - \text{min}\]שונות (Variance)
שונות היא מדד לפיזור של התוצאות סביב הממוצע. למעשה, היא מייצגת סוג של מרחק ממוצע של התצפיות מהממוצע עצמו. כדי להבטיח שהמדד יהיה חיובי, מעלים את ההפרשים בריבוע (ולא משתמשים בערך מוחלט).
בשונות מדגמית, הנוסחה היא:
\[s^2 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}\]הערה חשובה: אנו מחלקים ב-$n-1$ (מספר דרגות החופש) ולא ב-$n$ (גודל המדגם) כדי לקבל אומדן הטיה של שונות האוכלוסייה.
סטיית תקן (Standard Deviation)
הבעיה העיקרית עם השונות היא שהיחידות שלה הן ריבוע יחידות המדידה המקוריות. לפיכך, מקובל להשתמש בסטיית התקן, שהיא השורש הריבועי של השונות:
\[s = \sqrt{s^2} = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}}\]לסטיית התקן יש יתרון משמעותי: היא מבוטאת ביחידות המדידה המקוריות, מה שמקל על הפירוש והדיווח של התוצאות. כאשר מדווחים על ממוצע בליווי סטיית תקן, נהוג לכתוב:
\[\bar{x} \pm s\]לדוגמה, אם מדדנו אורך של שולחנות והממוצע הוא מטר עם סטיית תקן של 3 ס”מ, נרשום:
אורך השולחן = $1 \text{ m} \pm 3 \text{ sm}$
אחוזונים ורבעונים כמדדי פיזור
אחוזונים (Percentiles) הם מדד נוסף לפיזור הנתונים. אחוזון $p$ הוא הערך שמתחתיו נמצאים $p$ אחוזים מהתצפיות.
רבעונים (Quartiles)
רבעונים הם מקרה מיוחד של אחוזונים:
- רבעון ראשון ($Q_1$): אחוזון ה-25 (25% מהתצפיות נמצאות מתחתיו)
- רבעון שני ($Q_2$): אחוזון ה-50 (החציון)
- רבעון שלישי ($Q_3$): אחוזון ה-75 (75% מהתצפיות נמצאות מתחתיו)
תחום בין-רבעוני (IQR - Interquartile Range)
התחום הבין-רבעוני הוא ההפרש בין הרבעון השלישי לרבעון הראשון:
\[IQR = Q_3 - Q_1\]זהו מדד פיזור עמיד (robust) שאינו מושפע מערכים קיצוניים.
דוגמה לחישוב תחום בין-רבעוני
נניח שיש לנו 20 תצפיות מסודרות בסדר עולה:
הרבעון הראשון ($Q_1$) יהיה התצפית החמישית בגודלה, אשר שווה ל-79. הרבעון השלישי ($Q_3$) יהיה התצפית ה-15 בגודלה, אשר שווה ל-131.
התחום הבין-רבעוני יהיה:
\[IQR = 131 - 79 = 52\]טרנספורמציות והשפעתן על מדדי פיזור
הוספה או החסרה של קבוע
כאשר מוסיפים או מחסירים קבוע $c$ מכל התצפיות:
מדד סטטיסטי | השפעת הוספה/החסרה של קבוע $c$ |
---|---|
ממוצע | משתנה ב-$c$ |
ממוצע קטום | משתנה ב-$c$ |
חציון | משתנה ב-$c$ |
שכיח | משתנה ב-$c$ |
טווח | לא משתנה |
שונות | לא משתנה |
סטיית תקן | לא משתנה |
תחום בין-רבעוני | לא משתנה |
לדוגמה, אם מדדנו גבהים של אנשים עם נעליים שמוסיפות 2 ס”מ, והחסרנו 2 ס”מ מכל מדידה:
- הממוצע יקטן ב-2 ס”מ
- החציון יקטן ב-2 ס”מ
- הטווח, השונות, סטיית התקן והתחום הבין-רבעוני יישארו ללא שינוי
הכפלה או חלוקה בקבוע
כאשר מכפילים או מחלקים את כל התצפיות בקבוע $c$:
מדד סטטיסטי | השפעת הכפלה/חלוקה בקבוע $c$ |
---|---|
ממוצע | מוכפל/מחולק ב-$c$ |
ממוצע קטום | מוכפל/מחולק ב-$c$ |
חציון | מוכפל/מחולק ב-$c$ |
שכיח | מוכפל/מחולק ב-$c$ |
טווח | מוכפל/מחולק ב-$c$ |
שונות | מוכפל/מחולק ב-$c^2$ |
סטיית תקן | מוכפל/מחולק ב-$c$ |
תחום בין-רבעוני | מוכפל/מחולק ב-$c$ |
חשוב לשים לב: השונות מושפעת בריבוע הקבוע מכיוון שהיא מבוססת על ריבועי הפרשים.
תצפיות חריגות (Outliers)
תצפיות חריגות הן ערכים שחורגים באופן משמעותי מיתר הנתונים במדגם. יש חשיבות רבה לזיהוי וטיפול נכון בתצפיות חריגות, במיוחד במדגמים קטנים שבהם תצפית חריגה אחת עלולה להשפיע מאוד על התוצאות.
רגישות מדדים שונים לתצפיות חריגות
מדד סטטיסטי | רגישות לתצפיות חריגות |
---|---|
ממוצע | רגיש מאוד |
ממוצע קטום | פחות רגיש |
חציון | עמיד מאוד |
שכיח | עמיד |
טווח | רגיש מאוד |
שונות | רגיש מאוד |
סטיית תקן | רגיש מאוד |
תחום בין-רבעוני | עמיד מאוד |
שיטות לזיהוי תצפיות חריגות
שיטת התחום הבין-רבעוני (IQR Method)
שיטה מקובלת לזיהוי תצפיות חריגות מבוססת על התחום הבין-רבעוני:
- מחשבים את התחום הבין-רבעוני: $IQR = Q_3 - Q_1$
- מכפילים את ה-IQR ב-1.5
- מגדירים את הגבולות לתצפיות תקינות:
- גבול תחתון: $Q_1 - 1.5 \times IQR$
- גבול עליון: $Q_3 + 1.5 \times IQR$
- כל תצפית מחוץ לגבולות אלו נחשבת לתצפית חריגה
דוגמה מספרית
נניח מדגם של גבהים עם הנתונים הבאים:
- רבעון ראשון ($Q_1$): 1.69 מטר
- רבעון שלישי ($Q_3$): 1.81 מטר
- תחום בין-רבעוני: $IQR = 1.81 - 1.69 = 0.12$ מטר
- $1.5 \times IQR = 1.5 \times 0.12 = 0.18$ מטר
- גבול עליון: $1.81 + 0.18 = 1.99$ מטר
לכן, אדם בגובה 2.06 מטר ייחשב כתצפית חריגה במדגם זה.
שיטת 3-סיגמה
שיטה אחרת מבוססת על מרחק מהממוצע במונחים של סטיות תקן:
- מחשבים את הממוצע וסטיית התקן של המדגם
- כל תצפית שנמצאת במרחק של יותר מ-3 סטיות תקן מהממוצע נחשבת לתצפית חריגה
חשוב לציין שבתחומים שונים עשויים להשתמש בגבולות שונים. בתחום האסטרונומיה, למשל, משתמשים לעתים בסף של 6 סטיות תקן בגלל כמות המדידות הגדולה והרצון להימנע מתוצאות שגויות.
שיקולים בטיפול בתצפיות חריגות
חשוב לנקוט משנה זהירות בהסרת תצפיות חריגות ממדגם:
- יש לבדוק תחילה אם מדובר בטעות מדידה או תיעוד
- יש לבחון אם התצפית החריגה יכולה להיות בעלת ערך מדעי
- יש להיות שקופים לגבי ההחלטות שהתקבלו בנוגע לתצפיות חריגות
- מומלץ לדווח על תוצאות עם וללא התצפיות החריגות
הסרה של תצפיות חריגות ללא הצדקה מתאימה עלולה להוביל להטיה בתוצאות ולמסקנות שגויות.
מקורות של תצפיות חריגות
תצפיות חריגות יכולות להופיע ממגוון סיבות, וחשוב להבין את המקור שלהן כדי להחליט כיצד לטפל בהן:
- שגיאות מדידה - טעויות במכשירי מדידה או בתהליך המדידה
- שגיאות הקלדה - למשל, רישום ערך בסנטימטרים במקום במטרים
- נפילות מתח או תקלות בציוד
- מדגם לא הומוגני - ערכים מאוכלוסייה שונה (כמו מריק ספאסי בדוגמת הגבהים)
- רמאות - למשל, בהקשר של עסקאות כרטיסי אשראי חשודות
הטיפול המקצועי בתצפיות חריגות
כאשר מזהים תצפית חריגה, יש מספר גישות מקצועיות לטיפול בה:
- זיהוי והכרזה - לזהות במפורש את הערך כתצפית חריגה
- תיעוד ושקיפות - לתעד את הסיבה לסיווג הערך כחריג
- החלטה מנומקת - להסביר בכתב מדוע הערך נשמר או מוסר מהניתוח:
- “אנו מכניסים את הערך למדידות כי האוכלוסייה אינה הומוגנית וצפוי שיהיו עוד ערכים כאלה”
- או “אנו מסירים את הערך כי הוא נובע משגיאת מדידה מובהקת”
- חישוב מדדים מחדש - אם מחליטים להסיר תצפיות חריגות, חשוב לחשב מחדש את המדדים המושפעים מהן
חשוב לזכור שהטיפול בתצפיות חריגות הוא תחום שדורש שיקול דעת מקצועי, ולעתים קרובות כדאי להתייעץ עם סטטיסטיקאי.
תרשים קופסה (Box Plot) להצגת התפלגות
תרשים קופסה (או תרשים “קופסה ושפם” - Box-and-Whisker Plot) הוא כלי חזותי מצוין להצגת התפלגות נתונים, שמספק מידע רב על המדגם בצורה תמציתית:
מרכיבי תרשים הקופסה
![תיאור של תרשים קופסה]
- הקו המרכזי - מייצג את החציון (פחות רגיש לתצפיות חריגות)
- הקופסה - מייצגת את התחום הבין-רבעוני (IQR):
- הגבול התחתון הוא הרבעון הראשון (Q₁)
- הגבול העליון הוא הרבעון השלישי (Q₃)
- השפמים (Whiskers) - קווים המתפשטים מהקופסה:
- אורך השפמים מוגבל בדרך כלל ל-1.5×IQR
- הם מסתיימים בערך הקיצוני ביותר שאינו חריג
- נקודות בודדות - מייצגות תצפיות חריגות מעבר לשפמים
פירוש תרשים הקופסה
- מיקום החציון בתוך הקופסה - מעיד על הטיה (skewness):
- חציון קרוב יותר לרבעון העליון - הטיה שלילית (זנב ארוך לשמאל)
- חציון קרוב יותר לרבעון התחתון - הטיה חיובית (זנב ארוך לימין)
- חציון במרכז הקופסה - התפלגות סימטרית
- גודל הקופסה - מעיד על הפיזור של 50% המרכזיים של הנתונים
- אורך השפמים - מעיד על הפיזור של הנתונים שאינם חריגים
- מספר וריכוז הנקודות החריגות - מעיד על כמות ואופי החריגות
דוגמה מספרית
בהמשך לדוגמת הגבהים:
- חציון: 1.81 מטר
- רבעון ראשון (Q₁): 1.69 מטר
- רבעון שלישי (Q₃): 1.81 מטר
- תחום בין-רבעוני (IQR): 0.12 מטר
- גבול עליון לשפם: Q₃ + 1.5×IQR = 1.81 + 0.18 = 1.99 מטר
הערך 2.06 (מריק ספאסי) יופיע כנקודה חריגה מעבר לשפם העליון.
יתרונות תרשים הקופסה
- תמציתיות - מציג מידע רב על ההתפלגות בצורה יעילה
- השוואה - מאפשר להשוות בקלות בין התפלגויות של משתנים שונים
- זיהוי חריגים - מציג בבירור תצפיות חריגות
- רובסטיות - פחות מושפע מערכים קיצוניים (בהשוואה להיסטוגרמה)
- גמישות - ניתן להציג אנכית או אופקית
מגבלות תרשים הקופסה
תרשים הקופסה עלול להסתיר הבדלים משמעותיים בין התפלגויות. לדוגמה, ארבע התפלגויות שונות לגמרי יכולות להיות בעלות אותו חציון ואותם רבעונים, ולכן ייראו זהות בתרשים קופסה רגיל.
פתרון: תרשים קופסה משולב עם הצגת התפלגות
כדי להתגבר על מגבלה זו, ניתן לשלב את תרשים הקופסה עם ויזואליזציה של צורת ההתפלגות:
- תרשים כינור (Violin Plot) - משלב תרשים קופסה עם אומדן צפיפות הסתברות משני צדדי הקופסה
- תרשים קופסה עם היסטוגרמה - מציג היסטוגרמה סביב הקופסה
שילובים אלה מאפשרים לראות בבירור את צורת ההתפלגות יחד עם המדדים הסטטיסטיים הבסיסיים.
יישומים מעשיים
קביעת טווחים תקינים בבדיקות רפואיות
אחד היישומים החשובים של זיהוי תצפיות חריגות הוא בקביעת טווחי הייחוס (reference intervals) בבדיקות מעבדה רפואיות. במאמר שפורסם ב-Journal of Applied Laboratory Medicine בשנת 2018, תוארה שיטת Tukey (התחום הבין-רבעוני) לזיהוי ערכים חריגים בקביעת טווחים תקינים.
לדוגמה, ערכי תפקודי כליות או רמות סוכר בדם מוצגים לעתים קרובות בתרשימי קופסה משולבים עם התפלגות, המאפשרים לרופאים לראות היכן ממוקם המטופל ביחס לאוכלוסייה הכללית.
שקיפות בפרסומים מדעיים
בפרסומים מדעיים, חשוב לתעד במפורש את השיטה ששימשה לזיהוי ולטיפול בתצפיות חריגות. שקיפות זו מאפשרת לקוראים לשפוט את איכות הניתוח הסטטיסטי ולהבין את ההחלטות שהתקבלו במהלך המחקר.
נקודות חשובות לסיכום
- תצפיות חריגות אינן בהכרח שגיאות - הן עשויות לייצג תופעות אמיתיות ומעניינות
- השיטה לזיהוי חריגים צריכה להתאים לנתונים ולמטרת המחקר
- שקיפות בטיפול בחריגים היא קריטית לאמינות המחקר
- שילוב של כלי ויזואליזציה שונים מספק תמונה מלאה יותר של הנתונים
- התייעצות עם סטטיסטיקאי מומחה מומלצת במקרים מורכבים
מקדמי מתאם ויחסים בין משתנים
דרישות ממדד קשר
כאשר אנו רוצים למדוד את הקשר בין שני משתנים, ישנן מספר דרישות בסיסיות ממדד הקשר:
-
ערך אפס במקרה של היעדר קשר - כאשר אין קורלציה בין המשתנים, מדד הקשר צריך להיות שווה לאפס.
-
מדד חיובי עבור קשר חיובי - כאשר קיים קשר חיובי (כששני המשתנים גדלים או קטנים יחד), המדד צריך לקבל ערך חיובי.
-
מדד שלילי עבור קשר שלילי - כאשר קיים קשר שלילי (כשמשתנה אחד גדל והשני קטן), המדד צריך לקבל ערך שלילי.
-
ערך מוחלט גדול יותר כאשר הקשר חזק יותר - ככל שהקשר בין המשתנים חזק יותר, כך הערך המוחלט של המדד צריך להיות גדול יותר.
-
מדד אוניברסלי - אנו מעוניינים במדד שאינו תלוי ביחידות המדידה או בסדר הגודל של המשתנים, כך שיהיה אפשר להשוות קשרים בין משתנים שונים.
שונות משותפת (Covariance)
השונות המשותפת (קווריאנס) היא מדד בסיסי לקשר בין שני משתנים:
\[Cov(X,Y) = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{n-1}\]כאשר:
- $x_i$ ו-$y_i$ הם ערכי המשתנים
- $\bar{x}$ ו-$\bar{y}$ הם ממוצעי המשתנים
- $n$ הוא מספר התצפיות במדגם
משמעות השונות המשותפת
- כאשר מכפילים הפרשים מהממוצע של שני משתנים:
- אם שני הערכים גדולים מהממוצע או שניהם קטנים מהממוצע, תתקבל מכפלה חיובית (קשר חיובי)
- אם ערך אחד גדול מהממוצע והשני קטן מהממוצע, תתקבל מכפלה שלילית (קשר שלילי)
- אם אין קשר בין המשתנים, המכפלות החיוביות והשליליות נוטות להתקזז והשונות המשותפת תהיה קרובה לאפס
הבנה גרפית של שונות משותפת
אם נחלק את מישור הפיזור לארבעה רבעונים על ידי קווים אנכיים ואופקיים העוברים דרך הממוצעים של $X$ ו-$Y$:
- הרבעון הראשון (ימין למעלה) והשלישי (שמאל למטה) - תורמים ערכים חיוביים לשונות המשותפת
- הרבעון השני (שמאל למעלה) והרביעי (ימין למטה) - תורמים ערכים שליליים לשונות המשותפת
אם רוב הנקודות נמצאות ברבעונים הראשון והשלישי, השונות המשותפת תהיה חיובית. אם רוב הנקודות נמצאות ברבעונים השני והרביעי, השונות המשותפת תהיה שלילית.
מגבלות השונות המשותפת
למרות שהשונות המשותפת מספקת מידע על כיוון הקשר (חיובי או שלילי), היא סובלת ממספר מגבלות:
-
רגישות ליחידות מדידה - ערכה של השונות המשותפת תלוי ביחידות המדידה של המשתנים. אם נכפיל משתנה אחד בקבוע, השונות המשותפת גם היא תוכפל באותו קבוע.
-
חוסר נורמליזציה - אין טווח קבוע לערכי השונות המשותפת, מה שמקשה על השוואה בין מקרים שונים.
-
קושי בפירוש - קשה לדעת האם ערך מסוים של שונות משותפת מייצג קשר חזק או חלש.
מקדם המתאם של פירסון (Pearson’s Correlation Coefficient)
כדי להתגבר על המגבלות של השונות המשותפת, פותח מקדם המתאם של פירסון. מקדם זה מנרמל את השונות המשותפת באמצעות חלוקה במכפלה של סטיות התקן של שני המשתנים:
\[\begin{align*} r &= \frac{Cov(X,Y)}{\sigma_X \cdot \sigma_Y} \\ &= \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 \cdot \sum_{i=1}^{n}(y_i - \bar{y})^2}} \end{align*}\]כאשר:
- $r$ הוא מקדם המתאם של פירסון
- $\sigma_X$ ו-$\sigma_Y$ הם סטיות התקן של המשתנים $X$ ו-$Y$
תכונות מקדם המתאם של פירסון
- טווח מוגדר: ערכי מקדם המתאם נעים בין -1 ל-1:
- $r = 1$ - קשר לינארי חיובי מושלם (כל הנקודות נמצאות על קו ישר עולה)
- $r = -1$ - קשר לינארי שלילי מושלם (כל הנקודות נמצאות על קו ישר יורד)
- $r = 0$ - אין קשר לינארי בין המשתנים
-
חסר יחידות: מקדם המתאם אינו תלוי ביחידות המדידה של המשתנים. הוא מנרמל את הקווריאנס על ידי חלוקה בסטיות התקן, כך שהיחידות מצטמצמות.
-
סימטריות: מקדם המתאם של $X$ ו-$Y$ זהה למקדם המתאם של $Y$ ו-$X$.
- אי-רגישות לטרנספורמציה לינארית: אם נוסיף קבוע למשתנה או נכפיל אותו בקבוע חיובי, מקדם המתאם לא ישתנה.
פרשנות של מקדם המתאם
- $|r| \approx 1$ - קשר לינארי חזק
- $|r| \approx 0.7-0.9$ - קשר לינארי בינוני-חזק
- $|r| \approx 0.4-0.6$ - קשר לינארי בינוני
- $|r| \approx 0.1-0.3$ - קשר לינארי חלש
- $|r| \approx 0$ - אין קשר לינארי
חשוב לציין שאין ערך סף אוניברסלי שמעליו הקשר נחשב “חזק”. הפרשנות תלויה בהקשר ובתחום המחקר.
דוגמה מספרית
בדוגמה שהוצגה בהרצאה, חושב מקדם המתאם עבור ארבע נקודות נתונות והתקבל ערך של 0.92, המעיד על קשר לינארי חיובי חזק.
מגבלות מקדם המתאם של פירסון
למרות יתרונותיו הרבים, למקדם המתאם של פירסון יש מספר מגבלות חשובות:
-
מודד רק קשר לינארי: מקדם פירסון אינו מזהה קשרים לא-לינאריים. במקרה של קשר פרבולי, למשל, מקדם המתאם עשוי להיות קרוב לאפס למרות שקיים קשר חזק בין המשתנים.
-
רגישות לתצפיות חריגות: תצפית חריגה אחת עשויה להשפיע משמעותית על ערך מקדם המתאם.
-
לא מעיד על סיבתיות: קורלציה אינה מעידה בהכרח על קשר סיבתי בין המשתנים.
-
דורש לפחות שלוש תצפיות: חישוב מקדם המתאם דורש לפחות שלוש תצפיות (כדי שיהיו דרגות חופש לחישוב).
טכניקות נפוצות
במקרים שבהם קיים קשר לא-לינארי, נפוץ להשתמש בטכניקת “ליניאריזציה” של הצירים. למשל, אם מתגלה קשר מעריכי ($Y = e^X$), ניתן לבצע טרנספורמציה לוגריתמית ($\ln(Y) = X$) ואז לחשב את מקדם המתאם.
סיכום
-
שונות משותפת מספקת מידע בסיסי על כיוון הקשר בין משתנים, אך רגישה ליחידות מדידה וקשה לפירוש.
-
מקדם המתאם של פירסון מנרמל את השונות המשותפת ומספק מדד אוניברסלי לחוזק הקשר הלינארי בין משתנים, עם ערכים בטווח של -1 עד 1.
-
יש להיות מודעים למגבלות של מקדם המתאם, במיוחד לכך שהוא מודד רק קשרים לינאריים ואינו מעיד על סיבתיות.
-
הפרשנות של ערכי מקדם המתאם תלויה בהקשר ובתחום המחקר.
לשיעור הקודם
לשיעור הבא