מדדי הערכה למסווג דו-ערכי
בסטטיסטיקה ובמדעים, מדדי הערכה למסווג דו-ערכי (המכונה גם מסווג בינארי) מודדים את איכותו של מסווג, אם ידוע הסיווג הנכון.
מסווג דו-ערכי הוא אלגוריתם הממיין את הפריטים באוכלוסיית המדגם לאחת משתי קבוצות, בשאיפה להיות דומה עד כמה שניתן לסיווג הנכון שלהם. במקרים רבים, מסווג דו-ערכי נוצר כדי להבחין בין פריטים שיש להם תכונה מסוימת (או קבוצת תכונות) לבין פריטים שחסרים אותה, במטרה להעריך האם תופעה מסוימת התרחשה. במובן זה, המסווג הוא מבחן.
נאמר שפריט הוא "חיובי" אם הוא עבר את המבחן, ו"שלילי" אם לא. למשל, בדיקה הסופרת את מספר תאי הדם הלבנים בדגימת דם, ומנסה לחזות (לפי כמות תאי הדם הלבנים) האם הנבדק חולה או בריא היא דוגמה למסווג דו-ערכי.
מסווגים דו-ערכיים נפוצים בתחומים רבים של המדע, ובהם: בדיקת השערות, אפידמיולוגיה, אחזור מידע, בקרת איכות. בשל השוני הגדול בצרכים של כל אחד מהתחומים, נפוצים בהם מדדים שונים. כך, למשל, ברפואה נפוצים מדדי רגישות וסגוליות, ואילו בלמידה חישובית, המדדים הנפוצים הם דיוק וכיסוי.
מטריצת הטעות
תבנית:מטריצת טעות כדי להעריך את ביצועי המסווג, נדרש "מדד זהב" לתופעה הנמדדת, כלומר: מסווג שהוא מהימן לחלוטין (או קרוב לכך) למדידת קיום התופעה. מדד הזהב לא משמש בפועל כמסווג, משיקולים שונים: לעיתים לא ניתן להשתמש בו על מספר פריטים רב, משיקולי עלות או סיכון; פעמים אחרות, ניתן לסווג את הפריטים רק בשלב מאוחר מדי (למשל: המחלה תתפרץ בשלב מאוחר יותר, ומחפשים מסווג שיזהה אותה לפני שתתפרץ).
ניתן, עם זאת, להשוות בין הסיווג שביצע מדד הזהב על מספר מוגבל של פריטים לבין ביצועי המסווג. המסווג בדרך כלל אינו מושלם; הוא עלול לסווג פריט כחיובי כאשר הוא באמת שלילי, או להפך. שגיאות כאלו נקראות שגיאות מסוג I ו-II, או "חיובי כוזב" ו"שלילי כוזב", בהתאמה.
הצגה חזותית לשגיאות אלו מתבצעת בעזרת מטריצת טעות (ראו מסגרת).
אם נוספות בשולי הטבלה גם ההתפלגויות השוליות לכל אחד מהמסווגים, נהוג לקרוא למטריצה טבלת תלות, או טבלת שכיחות דו-ממדית.
דוגמה מספרית
טבלת התלות הבאה מתארת נתונים ממחקר מסוים לגבי יעילות בדיקת דם סמוי בצואה בזיהוי סרטן המעי הגס. במקרה זה, ניתן לבצע גם אנדוסקופיה, אלא שזהו תהליך חודרני, ולכן מועדפת האפשרות לבדיקת צואה.
| מחלה בסרטן המעי הגסתבנית:ש(לפי בדיקת אנדוסקופיה) | ||||
| חולה | בריא | סך הכול | ||
| תוצאתתבנית:שבדיקתתבנית:שדםתבנית:שסמויתבנית:שבצואה | תוצאהתבנית:שחיובית | 20 | 180 | 200 |
| תוצאהתבנית:ששלילית | 10 | 1820 | 1830 | |
| סך הכול | 30 | 2000 | 2030 | |
אם נחלק את כל אחד מהתאים בגודל המדגם (2030), נקבל אומדן לשיעור של כל אחת מהאפשרויות באוכלוסייה כולה.
מדדים שבריים פשוטים
בעזרת חישוב החלקים היחסיים של המשבצות השונות במטריצת הטעות, ניתן לקבל אומדן להסתברות המותנית של הסיווגים השונים באוכלוסייה כולה. ניתן לחלק כל אחת מהשכיחויות בכלל הסיווגים התואמים (סכום השורה) או בכלל המצבים התואמים (סכום הטור) – ולבחירה זו יש השפעה גדולה על היכולת להסיק מסקנות מהאומדן, בפרט כאשר יש הבדל גדול בין התפוצה של אחת משתי הקבוצות.
רגישות ושיעור שליליים כוזבים

תבנית:ערך מורחב רגישות (נקראת לעיתים גם שיעור חיובים אמיתיים, שיעור הפגיעה, כיסוי או רמת סמך, מסומנת בקיצור: TPR, ראשי תיבות של המילים True Positive Rate) היא שיעור הסיווגים לקבוצה "חיובי" מתוך כלל הפריטים החיוביים, לפי מדד הזהב. כאומדן, הוא משקף את ההסתברות המותנית שהפריט סווג כחיובי, בהינתן שמדד הזהב קבע שהפריט הוא חיובי:
במילים אחרות, הוא משקף את מידת ההצלחה לנבא נכונה שפריט הוא חיובי.

שיעור שליליים כוזבים (או: שיעור ההחטאה; מסומן בקיצור: FNR, ראשי תיבות של המילים False Negative Rate) הוא שיעור הסיווגים לקבוצה "שלילי" מתוך כלל הפריטים החיוביים, לפי מדד הזהב. כאומדן, הוא משקף את ההסתברות המותנית שהפריט סווג כשלילי, בהינתן שמדד הזהב קבע שהפריט הוא חיובי:
הקשר בין שני המדדים,
- תבנית:מת-גדול
- נובע מהעובדה שהם אומדים הסתברויות מותנות משלימות זו לזו.
סגוליות ושיעור חיוביים כוזבים

תבנית:ערך מורחב סגוליות (נקראת לעיתים גם שיעור שליליים אמיתיים או שיעור דחיות נכונות; מסומנת בקיצור: SPC, קיצור של המונח האנגלי Specificity) היא שיעור הסיווגים לקבוצה "שלילי" מתוך כלל הפריטים השליליים, לפי מדד הזהב. כאומדן, הוא משקף את ההסתברות המותנית שהפריט סווג כשלילי, בהינתן שמדד הזהב קבע שהפריט הוא שלילי:
במילים אחרות, הוא משקף את מידת ההצלחה לנבא נכונה שפריט הוא שלילי.

שיעור חיוביים כוזבים (נקרא לעיתים גם: נפולת, רמת מובהקות או שיעור אזעקות השווא; מסומן בקיצור: FPR, ראשי תיבות של המילים False Positive Rate) הוא שיעור הסיווגים לקבוצה "חיובי" מתוך כלל הפריטים השליליים, לפי מדד הזהב. כאומדן, הוא משקף את ההסתברות המותנית שהפריט סווג כחיובי, בהינתן שמדד הזהב קבע שהפריט הוא שלילי:
הקשר בין שני המדדים,
נובע מהעובדה שהם אומדים הסתברויות מותנות משלימות זו לזו.
ערכי ניבוי

תבנית:ערך מורחב ערך ניבוי חיובי (נקרא לעיתים גם דיוק; מסומן בקיצור PPV, ראשי תיבות של המילים Positive Predictive Value) הוא שיעור הפריטים החיוביים לפי מדד הזהב מתוך כלל הפריטים שסווגו לקבוצה "חיובי". כאומדן, הוא משקף את ההסתברות המותנית שהפריט חיובי, בהינתן שהוא סווג כחיובי:
- תבנית:מת-גדול
- ערך ניבוי חיובי = = ההסתברות להיות חולה בהינתן שתוצאת הבדיקה חיובית

ערך ניבוי שלילי (מסומן בקיצור NPV, ראשי תיבות של המילים Negative Predictive Value) הוא שיעור הפריטים השליליים לפי מדד הזהב מתוך כלל הפריטים שסווגו לקבוצה "שלילי". כאומדן, הוא משקף את ההסתברות המותנית שהפריט שלילי, בהינתן שהוא סווג כשלילי:
נכונות

תבנית:ערך מורחב נכונות (לפעמים נקראת גם מדד ראנד) היא שיעור הסיווגים הנכונים. כאומדן היא משקפת את שיעור הסיווגים הנכונים מתוך כלל האוכלוסייה:
מדדים נגזרים
המדדים המופיעים לעיל פשוטים לחישוב מתוך נתוני המדגם, אבל לעיתים רבות, החוקרים מעוניינים בתכונות מסוימות של המדגם (כאומדן לאוכלוסייה); לפעמים, יש צורך במדד אחד שניתן להביא למקסימום או למינימום, ובכך למצוא את הסיווג הטוב ביותר, לפי דרישות המערכת. מדדים שונים פותחו לשם כך. להלן רשימה חלקית:
יחסי נראות
תבנית:הפניה לערך מורחב בתחום בדיקות האבחון הסיווג (כלומר, הבדיקה) מבוצע על מנת לברר את מצבו הרפואי של החולה. מעצם העובדה שיש תוצאות כוזבות (שליליות או חיוביות) מובן ששתוצאת הבדיקה לא אומרת בהכרח האם המטופל חולה או בריא. כדי להעריך האם אדם אמנם חולה או בריא, יש צורך להשתמש בחוק בייס: אם נסמן את המאורע "תוצאת בדיקה חיובית" ב-A ואת המאורע "המטופל חולה" ב-B, נוסחת בייס אומרת כי , כאשר משמעות הסימון היא ההסתברות ל- בהינתן .
דרך נוחה יחסית לשימוש בחוק בייס היא באמצעות מעבר ליחסי הסתברויות ויחסי נראות: אם יש למאורע מסוים הסתברות להתרחש, אז יחס ההסתברויות מחושב כ-. יחסי הנראות מחושבים בעזרת המדדים השבריים:
| יחס נראות חיובי | יחס נראות שלילי |
|---|---|
| תבנית:Ltr | תבנית:Ltr |
יחס הנראות מאפשר ללמוד כיצד תוצאת הבדיקה תשפיע על הערכת מצבו של המטופל.
מקרה לדוגמה: ההסתברות שמטופל מסוים חולה במחלה זאת או אחרת מוערכת להיות על בסיס נתונים החיצוניים לבדיקה (למשל, גיל, משקל, היסטוריה רפואית). אם התקבלה תוצאה חיובית בבדיקה, יחס הנראות (החיובי) מאפשר לחשב את יחס ההסתברויות שלו להיות חולה בהינתן תוצאת הבדיקה (), על ידי שימוש ביחס ההסתברויות שלו להיות חולה לפני הבדיקה ():
כמו כן, מגדירים יחס יחסי הסתברויות (DOR):
שמשמש בעצמו כמדד לטיב הסיווג: ככל שיחס יחסי ההסתברויות גבוה יותר, כך המתאם בין המסווג למדד הזהב טוב יותר.
ניתן להרחיב את יחס הנראות גם לסיווגים שאינם דו-ערכיים, אם מחשבים את יחסי הנראות עבור כל אחת מקטגוריות הסיווג. במקרה זה, מחשבים את הרגישות והסגוליות לכל אחת מהקטגוריות, ומחשבים בעזרתן את השינוי בהסתברות לקטגוריה מסומנת, בהינתן שהמסווג סיווג את הפריט באותה קטגוריה.
מדד F
במדעי המחשב, ובפרט בלמידה חישובית ובאחזור מידע, היו נפוצים למשך תקופה ארוכה שני מדדים מרכזיים: הדיוק והכיסוי. הרצון למצוא מדד אחד שיסמן את איכות הסיווג הביא לפיתוחו של מדד F. המדד מחושב מתוך הדיוק (ערך הניבוי החיובי) והכיסוי (הרגישות): והוא הממוצע ההרמוני של שני מדדים אלו. ניתן לתת משקל שונה לכל אחד מהמדדים, ואז תתקבל נוסחה כללית יותר, המסומנת לרוב כ-Fβ:
אחד החסרונות המשמעותיים למדד זה הוא העובדה שהוא לא מודד את מספר השליליים האמיתיים. בנוסף, הוא מושפע מאוד משיעור ההימצאות.
מיודעות ומסומננות
מיודעות (informedness) מכמתת את המידה שבה הסיווג הוא מושכל (במילים אחרות: עד כמה ניתן לסמוך עליו). היא נתונה כהסתברות לסיווג מושכל, ביחס לניחוש באקראי. במקרה של מסווג דו-ערכי, היא נתונה בנוסחה:
מסומננות (markedness) מכמתת את המידה שבה המסווג מסוגל להבחין בין הקטגוריות השונות. היא נתונה כהסתברות שהקטגוריות מובחנות זו מזו, ביחס לניחוש באקראי. במקרה של מסווג דו-ערכי, היא נתונה בנוסחה: (FOR הוא שיעור ההשמטות הכוזבות, כלומר מספר השליליים הכוזבים ביחס לכלל הסיווגים השליליים)
אחד היתרונות המשמעותיים של שני מדדים אלו שהם לא מושפעים משיעור ההימצאות, או מההטיה של המסווג (כלומר, היחס בין מספר הפריטים שהוא מסווג כחיוביים לבין מספר הפריטים הכולל).
מתאם מת'יוז
מקדם המתאם של מת'יוז מודד את המתאם בין הסיווג למדד הזהב.
קיימות כמה דרכים שקולות לחשב אותו:
- ניתן לחשב אותו ישירות מתוך מספר החיובים והשליליים האמיתיים והכוזבים:
- הוא שווה גם לממוצע הגאומטרי בין המיודעות למסומננות.
בנוסף, הוא שווה (בערכו המוחלט) לסטטיסטי המכונה לעיתים מקדם פי [ϕ coefficient], ששווה בתורו לכי בריבוע חלקי מספר הפריטים במדגם.
סיכום מטריצת הטעות ומדדי ההערכה
להלן איור המסכם את מטריצת הטעות וממדי ההערכה השונים, היסודיים והנגזרים, של מסווג דו-ערכי.
עקומת ROC

תבנית:ערך מורחב עקומת ROC נותנת ייצוג גרפי לתמורה ההדדית שיש בין הקטנת מספר השליליים הכוזבים לבין הקטנת מספר החיוביים הכוזבים: אם, למשל, המסווג הופך ערך בהירות של תמונה לסיווג בין שחור ולבן, ניתן לבחור קריטריון יותר מצומצם (שיסווג מעט מאוד פריטים כשחורים) או יותר מרחיב (שיסווג הרבה פריטים כשחורים). הבחירה הראשונה תצמצם את הזיהויים השגויים של פריטים כחיוביים, אבל בתמורה נקבל הרבה שליליים כוזבים; האפשרות השנייה תצמצם זיהויים שגויים של פריטים כשליליים, אבל בתמורה נקבל הרבה חיוביים כוזבים.
האפשרויות השונות לבחירת הקריטריון מוצגות על פי שני פרמטרים מייצגים: שיעור החיוביים האמיתיים (רגישות) ושיעור החיוביים הכוזבים (שהוא גם 1 פחות הסגוליות). בדרך כלל העקומה משורטטת בין הפינה השמאלית התחתונה (, כל הפריטים מסווגים כשליליים), לבין הפינה הימנית העליונה (, כל הפריטים מסווגים כחיוביים). צורתה הכללית של העקומה תלוי במידת הקושי של הסיווג: ככל שהוא יותר קל, היא תתקרב יותר לפינה השמאלית העליונה (, "המסווג המושלם").
באופן כללי יותר, ניתן לייצג כל מסווג במרחב ROC, גם אם לא קיים פרמטר שניתן לשנות במסווג (ראו איור). מסווג הנמצא על האלכסון (הקו האדום) שקול לניחוש באקראי. למסווגים שמסומנים מעל האלכסון יש כח ניבוי חיובי. למסווגים שנמצאים מתחת לאלכסון יש אמנם כח ניבוי, אבל הוא הפוך: הם מסווגים באופן עקבי חיוביים רבים כשליליים ולהפך. ניתן להפוך מסווג כזה למסווג יעיל בעזרת החלפה בין הקטגוריות (בין חיובי לשלילי).
באופן טבעי, נובע שהמרחק בין המיקום של מסווג על הגרף לבין הנקודה גם הוא מדד לטיב הסיווג. במילים אחרות, מסווג טוב יצמצם את המרחק . כמו כן, אם המחיר של כל אחד מסוגי הטעויות שונה, ניתן להוסיף משקלים לחשיבות היחסית של כל אחד הגורמים, והמרחק שיש לצמצם יהיה מהצורה .
יחס הנראות החיובי של מסווג הוא מדד נוסף שניתן לזהות בעקומת ROC: הוא השיפוע של העקומה בכל נקודה.
בתחומים שונים
בדיקת השערות
תבנית:הפניה לערך מורחב בדיקת השערות הוא הליך המשתמש בנתוני מדגם כדי להחליט אם לדחות או להישאר באמונתנו לגבי השערה נתונה. הבדיקה מכריעה בין שתי השערות לגבי ההתפלגות ממנה נלקח המדגם: השערת האפס (תבנית:DH0) וההשערה האלטרנטיבית (תבנית:DH1). את ההשערה האלטרנטיבית מנסים לאשש על ידי דחיית השערת האפס. בהקשר זה, שגיאה מסוג I היא דחיה של השערת האפס בשוגג, ושגיאה מסוג II היא אי-דחייה של השערת האפס ואישוש ההשערה הנגדית תבנית:DH1.
- ההסתברות לשגיאה מסוג I מכונה רמת מובהקות המבחן, ומסומנת באות היוונית α; היא שקולה לשיעור החיוביים הכוזבים. ההסתברות למאורע המשלים (קבלה מוצדקת של תבנית:DH1) מכונה רמת הסמך עבור רווח בר-סמך שנבנה ברמה זו.
- ההסתברות לשגיאה מסוג II מסומנת באות היוונית β; היא שקולה לשיעור השליליים הכוזבים. ההסתברות למאורע המשלים (דחייה מוצדקת של תבנית:DH1) נקראת גם העוצמה הסטטיסטית של המבחן.
תורת גילוי האותות
תבנית:ערך מורחב תורת גילוי האותות היא תחום שעוסק בקבלת החלטות בתנאי אי-ודאות, על ידי בני אדם ועל ידי מכונות.
במודל זה, מטריצת הטעות מבוטאת במונחים שונים מעט:
| גירוי או אות | |||
| קיים | לא קיים | ||
| תגובה | זיהוי | פגיעהתבנית:ש(hit) | אזעקת שוואתבנית:ש(false alarm) |
| התעלמות | החטאהתבנית:ש(miss) | דחייה נכונהתבנית:ש(correct rejection) | |
המוקד בתורה זו הוא ההבחנה בין שני סוגי גורמים לשגיאות העומדים בפני המסווג: יכולת ההבחנה בין אות לרעש (המבוטא על ידי מדד ), ומיקום הגבול בין תחומי ההחלטה (נקרא גם "קריטריון", ומסומן באות ).
ראו גם
לקריאה נוספת
- R. Kohavi and F. Provost, Glossary of Terms. Machine Learning, volume 30, issue 2-3, February/March 1998.
- Powers, D.M.W. (2007). Evaluation: From Precision, Recall and F-Factor to ROC, Informedness, Markedness and Correlation. Technical Report SIE-07-001. School of Informatics and Engineering, Flinders University Adelaide, South Australia.