טיוטה:מבחן מאן ויטני U
בסטטיסטיקה, מבחן Mann-Whitney U (מאן וויטני) (נקרא גםMann-Whitney-Wilcoxon ( MWW/MWU ), Wilcoxon rank-sum test, או Wilcoxon-Mann-Whitney Test) הוא מבחן א-פרמטרי של השערת האפס שעבורה, לשני ערכים מקריים X ו-Y של שתי אוכלוסיות, ההסתברות ש-X גדול מ-Y שווה להסתברות ש-Y גדול מ-X.
מבחנים א-פרמטריים שמשמשים לבחינת שני מדגמים תלויים הם מבחן הסימן ומבחן הדירוג של Wilcoxon.
הנחות ההיפותזה
על אף שמאן ווויטני[1] פיתחו את מבחן מאן וויטני תחת ההנחה שדוגמים דגימות רציפות כשההשערה האלטרנטיבית היא שהתפלגות אחת גדולה מהאחרת, ישנן דרכים רבות אחרות לנסח את השערות האפס והאלטרנטיבות על מנת שמבחן מאן וויטני יהיה תקף.[2]
ניסוח כללי של ההנחות למבחן:
- כל התצפיות משתי הקבוצות בלתי תלויות זו בזו.
- הדגימות הן לפחות מסולם סדר (כלומר, אפשר לומר על כל שתי תצפיות מי הגדולה יותר).
- תחת השערת האפס H0, ההתפלגויות של שתי האוכלוסיות זהות.[3]
- ההשערה האלטרנטיבית H1 היא שההתפלגויות אינן זהות.
לפי הניסוח הכללי, המבחן רק עקבי כאשר הדברים הבאים מתרחשים תחת H1:
- ההסתברות שתצפית מאוכלוסייה X תהיה גדולה מתצפית מאוכלוסייה Y שונה (גדולה או קטנה יותר) מההסתברות שתצפית מ-Y תהיה גדולה מתצפית מ-X; כלומר, תבנית:נוסחה או תבנית:נוסחה.
תחת הנחות מחמירות יותר מהניסוח הכללי לעיל, למשל, אם מניחים שהדגימות הן רציפות והאלטרנטיבה מוגבלת לשינוי במיקום, כלומר, תבנית:נוסחה, נוכל לפרש את מבחן מאן וויטני כבוחן הבדל בחציונים. תחת הנחת שינוי מיקום זו, אנו יכולים גם לפרש את מבחן מאן וויטני כהערכה האם אומדן Hodges–Lehmann של ההבדל בנטייה המרכזית בין שתי האוכלוסיות שונה מאפס. אומדן הודג'ס-להמן לבעיה דו-מדגמית זו היא החציון של כל ההבדלים האפשריים בין תצפית במדגם הראשון לתצפית במדגם השני.
אחרת, אם גם הפיזור וגם הצורות של ההתפלגות של שתי הדגימות שונות, מבחן מאן וויטני נכשל במבחן חציונים. אפשר להראות דוגמאות שבהן החציונים שווים בקירוב בעוד שהמבחן דוחה את השערת האפס עם ערך p קטן.[4][5][6]
מבחן מאן וויטני / מבחן סכום דירוג וילקוקסון אינו זהה למבחן דירוג סימן של Wilcoxon, למרות ששניהם א-פרמטרים ובשניהם סוכמים דרגות. מבחן מאן וויטני הוא לדגימות בלתי תלויות. מבחן דירוג סימן של Wilcoxon הוא לדגימות תואמות או תלויות.
הסטטיסטי U
יהי דגימות בלתי תלויות מאותה התפלגות (iid) , ו- דגימות בלתי תלויות מאותה התפלגות (iid) , ושתי הדגימות בלתי תלויות אחת מהשנייה. הסטטיסטי של Mann–Witney U מוגדר כ:
S מוגדר להיות:
חישובים
המבחן כולל חישוב של סטטיסטי, הנקרא בדרך כלל U, שהתפלגותו תחת השערת האפס ידועה. במקרה של מדגמים קטנים, ההתפלגות מוצגת בטבלה, אך עבור מדגמים גדולים מ~20, ניתן להגיד שהמדגם מתפלג נורמלית בקירוב די טוב. בחלק מהספרים רושמים את U כסכום הדרגות של אחד המדגמים, ולא בתור U עצמו.
מבחן מאן וויטני כלול ברוב החבילות הסטטיסטיות המודרניות. ניתן לחשב את הסטטיסטי ידנית בקלות יחסית, במיוחד עבור דגימות קטנות. ישנן שתי דרכים לעשות זאת.
שיטה ראשונה:
על מנת להשוות בין שתי קבוצות קטנות של תצפיות, השיטה הישירה היא מהירה, ונותנת הבנה לגבי המשמעות של הסטטיסטי U, התואמת למספר הניצחונות מכל התחרויות בין שני משתנים (למשל כמו בדוגמה של הצב והארנבת בדוגמאות למטה). עבור כל תצפית בקבוצה, ספור את מספר הפעמים שהערך הזה מנצח תצפית מהקבוצה השנייה (הערך מהמדגם הראשון מנצח אם הערך מהמדגם השני קטן יותר). הוסף 0.5 עבור כל שוויון בין הערכים. סכום הניצחונות והשוויונות הוא U (כלומר: ) עבור המדגם הראשון. ה-U של המדגם השני הוא ההפך (כלומר: ).
שיטה שנייה:
לדגימות גדולות יותר:
- דרג מספרית בסדר עולה את כל התצפיות (אחד את התצפיות משתי הקבוצות לקבוצה אחת), דרג את הערך הקטן ביותר ב-1. כאשר יש רצפים של ערכים זהים, דרג את כל הערכים הזהים בממוצע שלהם (למשל, הדירוג של הערכים תבנית:נוסחה הוא תבנית:נוסחה אך מכיוון שארבעת הערכים האמצעיים זהים הדירוג הסופי יהיה תבנית:נוסחה.
- כעת, חבר את הדרגות של התצפיות שהגיעו ממדגם 1. כעת סכום הדרגות של מדגם 2 ידוע, מכיוון שסכום כל הדרגות שווה ל - תבנית:נוסחה כאשר N הוא המספר הכולל של התצפיות.
- U נתון על ידי:[7]
- כאשר n1 הוא גודל המדגם עבור מדגם 1, ו - R1 הוא סכום הדרגות במדגם 1.
- שימו לב שזה לא משנה לאיזו משתי הדגימות קראתם דגימה 1. הנוסחה זהה עבור U של דגימה 2
- הערך הקטן יותר מבין U1 ו-U2 הוא הערך שמשווים לערך בטבלאות מובהקות. הסכום של שני הערכים ניתן על ידי
- הערך הקטן יותר מבין U1 ו-U2 הוא הערך שמשווים לערך בטבלאות מובהקות. הסכום של שני הערכים ניתן על ידי
- מכיוון ש-תבנית:נוסחה ו-תבנית:נוסחה, בעזרת קצת אלגברה, ניתן להראות שהסכום הוא
תכונות
הערך המרבי של U הוא המכפלה של גודל הדגימות (כלומר: ). במקרה כזה, ה - U "האחר" יהיה 0.
דוגמאות
המחשה של שיטות החישוב
נניח שאיזופוס אינו מרוצה מהניסוי הקלאסי שלו שבו צב אחד מנצח ארנבת אחת במרוץ, ומחליט לבצע בדיקת מובהקות כדי לגלות האם ניתן להרחיב את התוצאות גם לצבים וארנבות באופן כללי. הוא אוסף דגימה של 6 צבים ו-6 ארנבות, וגורם לכולם להתחרות במרוץ שלו ביחד. הסדר שבו הם מגיעים לעמדת הסיום הוא כדלקמן (מימין לשמאל):
- צב, ארנבת, ארנבת, ארנבת, ארנבת, ארנבת, צב, צב, צב, צב, צב, ארנבת
מה הערך של U?
- בשיטה הישירה, אנחנו לוקחים כל צב, וסופרים את מספר הארנבות שהוא עקף, ומקבלים 6, 1, 1, 1, 1, 1, כלומר תבנית:נוסחה. לחלופין, נוכל לקחת כל ארנבת, ולספור את מספר הצבים שהיא עקפה. במקרה זה, נקבל 5, 5, 5, 5, 5, 0, אז תבנית:נוסחה. שימו לב שהסכום של שני הערכים הללו הוא תבנית:נוסחה, שהוא תבנית:נוסחה.
- באמצעות השיטה העקיפה:
- דרג את הארנבות והצבים לפי הזמן שלוקח להם לסיים את המרוץ. תן לבעל החיים הראשון דירוג 12, לשני 11, וכן הלאה.
- סכום הדרגות של הצבים הוא: תבנית:נוסחה.
- לכן תבנית:נוסחה (כמו בשיטה הראשונה).
- סכום הדרגות של הארנבות הוא תבנית:נוסחה, מה שמוביל ל - תבנית:נוסחה.
קירוב נורמלי ותיקון שוויונות
עבור דגימות גדולות, U מתפלגת נורמלית בקירוב. במקרה כזה, ציון התקן
כאשר mU ו - σU הם הממוצע וסטיית התקן של U, הוא בערך מתפלג נורמלית סטנדרטית (מתפלג נורמלית עם ממוצע 0 ושונות 1) שניתן לבדוק את מובהקותה בטבלאות של ההתפלגות הנורמלית. mU ו-σU ניתנות על ידי
הנוסחה לסטיית התקן מסובכת יותר כאשר הדרגות שוות. אם יש שוויון בדרגות, יש לחשב את σ באופן הבא:
כאשר הצד השמאלי הוא פשוט השונות והצד הימני הוא ההתאמה לשוויונות, t k הוא מספר השוויונות עבור הדרגה ה-kית, ו-K הוא המספר של שוויוני דרגות.
צורה יעילה יותר לחישוב היא להוציא תבנית:נוסחה כגורם משותף
כאשר תבנית:נוסחה.
אם מספר השוויונות קטן ניתן להתעלם מהשוויונות כאשר מחשבים ידנית. החבילות הסטטיסטיות של המחשב ישתמשו בנוסחה המתאימה.
נשים לב שמכיוון ש-תבנית:נוסחה, הממוצע תבנית:נוסחה המשמש בקירוב הנורמלי הוא הממוצע של שני הערכים של U. לכן, הערך המוחלט של הסטטיסטי z המחושב יהיה זהה בכל ערך של U שנשתמש.
קשר למבחנים אחרים
השוואה למבחן t של סטודנטים
מבחן מאן וויטני בודק השערת אפס לפיה התפלגות ההסתברות של תצפית שנלקחה באקראי מקבוצה אחת זהה להתפלגות ההסתברות של תצפית אקראית מהקבוצה השנייה מול האלטרנטיבה שההתפלגויות לא שוות (ראה מבחן מאן-וויטני U#הנחות והשערות ). לעומת זאת, מבחן t בודק השערת אפס של ממוצעים שווים בשתי קבוצות מול אלטרנטיבה של ממוצעים לא שווים. לפיכך, למעט מקרים מיוחדים, מבחן Mann–Witney U ומבחן t אינם בודקים את אותן השערות ולכן יש להתחשב בכך.
- נתונים מסולם סדר
- מבחן מאן וויטני עדיף על מבחן t כאשר הנתונים הם מסולם סדר אך לא מסולם רווח, במקרה זה הרווח בין ערכים סמוכים של הסולם לא קבועים.
- איתנות
- כיוון שהוא משווה את סכומי הדרגות,[10] מבחן מאן וויטני פחות סביר שיוטה ממבחן t בגלל נוכחותם של ערכים חריגים. עם זאת, מבחן מאן וויטני עשוי לשגות יותר בשגיאות מסוג I כאשר הנתונים הם הטרוסקדסטיים וא-נורמליים.[11]
- יְעִילוּת
- כאשר הנורמליות מתקיימת, למבחן מאן וויטני יש יעילות (אסימפטוטית) של או בערך 0.95 בהשוואה למבחן t.[12] עבור התפלגויות רחוקות מספיק מהנורמלית ועבור גודלי מדגם גדולים מספיק, מבחן מאן וויטני יעיל הרבה יותר מ - t.[13] עם זאת, את ההשוואה הזו צריכים לקחת בערבון מוגבל, שכן מאן-וויטני ומבחן t אינם בודקים את אותם המדדים. אם, למשל, ההבדל בין הממוצעים של הקבוצות הוא המדד החשוב, מאן-וויטני אינו מבחן מתאים.[14]
מבחן מאן וויטני ייתן תוצאות דומות מאוד לביצוע של מבחן t פרמטרי רגיל בשני מדגמים על דירוג הנתונים.[15]
התפלגויות שונות
מבחן מאן וויטני לא תקף לבדיקת השערת האפס כנגד ההשערה האלטרנטיבית ), מבלי להניח שההתפלגויות זהות תחת השערת האפס (כלומר, בהנחה ש- ).תבנית:הערה כדי לבחון את ההשערות האלו, קיימים מבחנים טובים יותר. בינם ניתן למצוא את מבחן ברונר-מונצל ומבחן פלינר-פוליצ'ו.[16] ספציפית, תחת השערת אפס כללית יותר , מבחן מאן וויטני יכול להגדיל את שיעורי שגיאה מסוג I אפילו במדגמים גדולים (במיוחד אם השונות של שתי האוכלוסיות שונות וגודלי המדגם שונים), בעיה שהחלופות האחרות פותרות טוב יותר.[17] כתוצאה מכך, עדיף להשתמש באחת החלופות (במיוחד במבחן ברונר-מונזל) אם לא ניתן להניח שההתפלגויות זהות תחת השערת האפס.[17]
אלטרנטיבות
כדאי לא להשתמש במבחן מאן וויטני כאשר ההתפלגות של שתי הדגימות שונות מאוד, מכיוון שהוא יכול לא לזהות נכון תוצאות מובהקות.[18] במצב כזה, גרסת השונויות הלא שוות של מבחן t עשויה לתת תוצאות אמינות יותר.
באופן דומה, ניתן להפוך את הנתונים למדורגים (אם הם עדיין לא מדורגים) ולאחר מכן לבצע את מבחן t על הנתונים המדורגים, הגרסה הזו של מבחן t ניתנת לשימוש כאשר יש חשד ששונות האוכלוסיות שונה. הדירוג אינו משמר את השונויות, אך השונות מחושבות מחדש מהדגימות לאחר הדירוג.
מבחן Brown-Forsythe יכול לשמש כמבחן א-פרמטרי מקביל למבחן F עבור שונויות שוות.תבנית:מקור
מבחן חזק יותר הוא מבחן Brunner-Munzel, המבחן עדיף על פני מבחן מאן וויטני במקרה שלא מתקיימת הנחת החילופיות.[19]
מבחן מאן וויטני הוא מקרה פרטי של מודל הסיכויים הפרופורציונליים, המאפשר התאמת משתנים משותפים.[20]
ראה גם מבחן קולמוגורוב-סמירנוב.
מבחנים סטטיסטים קשורים
הטאו של קנדל
מבחן מאן וויטני קשור למספר תהליכים סטטיסטים א-פרמטריים אחרים. לדוגמה, הוא שקול למקדם המתאם tau של קנדל אם אחד המשתנים הוא בינארי (כלומר, הוא יכול לקבל רק שני ערכים).תבנית:מקור
מימושים תוכנתיים
בחבילות תוכנה רבות, מבחן מאן וויטני (של ההשערה של התפלגויות שוות מול חלופות מתאימות) לא ממומש בצורה טובה. חלק מהחבילות מטפלות באופן שגוי במקרים של שוויון או לא מצליחות לממש התנהגויות אסימפטוטיות (למשל, תיקון לרציפות). סקירה משנת 2000 דנה בכמה מהחבילות הבאות:[21]
- MATLAB מכילה ranksum בארגז הכלים הסטטיסטיים שלה.
- חבילת הבסיס הסטטיסטית של R מממשת את המבחן[1] בחבילת ה-"stats" שלה.
- חבילת wilcoxonZ ב-R[2]תחשב את הסטטיסטי z עבור מבחן Wilcoxon לשני מדגמים, מדגם מזווג או מדגם אחד.
- SAS מממשת את המבחן בפרוצדורה שלה PROC NPAR1WAY.
- לפייתון (שפת תכנות) יש מימוש של המבחן שמסופק על ידי SciPy[22]
- SigmaStat (SPSS Inc., שיקגו, IL)
- SYSTAT (SPSS Inc., שיקגו, IL)
- ל-Java (שפת תכנות) יש מימוש של המבחן שמסופק על ידי Apache Commons[23]
- לג'וליה (שפת תכנות) מממשת את מבחן זה באמצעות מספר חבילות. בחבילה HypothesisTests.jl, זה נמצא כ-pvalue(MannWhitneyUTest(X,Y))[24]
- JMP (SAS Institute Inc., Cary, NC)
- S-Plus (MathSoft, Inc., סיאטל, וושינגטון)
- STATISTICA (StatSoft, Inc., Tulsa, OK)
- UNISTAT (Unistat Ltd, לונדון)
- SPSS (SPSS Inc, שיקגו)
- StatsDirect (StatsDirect Ltd, מנצ'סטר, בריטניה) מממשת את כל הגרסאות הנפוצות.
- Stata (Stata Corporation, College Station, TX) מממשת את המבחן בפקודת ranksum שלה.
- StatXact (Cytel Software Corporation, קיימברידג', מסצ'וסטס)
- PSPP מממשת את המבחן בפונקציית WILCOXON שלה.
- KNIME מממשת את הבדיקה בצומת מבחן Wilcoxon-Mann-Witney.
הערות שוליים
- ↑ תבנית:Cite journal
- ↑ תבנית:Cite journal
- ↑ [3], See Table 2.1 of Pratt (1964) "Robustness of Some Procedures for the Two-Sample Location Problem." Journal of the American Statistical Association. 59 (307): 655–680. If the two distributions are normal with the same mean but different variances, then Pr[X > Y] = Pr[Y < X] but the size of the Mann–Whitney test can be larger than the nominal level. So we cannot define the null hypothesis as Pr[X > Y] = Pr[Y < X] and get a valid test.
- ↑ תבנית:Cite journal
- ↑ תבנית:Cite journal
- ↑ תבנית:Cite journal
- ↑ תבנית:Cite book
- ↑ תבנית:Cite book
- ↑ תבנית:Cite book
- ↑ Motulsky, Harvey J.; Statistics Guide, San Diego, CA: GraphPad Software, 2007, p. 123
- ↑ תבנית:Cite journal
- ↑ Lehamnn, Erich L.; Elements of Large Sample Theory, Springer, 1999, p. 176
- ↑ Conover, William J.; Practical Nonparametric Statistics, John Wiley & Sons, 1980 (2nd Edition), pp. 225–226
- ↑ תבנית:Cite journal
- ↑ תבנית:Cite journal
- ↑ תבנית:Cite book
- ↑ 17.0 17.1 תבנית:Cite journal
- ↑ תבנית:Cite journal
- ↑ תבנית:Cite journal
- ↑ תבנית:Cite journal
- ↑ תבנית:Cite journal
- ↑ תבנית:Cite web
- ↑ תבנית:Cite web
- ↑ תבנית:Cite web