ניתוח הישרדות

מתוך testwiki
גרסה מ־13:36, 27 בפברואר 2025 מאת imported>AutoMod (קישור פנימי בשני חלקים זהים)
(הבדל) → הגרסה הקודמת | הגרסה האחרונה (הבדל) | הגרסה הבאה ← (הבדל)
קפיצה לניווט קפיצה לחיפוש

בסטטיסטיקה, ניתוח הישרדות הוא שם כולל לשיטות ומודלים לניתוח משך הזמן העובר עד להתרחשות אירוע מסוים (או אירועים). אירוע כזה יכול להיות, לדוגמה, מוות של חולה או קלקול במערכת מכנית כגון מכונה כלשהי. בעזרת ניתוח השרדות ניתן לענות על שאלות כגון: איזה אחוז מאוכלוסיית החולים יישארו בחיים לאחר פרק זמן מסוים? איזה גורמים משפיעים על הסיכון למות? האם טיפול תרופתי מסוים מאריך את תוחלת החיים? כמה אנשים מתים מנזקי העישון?

כדי לענות על שאלות כגון אלה, יש להגדיר תחילה מהו "משך החיים", כלומר מהו משך הזמן שעבר עד התרחשות האירוע. במקרה של מוות של אדם התשובה ברורה. אולם לעיתים ההגדרה יותר מעורפלת. למשל, הזמן שעובר מאז שאדם חולה במחלה כלשהי ועד שחלה החמרה קלינית במצבו בדרך כלל אינו מוגדר היטב. לא ברור מתי האדם חלה (ומועד זה שונה בדרך כלל ממועד האבחון), וגם לא ברור כיצד החמרה קלינית מוגדרת וכיצד קובעים מתי היא התרחשה. הגדרת משך החיים היא לכן בדרך כלל סובייקטיבית, ועשויה להשפיע על תוצאת הניתוח הסטטיסטי.

התחום של ניתוח הישרדות עוסק בניתוח משכי הזמן שעוברים עד התרחשות שחל אירוע בודד, כגון מוות או יציאה של מכונה מכלל שימוש ללא אפשרות לתיקון. עם זאת, ייתכנו מצבים שבהם אירוע יכול להתרחש יותר מפעם אחת. מצבו הקליני של החולה יכול להחמיר מספר פעמים במשך חייו, ומכונה יכולה להתקלקל, לחזור לפעילות לאחר תיקון ואז להתקלקל שוב. קיימות הכללות למודלים של ניתוח הישרדות למקרים מעין אלו.

מושגי יסוד בניתוח הישרדות

  • אירוע: זהו המושג היסודי של ניתוח הישרדות. אירוע הוא התרחשות מוגדרת היטב של התופעה בה אנו מתעניינים. לדוגמה מוות או החמרה במחלה.
  • תקופת התצפית: התקופה בה נערך מעקב אחרי הפרט או אוכלוסייה של פרטים כדי לבדוק האם מתרחש אירוע. לדוגמה, בניסוי קליני להערכת יעילות טיפול מסוים לטרשת נפוצה, מתעניינים במשך הזמן העובר מתחילת הטיפול עד להתרחשות התקף. בדרך כלל מגבילים את משך הניסוי הקליני בזמן, למשל מחליטים לעקוב אחרי החולים במשך שנתיים בלבד לאחר תחילת הטיפול, כלומר תקופת התצפית היא שנתיים.
  • זמן או משך הזמן (מסומן בדרך כלל באות T): משך הזמן העובר מתחילת התצפית ועד המוקדם מבין: מועד התרחשות האירוע, סוף תקופת התצפית, או הפסקת התצפית לפני סיום תקופת התצפית מסיבה כלשהי. לדוגמה: חולה המשתתף בניסוי קליני שמשכו שנתיים יכול להחליט לפרוש מהניסוי בכל עת. אם פרש מהניסוי אחרי חצי שנה, למשל, וזאת בטרם התרחשות האירוע, אז הזמן של אותו חולה הוא חצי שנה.
  • קטימה / תצפית קטומה: אם תקופת התצפית הסתיימה עבור פרט מסוים לפני התרחשות האירוע, נאמר כי התצפית היא קטומה. אנו יודעים בוודאות כי האירוע לא התרחש בזמן תקופת התצפית, אך לא יודעים אם הוא יתרחש בעתיד ואם כן מתי.
  • פונקציית ההישרדות S(t): ההסתברות כי הזמן T שעבר עד התרחשות האירוע גדול מ-t. פורמלית, S(t)=P(T>t)=1F(t), כאשר F(t) היא פונקציית ההתפלגות של T. פונקציית ההישרדות היא פונקציה יורדת של t וערכיה נעים בין 1 ל-0.
  • פונקציית הסיכון (hazard function), המסומנת בדרך כלל ב-λ(t), מבטאת את הסיכון הנקודתי להתרחשות אירוע בזמן t, והיא מתקבלת כאשר מחשבים את ההסתברות המותנה להתרחשות אירוע במרווח זמן מסוים כאשר נתון כי האירוע לא התרחש לפני כן, מחלקים בגודל מרווח הזמן, ומשאיפים גודל זה ל-0: λ(t)=limΔt0P(t<Tt+Δt|T>t)Δt=f(t)S(t),

כאשר f(t) היא פונקציית הצפיפות של T.

יש לשים לב כי הסיכון אינו הסתברות, וערכו יכול להיות גדול מ-1.

גישות נפוצות לניתוח השרדות

לוח חיים

לוח חיים (או לוח תמותה, תלוי בהקשר) הוא טבלה תיאורית של נתוני ההישרדות. לכל נקודת זמן או מרווח זמן נתונים:

  • מספר הפרטים באוכלוסייה שנמצאו בסיכון באותה נקודת זמן. גודל זה הוא מספר הפרטים שלא נצפה כי הם חוו אירוע עד נקודת זמן זו, בין אם הם חוו אירוע בנקודת זמן מאוחרת יותר ובין אם התצפית נקטמה.
  • מספר הפרטים שחוו את האירוע בנקודת זמן זו.

משני נתונים אלה אפשר לחשב אמדן לערך פונקציית ההישרדות באותה נקודת זמן. על ידי שימוש בהתפלגות הבינומית ניתן לחשב רווח סמך לאמדן זה.

עקומת קפלן-מאייר

עקומת קפלן-מאייר היא קירוב אפרמטרי לפונקציית ההישרדות. האמדן נתון על ידי הנוסחה: S^(t)=i: tit(1dini) כאשר

  • ti היא נקודת זמן בה התרחש לפחות אירוע אחד.
  • di הוא מספר האירועים שהתרחשו בנקודת הזמן ti.
  • ni הוא מספר הפרטים באוכלוסייה ששרדו (כלומר לא חוו אירוע) עד זמן ti.

קפלן ומאייר הוכיחו כי אמד זה הוא אמד נראות מקסימלית עבור פונקציית ההישרדותתבנית:הערה.

מבחן לוג הדרגות (log rank test)

זהו מבחן סטטיסטי א-פרמטרי לבדיקת ההשערה כי אין הבדל בין פונקציות ההשרדות של שתי אוכלוסיות בלתי תלויות. מבחן זה נקרא לעיתים בשם מבחן מאנטל-קוקס. התפלגותו האסימפטוטית של סטטיסטי המבחן היא התפלגות חי בריבוע כאשר מספר דרגות החופש שווה למספר האוכלוסיות פחות 1.

רגרסיית הישרדות פרמטרית

זהו מודל רגרסיה פרמטרי המקשר בין משך הזמן (או פונקציה שלו) ובין משתנים מסבירים. פורמלית: g(T)=β0+β1X1+...+βkXk+σϵ כאשר

  • g(T) היא פונקציה מונוטונית של T
  • X1,...,Xk הם משתנים מסבירים.
  • β1,...,βk הם מקדמי הרגרסיה.
  • ל-ϵ יש התפלגות המקבלת ערכים אי שליליים.
  • σ הוא מקדם מישקול (scaling) התלוי בהתפלגות של ϵ.

אמידת הפרמטרים נעשית על ידי שיטת הנראות המקסימלית.

מודל הסיכונים הפרופורציונליים (מודל קוקס)

מודל הסיכונים הפרופורציונליים הוא מודל רגרסיה אפרמטרי המקשר בין פונקציית הסיכון ובין משתנים מסבירים. בעוד שעקומת קפלן מאייר ומבחן לוג הדרגות מתאימים למצב בו יש משתנה קטגורי יחיד המשפיע על פונקציית הסיכון (כגון קבוצת טיפול וקבוצת ביקורת, או מעשנים ולא מעשנים), מודל קוקס מתאים גם למצבים בהם יש יותר ממשתנה אחד המשפיע על ערך פונקציית הסיכון, ומשתנים אלה אינם מוגבלים להיות משתנים קטגוריים, אלא יכולים להיות משתנים בכל סולם מדידה. המודל הוצג על ידי סיר דויד קוקס בשנתתבנית:הערה1972, והמאמר בו הוא הוצג נמנה עם 100 המאמרים המצוטטים ביותר בספרות המדעית.

ההגדרה הפורמלית של המודל היא λ(t|X1,...,Xk)=λ0(t)exp(β0+β1X1+...+βkXk) כאשר

  • X1,...,Xk הם משתנים מסבירים.
  • λ(t|X1,...,Xk) הוא הסיכון בנקודת הזמן t בהינתן X1,...,Xk.
  • λ0(t) הוא הסיכון הבסיסי (הבלתי מותנה) בנקודת הזמן t.
  • β1,...,βk הם מקדמי הרגרסיה.

המודל אינו מניח כל הנחה התפלגותית לגבי הזמן T.עם זאת, המודל מניח כי המשתנים המסבירים אינם משתנים עם הזמן. המודל אינו אומד ישירות את פונקציית הסיכון אלא את לוג יחסי הסיכונים, כלומר את log(λ(t|X1,...,Xk)λ0(t))). מכאן ש-eβi הוא יחס הסיכונים (hazard ratio)של המשתנה המסביר Xi בהינתן שאר המשתנים המסבירים. אמידת הפרמטרים β1,...,βk נעשית בשיטת הנראות המקסימלית החלקית.

גישות נוספות

גישות אפשריות נוספות לניתוח נתוני השרדות כוללות את מודל הסיכונים המצטברים, מודלים בייסיאניים ומודלים של למידת מכונה. כמו כן ישנן הרחבות למודלים שהוזכרו כאן למקרים בהם מופרות חלק מההנחות.

ישנם מצבים בהם אירוע יכול להתרחש בצורות שונות (למשל אדם מעשן נמצא בסיכון גבוה גם לסרטן וגם למחלת לב. הוא עלול למות כתוצאה מסרטן או ממחלת לב, אך סיבת המוות לא יכולה להיות שתי המחלות יחד). המודל המתאים לניתוח הנתונים במצבים כאלה הוא מודל הסיכונים המתחרים.

דוגמה

בדוגמה זו נשתמש בקובץ הנתונים lung המצורף לחבילתתבנית:הערהsurvival של תוכנת R. הניתוחים המוצגים בוצעו על ידי פונקציות מחבילה זו.

יש להדגיש כי הדוגמה ממחישה את האופן בו מתבצעים הניתוחים השונים ומסבירה כיצד לפרט את התוצאות, אך אין זו דוגמה לתהליך ניתוח מסודר של נתוני הישרדות.

הנתונים

בקובץ lung יש נתונים אודות 228 חולי סרטן הריאה. הנתונים כוללים את מין וגיל הנבדקים, וכן נתונים נוספים אודות מצבם התפקודי והתזונתי של החוליםתבנית:הערה. כן נתון משך הזמן בימים שעבר ממועד איסוף הנתונים (תחילת התצפית) ועד התרחשות אירוע מוות או סיום התצפית, ומשתנה המציין האם התצפית היא מלאה או קטומה. לצורך הדוגמה נשתמש בנתוני המין והגיל בלבד. להלן חלק מהנתונים: תבנית:Ltr Sex=1 מציין גבר ו-sex=2 מציין אשה. Status=1 מציין תצפית קטומה ו-status=2 מציין התרחשות אירוע מוות.

מתוך 228 חולים, 165 נפטרו במהלך תקופת התצפית.

חציון זמן ההישרדות

מכיוון שאנו איננו יודעים את משך הזמן עד המוות של החולים שלא נפטרו אי אפשר לאמוד את הזמן הממוצע עד המוות, אבל אפשר לאמוד את משך הזמן החציוני בעזרת אמדן קפלן-מאייר לפונקציית ההישרדות. בעזרת הפונקציה suvrfit של R עולה כי משך הזמן החציוני עד למוות באוכלוסייה שווה ל-310 ימים. חישוב נפרד לגברים ונשים מעלה כי משך הזמן החציוני עד למוות עבור גברים הוא 270 יום, ועבור נשים הוא 426 ימים. תבנית:Ltr

לוח חיים (או לוח תמותה)

מוצגות פקודות R ו-6 השורות הראשונות של לוח התמותה (נתוני התמותה חושבו לכל החולים יחד): תבנית:Ltr מהשורה הראשונה של הלוח ניתן ללמוד כי: • ביום החמישי של תקופת המעקב היו 228 חולים בסיכון • חולה אחד מת ביום החמישי • ערך פונקציית ההשרדות עבור t=5 שווה ל-0.996. הערך חושב על ידי חלוקת 227 (מספר השורדים מעבר ליום ה-5) ב-228 (מספר החולים הכולל)

עקומת קפלן-מאייר

ניתן להפיק את העקומה ב-R בעזרת הפקודות הבאות: תבנית:Ltr העקומה המתקבלת היא:

ניתן לראות כי ערך פונקציית ההשרדות של הנשים גבוה מזה של הגברים ברוב הזמן. לדוגמה, ההסתברות כי אשה תשרוד יותר מ-400 ימים קרובה ל-0.6, בעוד עבור הגברים הסתברות זו היא בערך 0.3.

מבחן לוג הדרגות (log rank test)

ביצוע המבחן ב-R: תבנית:Ltr

ערך χ2 שהתקבל הוא 10.3 וערך ה-p הוא 0.00131. בהנחה כי רמת המובהקות שנקבעה מראש היא α=0.05, ניתן לומר כי יש הבדל מובהק בין פונקציות ההישרדות של הגברים ושל הנשים.

רגרסיית השרדות פרמטרית

נבצע רגרסיית הסתברות פרמטרית כאשר המשתנה המוסבר הוא הלוג של משך הזמן והמשתנים המסבירים הם מין וגיל. אנו מניחים כי לטעות ϵ יש התפלגות וויבול עם פרמטר scale השווה ל-1. תבנית:Ltr טיב ההתאמה של המודל לנתונים נבדק על ידי סטטיסטי χ2 של מבחן יחס הנראות (על פי משפט וילקס). ערכו הוא 7.15 עם שתי דרגות חופש, וערך ה-p הוא 0.028. בהנחה כי רמת המובהקות שנקבעה מראש היא α=0.05, ניתן לומר כי יש הבדל מובהק בין המודל הכולל את המשתנים המסבירים והמודל הבסיסי שאינו כולל משתנים מסבירים. עם זאת, אנו רואים כי המקדם של משתנה המין שונה מ-0 באופן מובהק סטטיסטית, אך המקדם של משתנה הגיל אינו שונה מאפס באופן מובהק.

מודל הסיכונים הפרופורציונליים (מודל קוקס)

נבצע הרצה של המודל עם משתנה מסביר אחד - משתנה המין: תבנית:Ltr בתחתית הפלט יש מספר מבחנים לבדיקת טיב ההתאמה של המודל לנתונים בהשוואה למודל ללא משתנים מסבירים: מבחן התאימות (Concordance), מבחן יחס הנראות, מבחן ואלד ומבחן לוג הדרגות. בכל המבחנים התקבלו תוצאות מובהקות (ברמת מובהקות של α=0.05). כן נתון ערך המתאם R2 והוא שווה ל-0.046. ערך זה נמוך למדי, ורומז על כך שייתכן כי ישנם עוד משתנים מסבירים היכולים להסביר את השונות בין זמני ההישרדות. ערכו של מקדם משנה המין הוא 0.531-, וערך זה מובהק סטטיסטית ברמת מובהקות של α=0.05. מאחר שגברים מקודדים בקובץ הנתונים על ידי המספר 1 ונשים על ידי המספר 2, נובע כי כשאר ערך המין משתנה מ-1 ל-2, כלומר כאשר הסיכון מחושב עבור אישה ולא עבור גבר, הסיכון הכללי קטן. כאשר מפעילים את הפונקציה המעריכית על מקדם זה, אנו מקבלים כי יחס הסיכונים הוא 0.588. פירוש הדבר הוא כי הסיכון למוות של נשים נמוך בג-40% מזה של הגברים בכל נקודת זמן. רווח סמך ברמת סמך של 95% ליחס הסיכונים הוא (0.4237-0.0816) ואינו מכיל בתוכו את 1, וזה מתיישב עם הערך המובהק של מקדם הגיל ברגרסיה.

ניתן להפיק גרף של פונקציות ההישרדות שנאמדו על ידי המודל בעזרת הפקודות הבאות ב-R: תבנית:Ltr העקומה המתקבלת היא:

שוב ניתן לראות כי ערכי פונקציית ההשרדות של הנשים גבוהים מאלה של הגברים. החל מנקודה מסוימת שתי העקומות מקבילות זו לזו, וזאת כתוצאה של הנחת הסיכונים הפרופורציונליים.

לקריאה נוספת

תבנית:Ltr

קישורים חיצוניים

תבנית:ויקישיתוף בשורה תבנית:Ltr

הערות שוליים

תבנית:הערות שוליים

תבנית:בקרת זהויות