אבודים בסטטיסטיקה של הקורונה? מדריך
מתי עלייה אינה בהכרח חדשות רעות? מה הנתונים החשובים להשוואה? ואיזו בדיקה קריטית לא נעשתה? סטטיסטיקאים מבר אילן בשיעור למתחילים
ערפל אי-הוודאות ששרר עם פרוץ מגפת הקורונה הופך ככל שחולף הזמן והנתונים מצטברים, לסבך מבלבל של טענות מורכבות. כל מי שמניח ידיו על טורי מספרים (למשל מכאן או מכאן) ומסוגל להפעיל תוכנה מתאימה יכול ליצור כמה גרפים משכנעים, לחזות את העתיד להתרחש ולהציע נתיבים אל החזרה הנכספת לשגרה. והציבור, שלמד במהירות ובדרך הקשה מהו גידול אקספוננציאלי (מעריכי), צריך עכשיו להתמודד עם תרחישים ותחזיות סותרות: האם הסגר הכרחי, או אולי מיותר? מה מצבנו בהשוואה בינלאומית? מה אפשר ללמוד מדרום קוריאה ומשבדיה? ומתי כל זה ייגמר?
- לטורים נוספים - היכנסו לערוץ הדעות
ב-ynet
במקום להציע תשובות לשאלות האלה, נציע כמה מושכלות יסוד בסטטיסטיקה שצריכות להילקח בחשבון בעת ניתוח הנתונים והצגתם. כללים אלו יסייעו לכם ולכן להבחין בין תחזיות המבוססות על ניתוח רציני לבין להטוטי מספרים בעלמא.
1. דעו מה אתם סופרים. הנתון הנפוץ ביותר בדיווחים החדשותיים ובניתוחים המבוססים עליהם (לרבות כאלה של חוקרים בכירים) הוא "מספר החולים" במדינה פלונית. אלא שבשל מגבלות הבדיקה, המספר הזה, שכל כך הרבה תלוי בו, אינו ידוע. אנו יודעים את מספר החולים *המאומתים*, אלה שנבדקו או שהגיעו לבתי החולים. ייתכן שמספר החולים בפועל עולה על המספר הזה פי כמה וכמה. למשל, שיעור המתים באיטליה מכלל החולים המאומתים הוא 13% בערך. אבל אף אחד לא סבור שאחוז התמותה מקורונה גבוה כל כך, גם לא באיטליה. הסיבה היא שחלק מהחולים מעדיפים לא להיבדק, או שאין מספיק בדיקות עבורם.
2. נתונים יחסיים ולא מוחלטים. התקשורת רגילה להציג את האירועים דרך הדרמה האישית וסיפורו המעניין של הפרט. אבל כדי להבין תופעה מתפתחת, יש לטפל בה בכלים יחסיים. תוספת של 500 חולים היא דרמטית כשמספר החולים נאמד במאות, ומינורית כשהוא נאמד בעשרות אלפים. גידול – נכון להציג באחוזים, ולא במספרים מוחלטים.
3. להשוות בין שווים. מספר החולים המאומתים באשקלון שווה לזה של אלעד, אבל מצבה של אלעד חמור יותר משום שמספר התושבים באשקלון גדול פי שלושה. בעובדה שירושלים מובילה במספר החולים המאומתים אין שום רבותא: יש בה כפליים תושבים מבכל עיר אחרת. טבלאות השוואתיות צריכות להציג את מספר החולים ל-100 אלף איש. טבלה כזו תראה, למשל, שבלגיה היא המובילה במספר המתים היחסי, ומצבה מבחינה זו חמור משל איטליה. מאידך, יש להביא בחשבון גם את העובדה שלכל מדינה כללים משלה לגבי סיווג סיבות המוות, וזה מסבך השוואות בינלאומיות.
4. לחשב יחסים רלוונטיים. מדווחים לנו על היחס בין מספר החולים שהתגלו היום לבין מספר הבדיקות שנערכו, אבל אלו מספרים שאין ביניהם שום קשר. זאת משום שתוצאות הבדיקה מגיעות לאחר 4-3 ימים, ולפעמים יותר. הנתון המשמעותי הוא אחוז החולים שהתגלו מכלל הבדיקות שנערכו ביום מסוים, בלי קשר לשאלה באיזה יום התקבלה תשובת המעבדה.
5. גידול מציגים על ציר לוגריתמי. אחת השאלות הקריטיות היא אם מספר החולים או המתים גדל עדיין בקצב מעריכי, כלומר, אם מספר זה מוכפל מדי יום בגורם קבוע. אם כך, הדרך הטובה ביותר להציג את הנתונים היא על ציר המתאר את הלוגריתם של מספר החולים במקום את המספר עצמו. בעוד שבגרף רגיל עלייה ביחידה אחת פירושה תוספת קבועה, בגרף לוגריתמי עליה ביחידה אחת משמעה הכפלה בגורם קבוע. כך, גידול מעריכי של הנתונים יבוא לידי ביטוי בקו ישר, ואילו עליה מתונה יותר תלך ותשתפע כלפי האופק.
6. דגימה מוטית היא רעה חולה. הדבר היחיד הגרוע יותר מהיעדר מידע הוא מידע מוטעה. כוחה של סטטיסטיקה הוא להסיק מסקנות על האוכלוסייה מתוך נתונים על קבוצה קטנה (הקרויה "מדגם"). ההיסק נכשל לחלוטין אם הקבוצה שנדגמה היא בעלת תכונות מיוחדות, שאינן אופייניות לכלל האוכלוסייה. ב-2 באפריל העריך מנכ"ל מכבי שירותי בריאות באוזני ועדת הכנסת כי "38% מתושבי בני ברק חולים, שזה 75 אלף איש". ההערכה המופרכת הזו, שהתבססה על אחוז החולים מבין בעלי סימפטומים שבאו להיבדק (!), צוטטה אחר כך על ידי חברי כנסת ומקבלי החלטות. שיעור החולים המאומתים בבני ברק אכן גבוה, אבל שבועיים אחרי ההערכה המבהילה הזו הוא כ-1% בלבד.
7. מגמה ולא פרטים. מספר החולים החדשים או המתים ביום מסוים תלוי בגורמים מקומיים ואקראיים, ולכן נכון להתבונן במגמת הגידול הממוצע לאורך כמה ימים. אין טעם לדאוג משום שביום מסוים התגלו חולים רבים, או לחוש הקלה מכך שמספר החולים במצב קשה נשאר יציב, במיוחד אם הדבר נבע מכך שמספר חולים במצב קשה נפטרו (כפי שקרה למשל ביום רביעי האחרון).
יש הטוענים שמספר נשאי הקורונה בישראל מגיע לכדי מאות אלפים. בדיקה מדגמית תוכל לאשר או להכחיש אפשרות כזו ברמת ודאות גבוהה. מצער שיוזמות לבצע בדיקה כזו (בסופרמרקטים, או בערים שונות) לא יצאו בינתיים לפועל. המידע על האוכלוסייה הכללית, שטרם נבדקה, נחוץ לנו ביותר, ודגימה אקראית היא אחת הדרכים הטובות ביותר להשיג אותו. בשימוש נכון, סטטיסטיקה היא כלי עבודה אפקטיבי. עלינו להשתמש בו בתבונה.
- פרופ' עוזי וישנה ופרופ' נתן קלר הם חברי סגל במחלקה למתמטיקה באוניברסיטת בר אילן
מעוניינים להציע טור לערוץ הדעות של ynet? שלחו לנו ynetopinion@gmail.com
פרופ' נתן קלר ופרופ' עוזי וישנה
מומלצים