אנחנו מוקפים בנתונים כל חיינו ומנתחים אותם כדי ליצור את נקודת המבט שלנו על החיים, כדי ללמוד מחוויות קודמות ולקבל החלטות עתידיות. עבורי, דאטה זה החיים והחיים הם דאטה. מדענות נתונים (Data Science) היא אמנות של הסקת מסקנות וקבלת החלטות מבוססות דאטה, תוך שימוש באלגוריתמים לומדים. מוצרים מבוססי מדע הנתונים המוכרים לכולנו מחיי היום-יום, הם למשל סירי - הסייעת הקולית, הפיד שלנו בפייסבוק, המלצות צפייה בנטפליקס או הטכנולוגיה של מובילאיי.
מדעי הנתונים דורשים ידע בסטטיסטיקה, מתמטיקה, מדעי המחשב, ולא יזיק גם ידע ספציפי לתחום. במקרה שלי - ביולוגיה ורפואה. אפשר לנתח סוגי נתונים רבים: טבלאות, טקסט, סאונד, תמונות, סרטונים, ובכל תחום בתעשייה יש שימוש במדעני נתונים - בכלכלה, ברפואה, בתעשיית הרכב, בנאס"א, בשיווק ובתקשורת. העולם הולך ואוסף כמויות דאטה ענקיות כל יום כי האיסוף והאחסון הפכו לקלים וזמינים יותר ולכן מדע הנתונים נדרש יותר ויותר.
כך זה עובד
בצורה דומה ללמידה שמתרחשת אצלנו, בני האדם, ניתן לקחת מערכת נתונים וללמד תוכנת מחשב להחליט החלטה מבוססת דוגמאות, במקום על בסיס חוקים מפורשים. לדוגמה, כדי ללמד אלגוריתם להבדיל בין כלבים לחתולים, במקום לכתוב קוד שאומר במפורש "אם החיה בתמונה קטנה מ-30 ס"מ, יש לה אוזניים מחודדות ואף קטן, מדובר בחתול", אפשר להציג לאלגוריתם לומד 10,000 תמונות של כלבים וחתולים. האלגוריתם יפרק את התמונה לפיקסלים וילמד מה מאפיין פיקסלים של תמונות של כלבים ומה מאפיין פיקסלים של תמונות של חתולים. כשנציג לו תמונות שעדיין לא ראה, הוא ישתמש במה שלמד כדי לסווג אותן בצורה נכונה.
השלב החשוב ביותר בתהליך הוא ניקוי הדאטה - בדיקה שהערכים תקינים, השלמת ערכים חסרים ועוד. אחר כך נציג את הנתונים בגרפים שונים, כדי שנוכל להבין את תמונת המצב הנוכחית. אחרי הגדרת השאלה והמחקר, ננסה לבנות מודל שיענה עליה בצורה הטובה ביותר, ויש מגוון דרכים לעשות זאת. בארגז הכלים של מדעני נתונים יש מודלים סטטיסטיים, למידת מכונה קלאסית, ולמידה עמוקה - התחום החם היום. חשוב לציין שאף שהאלגוריתמים הללו נחשבים חכמים ולומדים, לא מדובר באינטליגנציה כללית כלשהי. הם מתמחים בפעולה צרה וממוקדת מאוד, ולא מתקרבים ליכולת של המוח האנושי מבחינת גמישות מחשבה, יכולת למידה והכללה.
מדענות נתונים בימי קורונה
למדע הנתונים עשויה להיות תרומה גדולה להתמודדות עם משבר הקורונה העולמי. ככלל, ישנם שני סוגי מחקר עיקריים הרלוונטיים לנושא: מחקר אוכלוסיות על התפשטות הווירוס, המספק מבט מלמעלה על מספרים גדולים; ומחקר רפואי קלאסי בו בודקים מאפיינים של מטופלים ואת השפעת המחלה עליהם.
שאלות מסוג המחקר הראשון יהיו למשל איך הווירוס מתפשט? כמה אנשים כל חולה עשוי להדביק? מה קצב ההדבקה? לכמה תמותה גורם הווירוס? איך מגיבים אנשים לצעדי מנע שהממשלה החילה עליהם? בסוג הזה ננסה לנבא מה יקרה ברמת האוכלוסיה הכללית, על סמך נתוני אוכלוסיה מהעבר.
שאלות מסוג המחקר השני כוללות למשל מה מאפיין חולים בסיכון מוגבר למוות? האם יש משהו חריג בבדיקות של החולה לפני הידרדרות, שנוכל לנבא אותה לפני שמאוחר מדי? האם תרופה מסוימת משפרת מצב של חולה? בסוג המחקר הזה ננסה לנבא מה יקרה לחולה ספציפי, על סמך נתונים של חולים בעבר.
שני סוגי המחקרים הללו דוהרים קדימה ביתר שאת. בגוגל שחררו לציבור מפות תזוזה קהילתיות בהן השתמשו בנתוני המיקום בטלפון הנייד, כדי לקבוע כמה תזוזה ממקום למקום התקיימה במדינות שונות. הם הציגו פירוט לפי תאריך על שימוש בתחבורה ציבורית, קניות ושהות בפארקים - מידע שנותן הערכה טובה לשינוי לאורך זמן במדיניות ציבורית ומידת ההקשבה של הציבור לתקנות. מיקרוסופט הנגישו כלי מחקר לחקר טקסטואלי של עשרות אלפי מאמרים בתחום, ופייסבוק הוציאו סקרי סימפוטומים למשתמשים.
יש כמובן גם מאמצים ממוקדים יותר. אני עובדת בסטארט-אפ של מידע רפואי בשם MDClone, שבו אנחנו מנגישים את הנתונים מתיק החולה מתוך בתי החולים וקופות החולים (מהלך האשפוז, בדיקות, מחלות רקע ועוד) עבור רופאים וחוקרים, בצורה נוחה לעיבוד ולהסקת מסקנות תוך שמירה על פרטיות בעזרת דאטה סינתטי. ברגע שהמידע מסודר ומאורגן, קל לשאול שאלות, לשלוף את הנתונים הרלוונטים ולקבל תשובות. כל אלו מאפשרים להגיע לתובנות מחקריות חשובות. אם יש בדיקה שמנבאת בצורה מובהקת התדרדרות של חולה, אולי ניתן יהיה למנוע את ההידרדרות של החולה הבא.
יש עוד סוגי מחקר, כגון מחקר ביולוגי וכימי בו ממפים את המבנה התלת-מימדי של הנגיף ומחפשים חיסון באופן ממוחשב, מחקר של ראייה ממוחשבת בו מלמדים אלגוריתם לפענח סריקות CT לאבחון חולי קורונה (בזכות הממצאים הייחודיים שרואים בריאות שלהם), מחקר קשרי אדם-מכונה וניווט בתוך מבנים, לשם צמצום אינטראקציות אנושיות ושליחת רובוטים שיודעים לנווט בתוך בתי חולים להגיש אוכל ולחלק תרופות במקום לסכן צוות רפואי, או טכנולוגיה לבישה שמודדת חום וסימפטומים אחרים ומנבאת הידבקות.
איכון ומעקב
ניטור של נגיף מתפשט פירושו מלחמה באויב בלתי נראה וקטנטן, שגורם להרבה נזק. ברגע שמדובר בנגיף חדש (ממשפחה מוכרת, ועדיין, הזן הספציפי חדש), עוקבים אחריו בשבע עיניים. בגלל שיש חולים שלא יודעים שנדבקו מכיוון שבימים הראשונים למחלה הם עלולים להיות ללא סימפטומים ולהמשיך להסתובב ולהדביק, יש ממשלות שבחרו לאכן מיקומים של כולם וכך רטרואקטיבית לדעת את המסלול שעשה החולה, ולבודד כל מי שנקלע לדרכו.
הבילוש הזה אחר מסלול החולה נקרא איתור מגעים, Contact Tracing, שיטה שהוכחה כיעילה מאוד בהורדת שיעורי הדבקה באוכלוסיה. צריך לאסוף גם נתונים בזמן אמת מהמעבדות השונות ומבתי החולים באשר למצב החולים. צריך להסתכל ברמה נקודתית על ערים מסוימות, לזהות התפרצויות לפני שהן קורות.
אפשר להסתכל גם על סך כל מקרי המוות, אך זה נתון מתעתע שיכול לשקף מצד אחד כמה מתו מהנגיף ולא הגיעו לבית החולים, ומצד שני גם מוות מסיבות שנובעות מהטלת סגר, כמו מחלות לא מטופלות מחשש להגעה לבתי-חולים, אלימות במשפחה, אובדנות ועוד.
איסוף מידע הנוגע למיקום, כמו גם איסוף נתונים רפואיים רגישים - סובלים מבעיה של פרטיות. אפילו אם הדאטה אנונימי, כלומר הוסרו ממנו שמות ומספרי תעודות זהות, זה לא מספיק כי ניתן לזהות אדם על פי שילוב של מאפיינים שונים שייחודי רק לו, כמו תאריך לידה, מיקוד ומספר ילדים לדוגמה. אחת הדרכים לפתרון הבעיה הזו, היא יצירת דאטה סינתטי, שמאפשר שמירה על פרטיות החולים. מדובר בתהליך מורכב, שרק חברות מעטות יודעות לעשות.
אתגר נוסף של מדעני נתונים, מצוי בעובדה שמרבית המידע הרפואי בתיק החולה לא מוזן בצורה טבלאית, אלא מתועד בטקסט חופשי. קשה גם להשוות בין מדינות, שכן בכל מדינה קיימת מדיניות בדיקה שונה ומדיניות דיווח על מקרי מוות שונה. אם למשל באנגליה לא מדווחים על מקרי מוות בבתי-אבות, זה יקשה עלינו לקבל את התמונה המלאה.
האם הפתרון יימצא בנתונים?
העובדה שמדובר בנגיף מזן חדש, אומרת שעוד אין מספיק נתונים לגביו. הנתונים שיש שונים במהותם ובדרכי האיסוף שלהם בין מדינות ובין בתי חולים, ולכן קשה לאגד אותם ביחד לקבלת מסקנות. יש פריצות דרך רבות בתחום אבל בגלל שהוא חדש, הוא עלול להיתקל בחומות רגולטוריות רבות לפני הכנסה של הטכנולוגיה לשימוש. יש גם חשש טבעי וחשדנות מצידנו כבני אדם, להסתמך על מערכות לומדות בנושא כל כך רגיש כמו רפואה וחיי אדם, ולכן יש צורך בתיקוף מתמיד של המודלים הללו.
בנוסף, אלגוריתמים רגישים להטיות מסוימות. דוגמה מפורסמת אחת עוסקת באלגוריתם שלמד לסווג תמונות של שומות בעור לממאירות או שפירות. הוא הגיע לתוצאות מאוד מרשימות, אבל בסוף התברר שיש לו הטיה בעייתית – אם היה סימון של עט סגול או סרגל בתמונה, הוא היה קובע שהשומה סרטנית. התברר שמראש, אם רופא העור חשד שהשומה סרטנית, הוא היה מסמן אותה או מצלם אתה עם סרגל, והאלגוריתם למד להתייחס בעיקר לזה, ופחות למאפייני השומה.
קשה להסיק מסקנות על בסיס מעט דאטה. "כל המודלים שגויים, אבל חלק מהם שימושיים", זו אמרה מוכרת בסטטיסטיקה. המודלים שלנו מבוססי הנחות, ולא תמיד ההנחות מתקיימות. אנחנו מנסים להכניס את טווח השגיאה גם למודל, אבל לא תמיד מצליחים למדל את המציאות. אלגוריתם הוא טוב ככל שהדאטה עליו התאמן הוא טוב. יש תלות בכל כך הרבה משתנים, חלקם גלויים ונגישים לנו, חלקם ידועים אבל לא ניתנים למדידה, וחלקם נסתרים וסמויים ולא נדע עליהם לעולם. למרות כל האתגרים הללו יש התפתחות אדירה ובחודשיים האחרונים למדנו המון על הנגיף ועל התנהגות המחלה.
רות השקס היא ביולוגית ומדענית נתונים בחברת MDClone