"רגע לפני שהעולם נכנס לסגר כללי, בזמן שממשלות עוד ניסו להרגיע ולהגיד שהכל תחת שליטה, אצלנו ישבו 'חנונים של דאטה' והסתכלו על הנתונים ואמרו שהמצב ממש לא בסדר. שבועיים אחר-כך שלחו אותנו לעבודה מהבית ואירופה נכנסה לסגר". כך מתאר ד"ר אנטואן בורדס, מנהל מעבדת ה-AI של פייסבוק, את הימים שלפני התפרצות הקורונה - תקופה שנדמית בדיעבד הרבה יותר רחוקה מתשעה חודשים אחורה.
בריאיון מיוחד ל-ynet, מספר ד"ר בורדס על שורת המאמצים של מעבדת ה-AI של פייסבוק בהתמודדות עם משבר הקורונה העולמי, ועל התפקיד המורכב של מתמטיקה, אלגוריתמיקה ומדעי המחשב בתוך משבר עולמי. "לקראת סוף פברואר התחילה להתעורר תחושה בקרב החוקרים במעבדה שצריך לעשות משהו", הוא מספר. "זה התחיל לגמרי מלמטה - מאנשים שמרגישים שהם רוצים לעשות משהו חשוב סביב הסיפור הזה, להשמיש את הידע שלהם. וככה קבוצה של כ-60 אנשים פשוט עזבה הכל ועברה להתמקד בקורונה".
ופייסבוק איפשרה את זה?
"אחד מהערכים המובילים במעבדת ה-AI הוא חופש. אנחנו חופשיים לעסוק בכל מחקר שאנחנו רוצים - בין אם יש לו יישום עבור אחד המוצרים של פייסבוק, ובין אם לא".
במשך קצת יותר מחצי שנה, המעבדה פיתחה ארבעה שלבים של פעילות שקשורים באופן ישיר לנגיף. "בשלב הראשון עבדנו על מודלים של חיזוי התפשטות הנגיף בניו יורק ובניו ג'רזי, ברמה המחוזית. זה היה ממש עם תחילת התפרצות הנגיף, עוד לא ידענו כלום. בתוך חודש מרגע שהחלטנו שאנחנו תוקפים את הבעיה הזאת, כבר דפקתי על דלתות של אוניברסיטאות עם מודל שעובד, והן שיתפו אותו עם הרשויות. בניו יורק השתמשו במודל שלנו במהלך הסגר הראשון כדי להבין לאילו אזורים להקצות משאבים. מאוחר יותר יצרנו מודל דומה גם עבור אוניברסיטת וינה, וממשלת אוסטריה משתמשת בו עד עכשיו".
בשלב השני של הפעילות החיבור למוצרים של פייסבוק היה כבר מובהק. ברשת החברתית נתקלו בבעיה כפולה: מצד אחד - עלייה בפרסומים המכילים מידע כוזב על הנגיף המסתורי, כולל במערך הפרסום בפייסבוק שניסה להרוויח ממוצרים הקשורים לקורונה. מצד שני - העולם נכנס לסגר, ובודקי התוכן של פייסבוק נשלחו לבתים ללא יכולת לעבוד, מפני שפייסבוק לא איפשרה לגשת למידע אישי על משתמשים מחוץ למשרדים.
"פיתחנו טכנולוגיה משלנו במעבדה, וגיבשנו AI שיכול לזהות פרסומים משוכפלים או דומים, לפי מאפיינים ספציפיים. עבדנו בצמוד לצוותי המידע הכוזב בפייסבוק, כך שכל מה שתויג וקוטלג על ידם כמידע כוזב שקשור בקורונה, האלגוריתם יודע לזהות בפרסומים דומים ברחבי פלטפורמה, ולהסיר או לתייג את התוכן הזה בהתאם".
"בשום שלב לא הצהרנו שאנחנו מומחים לאפידמיולוגיה. אנחנו מתמטיקאים ומדעני מחשב, ומה שאנחנו כן יודעים זה למדל גרפים של התפשטות ולייצר תחזיות על בסיס נתונים. לכל אורך הדרך הבהרנו מה סוג ואיכות הנתונים שאנחנו משתמשים בהם, והקפדנו לעבוד בצמוד עם אפידמיולוגים כל הזמן"
נשמע כמו פרויקט שרלוונטי הרבה מעבר לטווח של קורונה עבור פייסבוק.
"הנושא הזה של תיוג פוסטים חשוב לנו בהקשרים שונים - לא רק סביב הקורונה. אבל עם הנגיף הזה, הכל באמת היה חדש, היו לנו מעט מאוד נתונים ודוגמאות. כולם חושבים מיד על אנגלית, ובכן, לסווג טקסט בשפה האנגלית זה יכול להיות מורכב, אבל לא מאוד. אבל לסווג טקסטים שקשורים לקורונה בשפת זולו - זה כבר הרבה יותר מורכב. וזה האתגר בפייסבוק, כשאנחנו עושים תיוג זה בסדר גודל של מאות שפות ומדינות. לכן הרבה מהמחקר שלנו קשור לנושא של עיבוד שפה טבעית ושל ריבוי שפות. אחד הפרויקטים שאני מאוד גאה בו הוא המודל שפיתחנו לתרגום בין שפות שונות. בדרך כלל כשנותנים ל-AI לעשות תרגום אוטומטי נניח מצרפתית ליוונית, הוא מעביר מצרפתית לאנגלית, ואז מאנגלית ליוונית. אצלנו המודל עובר בין השפות מבלי התיווך של אנגלית באמצע. הוא הרבה יותר רחב, אבל גם הרבה יותר פשוט".
ואיך מאמנים מודלים על תחום חדש שאין בו כמעט נתונים?
"זה באמת היה מאתגר מאוד בשביל כולם. לחוקרים לוקח קצת יותר זמן לעבוד, זה נכון לגבי החיסונים כמו שזה נכון לגבינו ולגבי המודלים שפיתחנו. הגענו לכל הסיפור הזה מתוך גישה של הרבה מאוד ענווה. בשום שלב לא הצהרנו שאנחנו מומחים לאפידמיולוגיה. אנחנו מתמטיקאים ומדעני מחשב, ומה שאנחנו כן יודעים זה למדל גרפים של התפשטות ולייצר תחזיות על בסיס נתונים. לכל אורך הדרך הבהרנו מה סוג ואיכות הנתונים שאנחנו משתמשים בהם, והקפדנו לעבוד בצמוד עם אפידמיולוגים כל הזמן. אחד החוקרים הבכירים שלנו היה אומר לך 'אני לא מפרסם שום מאמר עד שאין לי שיתוף פעולה עם אפידמיולוגים שיתנו לו תוקף', וזה באמת מה שעשינו".
הזכרת את הנתונים. באיזה סוג של דאטה השתמשתם? מידע על משתמשי פייסבוק?
"אין שום מידע אישי של משתמשים שנכנס לתוך הדבר הזה. כל המחקר שלנו מבוסס על דאטה פומבי, בהתחלה זה היה רק סביב מספרי המקרים שהתגלו, שפורסמו על ידי הרשויות. בהמשך נוספו גם מפות תנועה אנונימיות - שהן גם מידע פומבי, וגם סקרי סימפטומים שנוהלו על ידי אוניברסיטאות ומכוני מחקר, ופורסמו למשתמשים בפלטפורמה של פייסבוק. זו אגב הסיבה שהיה הרבה יותר קל ליצור מודלים של חיזוי בארה"ב מאשר באירופה, כי הסטים של המידע באירופה מגיעים בצורה לא אחידה".
בשלבים הבאים, נבנה מודל AI שמזהה פרסומים בפייסבוק שרלוונטיים לקורונה, או כאלה המבקשים סיוע - ואלה רוכזו במרכז המידע הייעודי של פייסבוק עבור הנגיף. מרכז המידע מכיל פרסומים רשמיים של רשויות שונות, ארגוני בריאות וכדומה. בנוסף נוצר שיתוף פעולה עם UPC בקטלוניה, במטרה לשתף במודלים של חיזוי התפרצות הנגיף בספרד וגם באיטליה בהמשך. המודלים האלה מבוססים על חיזוי בחלוקה למחוזות, והוא כבר פועל ברחבי ארה"ב.
בכל תחום יש פערים בין חזית המחקר לבין המציאות בשטח. עד כמה הצלחתם לגשר עליהם?
"חלק מרכזי מהתפקיד שלי, לפחות בשלבים הראשונים אחרי שהבנו מה פחות או יותר אנחנו מנסים לעשות, היה ללכת ולדפוק על דלתות. להגיד הנה מה שאנחנו עושים, קחו את זה. אז באמת הצלחנו בניו יורק ובניו ג'רזי בתיווך של אוניברסיטאות שהעבירו את מה שעשינו לרשויות. עבדנו עם הרבה שותפים, ובכל שלב המטרה היא לפתוח את הקוד, לעשות אופן סורסינג להכל, לפרסם מאמרים, לתת את הידע ואת הכלים שבנינו וככה לנסות לגשר על הפער".