כתבתם בפייסבוק? סייעתם למאבק בשפעת
הפוסטים שאנו מפרסמים פייסבוק, השיחות בסלולר, ואפילו החיפושים בגוגל - הופכים למאגר מידע ענק, המהווה אוצר עצום עבור כלכלנים, חוקרי רפואה וסוציולוגים. ה-Big Data הזה יכול לספק תשובות לשאלות שמעולם לא פתרנו
מכירים פוסטים שטותיים בפייסבוק? הנה כמה שבהם נתקלתי השבוע: "יושב בקפה נונה ואוכל קרואסון". "עצירות כבר שלושה ימים". "מאושר היום".
לטורים נוספים אושי שהם-קראוס
מיותר לגמרי? משעמם? אולי, אבל מסתבר שבמבט מלמעלה; מנקודת מבט חברתית, הפוסטים האלה משמעותיים מאוד ואולי גם מסוכנים מאוד. מסתבר שאם מנתחים מליארדי פוסטים כאלה אפשר ללמוד לא מעט על הכלכלה, החברה, מזג האוויר ואפילו על מגפות.
הנה דוגמא. לפני כשלוש שנים נערך ניסוי מרתק במעבדות המחקר של IBM, החוקרים סרקו מליוני פוסטים בפייסבוק. הם חיפשו שיחות על שפעת.
ולמה זה חשוב כל כך? ובכן, הנתונים האלה הוצלבו עם נתונים אחרים - מקצועיים יותר - למשל עם מודלים של התפשטות מגפות על פי מיקום גאוגרפי, סטטיסטיקות של הדבקה ועוד. כל אלה אפשרו לחוקרי IBM לבנות מודל סטטיסטי לניבוי התפשטות השפעת בעונה מסויימת. כשגרף הנתונים האלה הושווה לנתוני אמת שנלקחו מהמרכז הפדרלי לבקרת מחלות, נתגלתה התאמה מפתיעה.
איפה ג'ורג'
עוד אחד מהנסיונות הראשוניים לשימוש רפואי במאגרי מידע דיגיטליים קשור לאתר בשם "איפה ג'ורג'" (על שם ג'ורג' וושינגטון שדמותו מופיעה על שטר של דולר אחד). Where's George הוא אתר שנוצר למטרות שעשוע קהילתי ומנסה לעקוב אחרי מסלולי ההתגלגלות של שטרות דולר. מאז הקמת האתר ב-1998 ועד ימינו נרשמו באתר מעל 250 מליון שטרות.
וככה זה פועל: אם בא לי להשתתף במשחק הזה אני מכניס את המספר הסידרתי שעל שטר שלי לאתר וכן את קוד המיקוד שלי ומחכה לראות מתי השטר ירשם שוב באתר במקום אחר.
והנה, גם במשחק כזה אפשר לעשות שימוש מדעי. פיזיקאי תיאורטי בשם דירק ברוקמן (Dirk Brockmann) השתמש במודלים שמתארים את התגלגלות שטרות, והסיק מהם מסלולי מסעות של יחידים ברחבי ארצות הברית. מתוך המבנים האלה הוא הצליח להעריך בהצלחה ניכרת את כיוון התפשטות הגאוגרפית של וירוס השפעת H1N1 ב-2009.
גם גוגל נרתם להצלת העולם
בימינו, קשה לתפקד בעולם העבודה והלימוד, ובכלל בחיים, בלי לחפש מידע בגוגל. וכך, גם החיפושים שאני מבצע נשמרים במאגרי הזכרון של חברת גוגל ויכולים לשמש אותה.
הנה שימוש מעניין שנעשה בנתוני גוגל. אחת מהבעיות שאיתם מתמודדת תעשיית התרופות הוא הנסיון להבין כיצד צירוף סוגי תרופות שונים יכול לסכן את המשתמש. נניח שאני זקוק לתרופה א' באופן קבוע וגם לתרופה ב'. יתכן שכל אחת מהן משרתת אותי טוב, אבל הצירוף של שתיהן עלול לסכן אותי.
בדרך כלל יודעים על צירופים כאלה, אבל מה קורה עם עדיין אין מחקר? אם מדובר בתרופות חדשות יחסית? ומה קורה עם קומבינציות גדולות יותר של תרופות: למשל חמש תרופות שחולה נאלץ ליטול ביום. יש כל מני דרכים לבדוק השפעות לרעה כאלה. אבל שיטה אחת, חדשה ומיוחדת, היא להשתמש במאגר החיפושים שנעשו בגוגל.
נניח שאני רוצה לדעת אם נטילת טניטין, בניטין ולומיטין (ג'יבריש כמובן) ביחד יוצרת תופעת לוואי מסויימת, אוכל לבדוק זאת בצורה מעניינת. החוקר יוכל לבדוק (זה נעשה כבר) כמה חיפושים (בגוגל) נעשו, כאלה שכוללים את שמות שלוש התרופות האלה.
מספר חיפושים חריג ירמוז שהקומבינציה הזאת יצרה איזשהי בעיה אצל משתמשים בתרופה והם ניסו להשיג מידע על תופעות הלוואי בגוגל. יתכן שהם לא קיבלו תשובה, אבל החוקרים קיבלו קצה חוט שרומז להם שמשהו בקומבינציה הזו לא ממש תקין.
Big Data
מתברר שאנחנו עומדים בפתחו של עידן חדש בחקר העולם. מדובר בלימוד מתוך מאגר הנתונים האדיר שאנחנו מייצרים מסביבינו באופן דיגיטלי. למאגר הזה קוראים באנגלית בשם "BID DATA" ועליו נדבר בטורים הקרובים.
ה-BIG DATA הוא אוסף מאגרי נתונים אדירים שהצטברו ומצטברים בימינו. חלקם פתוחים לקהל הרחב וחלקם נאספים במאגרי חברות מסחרויות שונות, במוסדות כמו בתי חולים ובארגונים ממשלתיים כמו משרד הפנים או התחבורה למשל.
המשותף לכל הנתונים האלה הוא שהם מהווים מעין עקבות שפעולות היום יום שלנו משאירות במרחב הדיגיטלי. נתונים עלינו כאנשים פרטיים וכ"אנושות" אפשר למצוא בעשרות מאגרים. הנה רק כמה לדוגמה.
ספרי טלפונים אינטרנטיים, רישומי משטרת הגבולות (באיזה מדינה אנחנו נמצאים), רישומי התרופות שאנחנו צורכים ונתוני הכנסות במס הכנסה ומע"מ.
זו רק התחלה, נוסיף לזה רשומות של שיחות הסלולרי שלנו (איפה היה מחזיק הטלפון בזמן מסויים שבו התקשר), רישומי כרטיס אשראי (כמה כסף הוצאתי באיזה עסק, ובאיזה תאריך), נתוני הבנק, אתרי אינטרנט שאליהם נכנסתי, חיפושי גוגל שערכתי, ועוד ועוד.
אלה, במידה שהם חשופים לבעלי אינטרסים שליליים, מסכנים את הפרטיות שלנו ועלולים להזיק לנו באופנים רבים, אבל עבור מדענים כמו כלכלנים, חוקרי רפואה וסוציולוגים מדובר באוצר אדיר. זהו אוצר שלא היה זמין לאנושות מעולם. והאוצר הזה, כשמצטרפת אליו יכולת ממוחשבת לנתח נתונים ולאתר בתוכם דפוסים מעניינים, יכולה לקדם את ההבנה שלנו את עצמנו. על כך בשבוע הבא.
ד"ר אושי שהם קראוס , מומחה לפילוסופיה של הכלכלה. מעביר הרצאות וסדנאות לקהל פרטי ולחברות. מוזמנים ולהאזין לתכנית הרדיו שלי "בעקבות הזהב " המשודרת בימי רביעי ב-12:05, ברשת א' של קול ישראל.
עוד שימוש לפייסבוק: לרגל אחר החברים. צפו