הכומר והבינה ההסתברותית
בשנים האחרונות עולה הפופולריות של השיטה הבייסיאנית, שממציאה היה הכומר תומס בייס, וקבוצות מחקר כמו DAGS מספקות תרומות תיאורטיות ומעשיות ליכולתנו להשתמש בשיטה זו כדי להסיק מסקנות אמינות מתוך שילוב של מידע שאמינותו מוטלת בספק. בצורה אירונית, נראה כי חלק ניכר מתרומתה של נוסחה זו נובע דוקא מתוך הצורה שבה היא נוגדת, ולכן עשויה להשלים, את אופן החשיבה האנושי
לפני יותר שנים משאני מוכן להודות, התחלתי בפרוייקט הבינה המלאכותית הראשון שלי. הפרופסור שהינחה אותי חזר והזכיר את שיטת בייס כבסיס אפשרי לפרוייקט. בסוף השיחה ביקשתי לקרוא את המאמר המקורי המתאר שיטה זו, והפרופסור הביט בי מופתע: "לא ידעתי שאתה קורא לטינית".
אמנם המאמר נכתב באנגלית, אך תמיהתו היתה מוצדקת: לא העליתי בדעתי כי שיטות חדשניות בבינה מלאכותית עשויות להישען על משפט ההסתברות המותנה שגילה הכומר האנגלי תומס בייס (Bayes) ושפורסם בשנת 1763, לאחר מותו. גם כיום, מספקות תוכנות בינה מלאכותית המבוססות על סטטיסטיקה בייסיאנית (Bayesian) תוצאות מרשימות בתחומים כמו תרגום, חיפוש במאגרי מידע, ניווט רובוטי, זיהוי דואר - זבל ואפילו ריפוי גֶני.
תומס בייס (1702-1761) נולד בלונדון, כבנו של אחד הכמרים הנון-קונפורמיסטיים הראשונים באנגליה (הנון-קונפורמיסטים סירבו לקבל תכתיבים אנגליקניים מסויימים – מנהגי תפילה, למשל). ב-1742 נבחר בייס כחבר של האגודה המלכותית של לונדון (האגודה המדעית האנגלית). היסטוריונים תהו מדוע קיבל בייס מינוי מכובד זה, בעוד ששמו לא היה ידוע באותו זמן בחוגי המדע.
ההשערה המקובלת מקשרת את המינוי לספר שפירסם אנונימית, למרות שהקהילה המדעית ידעה את זהותו. בספר זה הגן על החשבון האינפיניטסימלי, שפותח על ידי אייזיק ניוטון וגוטפריד לייבניץ, מפני הביקורת החריפה של הבישופ ג'ורג' ברקלי. ברקלי הצביע על בעיות בבסיסה של המתמטיקה החדשה.
במיוחד הצביע על הכנסת גודל קטן לנוסחאות, וחישוב תוצאת הנוסחאות כאשר ערכו "שואף לאפס" – מה שנראה לברקלי כ"טריק" חסר הצדקה. בכך לקח בייס חלק בוויכוח שהשפיע רבות על התפתחות המתמטיקה והפילוסופיה. יש להניח כי הוא ובני דורו היו רואים בכך את עיקר תרומתו, ולא היו חוזים כי שמו ישתמר דווקא דרך עבודתו בתורת ההסתברות, שזכתה במשך זמן רב רק להתייחסות מועטה.
נוסחה פשוטה בעלת תוצאות מפתיעות
כנהוג בתחילת דרכה של המתמטיקה של ההסתברויות, גם בייס הגיע לתחום מתוך עיסוק בשאלות הנוגעות למשחקים שבהם יש גם אלמנט של מזל, כמו משחקי קלפים. את המשפט המפורסם שלו הוא ניסח עבור הסיכויים של כדור ביליארד להגיע למקום מסויים בשולחן, אך בראייה מודרנית נוח יותר להציג את משפט בייס כעוסק בהסתברות הפוכה. לדוגמה: נניח שמתגלה בניסוי כי בדיקה שתוכננה לגלות מחלה מסוימת נותנת לגבי אדם חולה תוצאה חיובית ב-99% מהמקרים, ולגבי אדם בריא תתקבל תוצאה חיובית (כלומר הוא מאובחן בטעות כחולה) ב-1% מהמקרים.
שאלת ההסתברות ההפוכה היא זו: אם בדיקה זו נתנה תוצאה חיובית עבור אדם כלשהו, מהי ההסתברות שאדם זה אכן חולה? קל לדמיין מצבים שבהם נתון כיוון אחד, כמו כאן – מידיעה על מצב החולה אל הסתברות של תוצאת הבדיקה, אך הרופא זקוק לכיוון ההפוך – מתוצאת בדיקה ידועה אל הסתברות האבחנה.
הבדיקה שתיארנו כאן נראית אמינה להפליא: רק אחוז אחד של טעויות מכל סוג. לכן הנטייה הטבעית היא להניח כי תוצאה חיובית מצביעה בהסתברות גבוהה על קיום המחלה. בייס הוכיח כי לצורך חישוב ההסתברות ההפוכה נדרש נתון נוסף. בדוגמה זו, הנתון החסר הוא שכיחות המחלה באוכלוסייה. אם נניח כי אחד מכל אלף איש חולה במחלה זו, אז התוצאה המפתיעה שנותן משפט בייס היא כי רק כ- 9% מהאנשים שתוצאות בדיקתם חיובית הם אכן חולים.
משפט בייס עצמו פשוט למדי, וניתן להסביר תוצאה זו גם ללא שימוש בנוסחאות: ניקח דגימה מקרית של 100,000 איש. מתוכם כמאה (אחד מאלף) הם חולים, ועבור כ-99 מהם נקבל תוצאה חיובית. עבור 99,900 האחרים, שכולם בריאים, נקבל תוצאה חיובית באחוז אחד של המקרים, כלומר בכ- 999 מקרים. בסך הכל, קבוצת האנשים בעלי תוצאות חיוביות היא בגודל צפוי של 99+999=1098, אך רק חלק קטן מתוכה – 99 אנשים – יהיו באמת חולים!
כפי שהראו עמוס טברסקי ודניאל כהנמן בסדרת מחקרים רבת-השפעה, בני אדם מתקשים מאוד בהסקת מסקנות בצורה זו; בניסוחם – כולנו נוטים ל"חוסר התחשבות בשיעור הבסיס", כלומר בשכיחות התופעה באוכלוסייה. בדוגמה שהבאנו, בעיה כללית זו מסתבכת אפילו יותר מכיוון שאנו נוטים להניח – בלי שהדבר נאמר בסיפור – כי הרופא ביקש את ביצוע הבדיקה מכיוון שכבר היתה לו סיבה לחשוד בקיום המחלה.
אם כך, לא יהיה זה נכון לשאול מה שכיחות המחלה באוכלוסיה הכללית, אלא מהי שכיחות המחלה אצל אנשים שעבורם קיימות עדויות אחרות הרומזות לאבחנה זו. עדויות אלה גם הן הסתברותיות, ויש לשלב אותן בנתונים שכבר הוצגו. הדרך הנכונה לשילוב זה מוכתבת על ידי משפט בייס.
בינה מלאכותית לאבחון
תחומים רבים בחיינו דורשים הערכה הסתברותית, או "הימור מושכל", מכיוון שעובדות וקשרים סיבתיים רבים מאד אינם ידועים בוודאות גבוהה. כפי שהדוגמה מראה, אחד התחומים שבהם נעשה המאמץ הגדול ביותר לכימות הערכות כאלו הוא הרפואה. אחד מציוני הדרך החשובים בתחילת דרכה של הבינה המלאכותית היה פיתוחה של תוכנת MYCIN. תוכנה זו היתה "מערכת מומחה" לתמיכת החלטה שפותחה בתחילת שנות השבעים על ידי צוות בראשות אדוארד שורטליף (Shortliffe) מאוניברסיטת סטנפורד בקליפורניה.
מטרתה היתה לאבחן זיהומים ולהמליץ על טיפול אנטיביוטי מתאים. MYCIN לא רק דירגה את האבחנות השונות לפי רמת התאמתן לתוצאות הבדיקות שכבר בוצעו, אלא גם הציעה בדיקות נוספות כאלה שבהתאם לתוצאותיהן נוכל להעלות את בטחוננו באבחנות אפשריות מסויימות ולהוריד את בטחוננו באחרות, במטרה להגיע לאבחנה אחת שתוצאות הבדיקות תומכות בה בבירור.
צוות המתכננים של MYCIN לא השתמש בהסתברויות במובנן המתמטי, ולא במשפט בייס, אלא ב"מקדמי ביטחון" (certainty factors) שמטרתם היה להוות מודל מספרי לרמת הביטחון שבה התוכנה "מאמינה" בהשערה מסויימת. מחקרים מאוחרים יותר הראו כי בשיטת מקדמי הביטחון יש בעיות מתמטיות היכולות להוביל להסקות לא-נכונות. לפיכך, סטטיסטיקה בייסיאנית אומצה, כתחליף למקדמי הביטחון, באופן נרחב בכלי בינה מלאכותית להסקה ולסיווג הסתברותיים.
גם לסטטיסטיקה זו יש חסרונות, הנובעים לא מטעויות מתמטיות אלא מהנחות פשטניות שאינן תואמות מקרים אמיתיים רבים. כדי לתקן חסרונות אלה הופיעו גם גישות מתחרות, כמו "פונקציות האמונה" של דמפסטר ושייפר (Dempster-Shafer belief functions) ורשתות הסקה הסתברותיות, שאת יסודותיהן הניח יהודה פרל, פרופסור למדעי המחשב באוניברסיטת לוס אנג'לס (UCLA) ואביו של העיתונאי יהודה פרל שנרצח בפקיסטן בפברואר 2002. כלים אלה עשויים להיות מדוייקים יותר מסטטיסטיקה בייסיאנית, אך הם מסובכים הרבה יותר ליישום ודורשים חישובים כבדים.
סטטיסטיקה גנטית
אחת מהקבוצות הפעילות כיום בתחום ההסקה הבייסיאנית היא קבוצת DAGS באוניברסיטת סטנפורד, בראשות פרופ' דפנה קולר (Koller), ילידת ירושלים. בין נושאי המחקר של קבוצה זו בולט גילוי אינטראקציות חבויות ביו גנים וחלבונים בתהליכי ויסות גנטית. בתהליכים כאלה, רמת הייצור של חלבון על ידי הגן המקוֹדד אותו חלבון מושפעת מפעילות חלבונים אחרים, שייצורם מקוּדד על ידי גנים נוספים. פיענוח רשתות ההשפעה הסבוכות השולטות בתהליכים אלה חיוני להבנת המנגנונים הביולוגיים בתיפקוד תקין ובזמן מחלה, ולפיתוח טיפולים חדשניים.
בשנים האחרונות הופיעו שיטות ביו-רפואיות לאיסוף כמות מאסיבית של מידע על פעילות גנטית – למשל, בעזרת מיקרו-מערכים של דנ"א (DNA microarrays). תבניות כאלו מעידות על שייכות קבוצת גנים לתהליך מסויים, ומאפשרות להבין את התהליך ולפתח שיטות להתערב בו (למשל – לחיזוקו או עצירתו).
הנפח הגדול של המידע המתקבל מאיסוף כזה מקשה מאוד על גילוי תבניות פעילות משותפת. קבוצת DAGS הרחיבה שיטות בייסיאניות כדי לדלות מתוך ים המידע את הקשרים בין פעילותם של גנים שונים. שיטות אלו הניבו זיהוי מהיר ויעיל של מנגנונים שכבר פוענחו בעבר במאמץ גדול בהרבה, והצביעו על קשרים שלא היו ידועים לפני כן. השיטות שפיתחה הקבוצה כבר אומצו במקומות ובפרוייקטים נוספים, וכחמישה מבוגריה מועסקים כיום באתר החיפוש google, כנראה בפיתוח יכולות הסקה וניתוח מתקדמות על פני המאגר העצום של מידע הנאסף מתוך רשת האינטרנט.
זיהוי טקסטים
כבר עכשיו, אחת מכל שתי הודעות דואר אלקטרוני היא "דואר זבל" (הידוע בכינויו האנגלי spam), שלא ביקשנו ושאינו מעניין אותנו, ולפעמים אף פוגע בנו. מקובל להניח כי אחוז זה צפוי לגדול בחודשים הקרובים. אם נכפיל חמש דקות ביום המוקדשות למחיקת דואר כזה במאות מיליוני משתמשים, נקבל אלפי שנות אדם מבוזבזות בכל יום – המחיר הכלכלי של הקלות הבלתי-נסבלת של התנחלות המפרסמים הלא-מוזמנים בתיבות הדואר של כל אחד מאיתנו.
מעמסה מטרידה זו יצרה הזדמנות עסקית למפתחי תוכנה: אירגונים ואנשים פרטיים רבים ישמחו לשלם על כלי אוטומטי שיכול לקרוא את הדואר לפני שהוא מגיע אליהם, ולמחוק (או להעביר לתיקייה שרק לעיתים רחוקות אפתח) את הדואר המיותר. שני מדדים חשובים להצלחת סיווג כזה הם אחוז הזיהויים החיוביים השגויים – דואר לגיטימי שזוהה בטעות כדואר זבל; ואחוז הזיהויים השליליים השגויים – דואר זבל שהצליח לחמוק דרך המסננת.
רבות מהתוכנות שפותחו למטרה זו משתמשות במסננים בייסיאניים כחלק חשוב מתהליכיהן, יחד עם טכניקות מניעה וסינון נוספות. הרעיון היסודי, שאחד מממציאיו הוא פול גרהם, הוא סריקת מאגרים של פריטי דואר אלקטרוני שכבר זוהו על ידי משתמשים אנושיים כדואר לגיטימי או דואר-זבל. הסריקה מחפשת מילים ששכיחותן שונה בין שני המאגרים. למשל, "מימון-מחדש" (refinancing) עשויה להופיע, נאמר, ב- 5% מהדואר הלא-רצוי ורק ב- 0.5% מהדואר הרצוי.
ייתכנו כמובן גם מילים ששכיחותן גבוהה יותר בדואר הרצוי מאשר בדואר הזבל. נתונים אלה אינם מספיקים בפני עצמם – 95% מדואר הזבל לא יזוהה כי אינו מכיל מילה זו, ואנשים רבים לא יהיו מוכנים לאבד מכתב אחד מתוך כל מאתים (0.5%) בגלל זיהוי חיובי מוטעה. כדי לקבל החלטה יותר אמינה, יש להצליב מידע המתקבל מנוכחותן של מילים רבות בפריט הדואר החשוד. הנוסחה הנדרשת להצלבה זו היא בדיוק זו שמצא בייס לפני כ- 240 שנה.
התוצאות של ניתוח אוטומטי כזה יכולות להיות מפתיעות: גרהם מצא כי קיום המילה "רפובליקה" בדואר שהוא מקבל הוא הוכחה כמעט ודאית לכך שזהו "זבל". זוהי תוצאה של גל הונאות המציעות עסקים עם פקידים מושחתים (הקיימים רק בדמיונו של ה"זבלן") מהרפובליקה של ניגריה. במבט ראשון נראה כי הודעות רבות של דיפלומטים, או של פילוסופים העוסקים בספרו של אפלטון "הרפובליקה", עשויות לאבוד עקב זיהוי שגוי כזה.
אופייניות לדואר הלגיטימי של אותם אנשים יהיו נדירות בדואר זבל, ונוסחת בייס תוריד בהתאם את החשד שתייחס לטקסט לגיטימי. אם "הזבלנים" יתחילו להשתמש באותן מילים כדי להערים על הסינון, הלמידה הבייסיאנית תגלה זאת ותפסיק להשתמש בנוכחותן של המילים כאינדיקציה לתקינות הדואר.
מובן שסיווג דואר אינו חייב להיות מוגבל להחלטה אם הוא "זבל". מייקרוסופט, וחברות אחרות, מפתחות כלים שיסווגו אוטומטית את הדואר הנכנס לנושאים שבחר המשתמש – לדוגמה "משפחה", "עבודה", "הומור" וכו'. סיווגים אלה ישתמשו באותו רעיון – סריקת הודעות שכבר סווגו ומציאת מאפיינים המפרידים ביניהם.
סגנונות התבונה
רעיון זיהוי המילים האופייניות קדם לפיתוח המסננים הבייסיאניים, אך הצריך עבודה מפרכת וידנית של קריאת דואר זבל ושליפת מילים המזהות אותו. יתירה מזאת – ה"זבלנים" יכלו לגלות מהר איזה מילים הסגירו את יצירותיהם, ולשנות את הניסוח בצורה שתאלץ את "המגינים" להכניס מילים נוספות לרשימה.
לעומת זאת, לימוד ההסתברויות הבייסיאני אינו דורש ניתוח ידני ברמת המלה הבודדת, אלא רק דורש ממשתמשים לסמן את הודעת הדואר כרצויה או מטרידה. מכיוון ש"זבלנים" שולחים מיליוני הודעות בכל פעם, מספיק שכמה מאות משתמשים יזהו ידנית את ההודעה החדשה כפסולה כדי שאתר מרכזי יאסוף את הסטטיסטיקה ויעצור את כל שאר ההודעות.
טור זה מתמקד בבינה מלאכותית ושימושיה, ולאו דווקא בהמלצה על שיטות יעילות לעצירת דואר-זבל. למרות זאת, מעניין להזכיר הערה מאירת-עיניים של גרהם, לפיה הדרך היחידה של "זבלן" להתמודד עם מסננים כאלה תהיה לנסח את הדואר שלו בצורה הדומה מאוד – לפחות מבחינת שכיחות המילים – לדואר לגיטימי. דבר זה הוא אפשרי, כמובן, אך מטרתו של הטרדן היא לגרום לקורא לנקוט פעולה כלשהי (בדרך כלל לקנות מוצר או שירות). הגבלות הניסוח יחלישו את יכולת הטקסט להשפיע על הקורא.
האם אפשר בכלל לראות בסיווג כזה, יעיל ככל שיהיה, כמעיד על תוכנה חכמה? מבחינה מסוימת, ודאי שכן: תוכנה כזו מסווגת דואר ברמת דיוק יותר גבוהה מאשר כמעט כל אדם, וכמובן במהירות גדולה לאין-שיעור. עם זאת, מוצדקת תחושת אי-נוחות בייחוס תבונה לסדרה ארוכה ומשמימה של ספירת מילים, יחד עם הכפלת וחילוק הסתברויות.
בנוסף לכך, המסנן הבייסיאני יכול אולי לסווג דואר בדיוק רב, אך אינו יכול לכתוב את הדואר ואינו יכול להבינו; והוא נזקק לסיווג אנושי לפחות בתחילת הדרך. יש כאן דמיון לחידה הוותיקה על הדרך שבה יכול טירון בשחמט להגיע לשוויון נקודות בטורניר סימולטני מול זוג רבי-אמנים בשחמט: הפתרון הוא לשחק בכלים הלבנים נגד אחד מהם ובכלים השחורים נגד האחר, ולבצע מול כל אחד את המהלך שבן-זוגו שיחק במהלך הקודם.
כך יוכל הטירון להגיע לתיקו בשני המשחקים, או לנצח באחד ולהפסיד באחר. השוואה לא-מחמיאה זו אינה לגמרי מדוייקת: בניגוד לטירון-השחמט שאינו תורם דבר מעצמו, תוכנת הסיווג אכן תלויה בבינה אנושית אך משלימה ומרחיבה אותה לתחומים שבהם האדם מוגבל. לכן, השילוב המתקבל שונה באיכויותיו מהאיכויות שתורמים האדם והמחשב בנפרד. הגברה הדדית כזו אופיינית להשגים רבים בבינה המלאכותית. נראה כי היא אינה רק תוצאה של מגבלות נוכחיות, וכי גישות כאלו יהיו במרכז השגים רבים נוספים בעתיד.
ראינו כאן מקצת מן הנושאים המחקריים "החמים" הנעזרים בנוסחה שמתקרבת ליום הולדתה המאתים וחמישים. בשנים האחרונות עולה הפופולריות של השיטה הבייסיאנית, וקבוצות מחקר כמו DAGS מספקות תרומות תיאורטיות ומעשיות ליכולתנו להשתמש בשיטה זו כדי להסיק מסקנות אמינות מתוך שילוב של מידע שאמינותו מוטלת בספק. בצורה אירונית, נראה כי חלק ניכר מתרומתה של נוסחה זו נובע דוקא מתוך הצורה שבה היא נוגדת, ולכן עשויה להשלים, את אופן החשיבה האנושי.