הומור הוא דבר סובייקטיבי. לא כל בדיחה שתצחיק אתכם תצחיק בהכרח גם את בן/בת הזוג שלכם או את ההורים שלכם, שלא לדבר על אדם זר לחלוטין שחי בצד השני של העולם. הומור הוא תלוי הקשר, מיקום, תרבות וגיל. זאת הסיבה לכך שלמרות ההתקדמות העצומה שנעשתה בתחום הבינה המלאכותית בשנים האחרונות, למחשבים עדיין קשה מאוד להבדיל בין התבטאויות רציניות לבין בדיחות כאשר הם מתקשרים עם בני אדם.
כתבות נוספות למנויי +ynet:
"הומור היא תכונה שלא מוגדרת כל כך טוב", מסבירה חן שני, דוקטורנטית לבינה מלאכותית באוניברסיטה העברית שחוקרת את נושא ההומור במחשבים. "הרבה פעמים קשה לנו להגיד אם משהו מצחיק ולמה הוא מצחיק. זאת גם תופעה שהיא מאוד רחבה - בכל אספקט בחיים אפשר לראות אלמנטים של הומור, אז מאוד קשה להבין את הפנים השונות שלו".
לא רוצים לפספס אף כתבה? הירשמו לערוץ הטלגרם שלנו
קושי נוסף, היא מסבירה, קשור בהיגיון. "הבנה של הומור מצריכה שלמחשבים יהיו כל מיני ציפיות והבנה של העולם האמיתי, מה שאנחנו מכנים 'שכל ישר'. אם למשל מישהו מזמין מאלכסה (הסייעת הקולית של אמזון - י"מ) בקבוק קטשופ בגובה 30 מטר, היא צריכה להבין שמדובר בבקשה לא הגיונית".
אם אני אספר לך עכשיו בדיחה על רעידת האדמה שהורגשה בישראל, את תביני על מה אני מדבר, אבל הבינה המלאכותית בכלל לא מודעת לכך שהייתה רעידת אדמה.
"בדיוק. ChatGPT (הצ'אטבוט הפופולרי של חברת OpenAI - י"מ) למשל, מרגע שהוא התאמן, אין לו יותר ידע על העולם. זה נכון לגבי כל מודלי השפה".
הדוגמה של אלכסה ובקבוק הקטשופ לא נשלפה במקרה. במשך שלוש שנים עבדה שני כחוקרת בינה מלאכותית במרכז המחקר והפיתוח של אמזון בחיפה, במטרה להפוך את האינטראקציות של המשתמשים עם אלכסה ליותר אנושיות וטבעיות. השבוע היא הציגה שניים מהמחקרים שערכה במסגרת אמזון, לצד מחקר שערכה באוניברסיטה העברית, בשבוע ה-AI של המרכז למחקר סייבר בשיתוף המרכז לבינה מלאכותית ומדעי הנתונים באוניברסיטת תל אביב.
"אני לא מדענית מחשבים טיפוסית", היא מעידה על עצמה, "להזיז רכב אוטונומי מנקודה A לנקודה B פחות מעניין אותי. יותר מעניין אותי להפוך מודלים של בינה מלאכותית לאנושיים יותר, הרי בסופו של דבר הם נוצרים על ידי בני אדם ועבור בני אדם. מה שאני מחפשת זה להפוך את הבינה המלאכותית ליותר טבעית. בשביל לעשות את זה אני מתעסקת לא רק בהומור אלא גם ביצירתיות, בלמידה ובהבנת שפה טבעית".
לאור הדברים האלה, השידוך עם אמזון נראה כמעט מתבקש: ענקית הטכנולוגיה משקיעה בשנים האחרונות משאבים עצומים בניסיון להפוך את האינטראקציות של המשתמשים עם הסייעת הקולית אלכסה ליותר קלות וטבעיות (אם כי לאחרונה המחלקה שעומדת מאחוריה ספגה קיצוצים משמעותיים). בשנת 2019 פנו נציגי החברה למנחה של שני בדוקטורט, פרופ' דפנה שחף, בבקשה שתמליץ להם על חוקר או חוקרת שישפרו את חוש ההומור של אלכסה, והיא הפנתה אותם מיד לשני.
באמזון חיכה לה אתגר מעניין: לא מעט בקשות שאלכסה מקבלת ממשתמשים הן הומוריסטיות, אבל הסייעת הקולית מתקשה לזהות אותן. "הכוונה היא לבקשות שהמשתמשים לא מתכוונים שיקבלו אותן כמו שהן, אלא כאלה שנועדו לבדר אותם", מסבירה שני. "למשל 'אלכסה, תציעי את המיטה שלי', 'תתקשרי לסנטה קלאוס' או 'תמצאי את נמו'. הבעיה היא שאלכסה לא יודעת להתמודד עם בקשות כאלה, וזה מוביל לחוויית שימוש לא טובה. זה מנפץ את האשליה שמדובר בעוזרת אמיתית - הרי אנחנו נותנים לאלכסה שם אנושי, קול אנושי ותכונות אישיות, וכשהיא לא מבינה משהו זה הורס את כל מה שאנחנו מנסים לבנות".
אחת הבעיות, מסבירה שני, היא שבקשות הומוריסטיות יכולות להיות מאוד מגוונות, ולכן עוזרים וירטואליים כמו אלכסה מתקשים לסווג אותן. "העוזרים האלה מקבלים את השאילתה שלך ומנסיים להבין מה אתה מנסה להשיג - האם אתה רוצה לשמוע מוזיקה? האם אתה רוצה להבין מה מזג האוויר? האם אתה רוצה איזשהו מידע כללי שאפשר לחפש באינטרנט? האם אתה רוצה לבדוק מה קורה עם הקניות שלך באמזון? יש המון אופציות. אם אתה אומר לאלכסה להתקשר לסנטה קלאוס, היא תענה לך 'אני מצטערת, לא מצאתי את סנטה קלאוס באנשי הקשר שלך'. אם תגיד לה 'תמצאי את נמו', היא כנראה תחפש את המוצר נמו באתר של אמזון. זה מוביל לחוויה שהיא מבאסת, בגלל שהיא לא מבינה את הבדיחה".
כדי לפתור את הבעיה יצרו שני ועמיתיה טקסונומיה (שיטת סיווג) שמבוססת בין היתר על תיאוריות של הומור שחוזרות עד ליוון העתיקה. המסקנה שלהם הייתה שרוב הבקשות המבודחות שמקבלת אלכסה שייכות לקטגוריה של הומור שמבוססת על "תיאוריית אי ההלימה" (incongruity). מדובר בהומור שמבוסס על אלמנט ההפתעה, ויש בו מפגש בין שני עולמות מנוגדים. הוא מתאפיין בפניות כמו "אלכסה, האם אני אזכה בלוטו?" או "אלכסה, רוצה לצאת איתי לדייט?".
את הבקשות ההומוריסטיות שמתיישבות עם תיאוריית אי ההלימה אפשר לסווג לשלוש תת-קטגוריות: בקשות שהן לא אפשריות כלל לביצוע (למשל "אלכסה, תקני לי אהבת אמת"), בקשות שעוזרת וירטואלית לא יכולה לבצע (למשל "אלכסה, תני לי כיף"), ובקשות שניתנות לביצוע אבל אינן הגיוניות (למשל "אלכסה, תזמיני לי אבטיח רקוב"). מתוך שלוש הקטגוריות האלה, באמזון החליטו לסווג באופן אוטומטי את כל הפניות ש"מאנישות" את אלכסה ומתייחסות אליה כמו לאדם אמיתי - למשל "מה שם המשפחה שלך?" ו"האם יש לך חבר?" - מכיוון שמדובר בקטגוריה הנפוצה ביותר.
בשלב הזה הבינה המלאכותית נכנסה לתמונה: כדי ליצור מודל AI שיודע לסווג באופן אוטומטי פניות שמתייחסות לאלכסה כאילו היא בן אדם אמיתי, שני ועמיתיה אספו באינטרנט שאלות שאנשים נוהגים לשאול זה את זו בדייטים, מכיוון שהן מזכירות מאוד את השאלות שמופנות לאלכסה. משם עבר הכדור לידיים של הצוות שאחראי על האישיות של הסייעת הקולית (כן, יש כזה דבר) על מנת שינסח את התשובות המתאימות.
במחקר הבא ניסו שני ועמיתיה ללכת צעד אחד קדימה, ולבנות מערכת ליצירת תגובות אוטומטיות של אלכסה לבקשות לקניית מוצרים שלא ניתן לרכוש באמזון. "יש דברים שאי אפשר לקנות בכלל - אי אפשר לקנות את הירח ואי אפשר לקנות חד-קרן כי זה לא קיים, ואי אפשר לקנות את בריטני ספירס כי היא בן אדם", היא מסבירה. "יש דברים שאפשר לקנות אותם בעולם האמיתי, אבל אי אפשר דרך אלכסה כי זה לא חוקי, נגיד תרופות מרשם; ויש דברים שפשוט לא הגיוני שתקנה באמזון, למשל יאכטה, מכונית BMW או טבעת יהלום מאוד-מאוד יקרה. כל הדברים האלה הם מבחינתנו בקשות הומוריסטיות לקניות (playful shopping requests)".
שני ועמיתיה תקפו את הבעיה הזאת משני כיוונים: ראשית, הם יצרו עשרות תבניות של תשובות אפשריות של אלכסה, שמבוססות על גרפי ידע (Knowledge Graphs). כך למשל, אם משתמש ישאל את אלכסה אם היא מוכרת קור, היא תדע מגרף הידע שקור נמצא במקפיא ותענה "רק שנייה, אני הולכת למקפיא בשביל להביא לך את זה". בהתאם, אם משתמש יבקש ממנה דובי קואלה, היא תענה לו שהיא הולכת לאוסטרליה להביא אותם, כי זה מה שכתוב בגרף הידע שהיא מתבססת עליו.
השיטה השנייה התבססה על בינה מלאכותית יוצרת (גנרטיבית), אותה טכנולוגיה שעומדת מאחורי פיתוחים כמו DALL-E2 ו-ChatGPT. החוקרים השתמשו במודלי שפה גדולים - T5 ו-GPT-2 - והזינו אותם בטקסטים שונים ("פרומפטים") שאותם המודלים היו צריכים להשלים, למשל "רק שנייה, אני הולכת ל-X" או "האם אתה באמת מבקש X או שאתה מנסה לגרום לי Y".
כדי לבחון איזו שיטה יותר טובה, החוקרים ערכו סקר ויצרו רשימה של מאה מוצרים שיהיה מצחיק לבקש מאלכסה לקנות. המשתתפים בסקר קיבלו חמישה סוגים שונים של תשובות - כאלה שנכתבו על ידי הצוות של אלכסה, כאלה שמבוססות על התבניות, כאלה שמבוססות על מודל T5, כאלה שמבוססות על GPT-2 וכן תשובות רנדומליות שמכילות את שם המוצר. המשימה שלהם הייתה לקבוע אם כל אחת מהתשובות טובה יותר, פחות או באותה מידה כמו התשובה הגנרית "אני מצטערת, אתה לא יכול לקנות את זה".
התשובות שנכתבו על ידי בני אדם התגלו, באופן לא מפתיע, בתור המוצלחות ביותר - 78.9% היו יותר טובות מהתשובה הגנרית. אבל הרעיון היה ליצור תשובות באופן אוטומטי, וכאן ניצחו התשובות שמבוססות על התבניות שיצרו החוקרים: 38.6% מהן הוגדרו כטובות יותר מהתשובה הגנרית. מודל השפה T5 הגיע למקום השלישי עם 15.3%, אחריו מודל השפה של GPT-2 עם 9.2%, ולמקום האחרון הגיעו כצפוי המשפטים הרנדומליים עם 2.7%.
"הומור זאת בעיה סופר-רחבה ונראית בלתי פתירה - יש אנשים שטוענים שזה הדבר היחיד שמחשבים לא יצליחו להבין - אבל זה פתיר"
לדברי שני, על אף שהתשובות שהתבססו על התבניות ניצחו בפער גדול, התשובות של מודלי השפה היו מגוונות יותר, ולכן הן מתאימות יותר לתרחישים שבהם משתמשים מבקשים ברצף כמה מוצרים שלא ניתן לרכוש. עם זאת, רוב הנשאלים העדיפו את התשובה הגנרית של אלכסה, ולכן המשימה של אמזון כרגע היא לשפר את התשובות האוטומטיות של הסייעת הקולית. אפשר להניח שטובי המדענים של החברה עובדים בימים אלה בדיוק על זה.
מהן המסקנות שלך מהמחקרים האלה?
"שהומור זאת בעיה שהיא סופר-רחבה ונראית בלתי פתירה - יש אנשים שטוענים שזה הדבר היחיד שמחשבים לא יצליחו להבין - אבל זה פתיר אם אתה מצמצם ומגדיר טוב את המשימה שלך. המטרה היא בעצם להפוך אותה לכמה שיותר אובייקטיבית, לקחת את האלמנטים הסובייקטיביים ולתת להם הגדרה יותר מדויקת וברורה שהיא לא תלויית אדם.
"למדנו גם שכל הספרות העתיקה וענפה שיש על הומור מתחומים לא חישוביים - פילוסופיה, בלשנות, מדעי המוח, פסיכולוגיה וקוגניציה - מאוד יכולה לעזור. יש נטייה של חוקרים במדעי המחשב לא לצאת לתחומים אחרים, כי זה העולם שאנחנו מכירים, אבל ההמלצה שלנו היא להסתכל סביב ולנסות ללמוד ממה שאחרים כבר עשו. בנוסף, גילינו שמודלי שפה שנחשבים לענקיים ומדהימים, ויש סביבם המון באזז, לא תמיד מנצחים".
לאחרונה דווקא ראינו שהצ'אטבוט ChatGPT יכול לכתוב פרקים שלמים של "סיינפלד" ושל סדרות אחרות, עם הבדיחות והכול.
"כי הוא שינן את האינטרנט. ההבנה שם עדיין מאוד שטחית - בעיניי זה יותר שינון מאשר להבין באמת מהם המרכיבים של הומור. אבל ככה גם בני האדם מתחילים, קודם מחקים התנהגות מסוימת ורק אז מבינים אותה. השלב הבא של הבינה המלאכותית יהיה להבין, לייצר ולהכליל טוב יותר הומור. זה עדיין בחיתולים".
למה חשוב בכלל שמחשבים יבינו הומור?
"אנחנו מנהלים יותר ויותר אינטראקציות עם מחשבים, והבנה של הומור יכולה לשפר את האינטראקציות האלה ולהפוך אותן ליותר טבעיות. הסיבה השנייה היא שהרבה פעמים אלגוריתמים לא מצליחים להבין אינטראקציות בין אנשים בגלל שהם לא מבינים הומור - ב-2015 המניה של טסלה זינקה בגלל בדיחת אחד באפריל. האלגוריתמים לא הבינו שמדובר בבדיחה ומיהרו לקנות את המניה".
"הומור גם מעודד הקשבה ותשומת לב ויכול להפוך משהו ליותר זכיר, אז אפשר להשתמש בו כדי לייצר תוכני לימוד או תכנים שיווקיים. בנוסף, אלגוריתמים שמבינים הומור יכולים לעזור לאנשים עם קשיים חברתיים - דמיין שאתה הולך עם משקפיים או אוזנייה שאומרים לך אם מי שמדבר איתך עכשיו היה ציני או לא".
אנחנו רואים שגם מערכות ניטור תוכן של רשתות חברתיות כמו פייסבוק מתקשות להבין מתי המשתמשים כותבים משהו בציניות ומתי לא.
"נכון. יש עבודות על זיהוי אוטומטי של סרקזם, רובן משתמשות בדאטה-סט (מאגר מידע שעליו הבינה המלאכותית מתאמנת - י"מ) של ציוצים מטוויטר, כי שם יש לך את ההאשטג סרקזם, כך שהמידע כבר מתויג. בקונטקסט הספציפי הזה, של לזהות סרקזם בטוויטר, אנחנו לא רעים, אבל זהו. חוץ מזה זיהוי סרקזם זאת בעיה לא פתורה בכלל, וגם זה משהו שיכול לשפר את האינטראקציה של מחשבים עם אנשים".
אחת הבעיות המוכרות והכואבות ביותר בתחום הבינה המלאכותית היא ההטיה (bias): מודלים של AI מתאמנים על מידע שנוצר על ידי בני אדם, ולכן התוצרים שלהם משקפים דעות קדומות וסטריאוטיפים כלפי קבוצות מסוימות באוכלוסייה, למשל נשים, מיעוטים, שחורים וכו'. הבעיה הזאת קיימת גם בתחום ההומור, מודה שני: "אנחנו מתעסקים בסוג מאוד מסוים של הומור, בעיקר הומור אמריקני שנכתב באנגלית, וכשאנחנו חוקרים הומור מסוג אחד אנחנו מתעלמים מכל הסוגים האחרים".
עם זאת, היא מדגישה כי ההשלכות של הטיה בתחום ההומור אינן דרמטיות כמו בתחומים אחרים: "אני חושבת שבניגוד למודלים שאמורים לקבל החלטות לגבי חיים של אנשים, כאן העניין של ההטיה הוא פחות משמעותי. אני לא אחליט בעזרת המודלים האלה אם מישהו יתקבל לעבודה או לא".
בתחום הבינה המלאכותית העברית תמיד נשארת מאחור. את רואה התקדמות בנושא הזה?
"לא יותר מדי. זה שוק קטן, אנחנו מדינה קטנה ואנחנו יודעים אנגלית. אני רואה תרחיש שבו אנחנו נמשיך עם אנגלית ופשוט נלמד אותה טוב. הבעיה העיקרית היא שכרגע התוכנות שמתמללות אודיו לטקסט מותאמות יותר למבטאים אחרים, ומתקשות עם המבטא שלנו".
אם כבר מדברים על עברית, להומור שלנו יש מאפיינים שונים לחלוטין מהומור אמריקני למשל.
"נכון, יש בדיחות שמבוססות על דמיון בין מילים (Puns), ובעברית יש שורשים. הכול מאוד שונה".
זה אומר שיעברו עוד הרבה שנים עד שצ'אטבוטים יבינו בדיחות בעברית?
"וואו, כל כך הרבה".