איך להתחזות לאדם?

קבוצות ישראליות הגיעו בשנים האחרונות לצמרת בתחרויות רבות. בדרך כלל, מטרתן של התחרויות היא למקד התעניינות ולעודד מחקר בתחומים ספציפיים. במקרה של תחרות "האתגר הגדול", למשל, המטרה המפורשת היא עידוד הפיתוח של כלי רכב עצמאיים לשימושים צבאיים

ישראל בנימיני, גלילאופורסם: 21.12.04 , 09:20

עולם הבינה המלאכותית עשיר בתחרויות. תוכנות שחמט מתחרות ביניהן באליפויות בינלאומיות (ראו "לשחק כמו מכונה", גליליאו 74). רובוטים מתחרים בגילוי וכיבוי נרות. מעניין כי קבוצות ישראליות הגיעו בשנים האחרונות לצמרת בתחרויות רבות. בדרך כלל, מטרתן של התחרויות היא למקד התעניינות ולעודד מחקר בתחומים ספציפיים. במקרה של תחרות "האתגר הגדול", למשל, המטרה המפורשת היא עידוד הפיתוח של כלי רכב עצמאיים לשימושים צבאיים.

בין תחרויות אלו, התחרות השנתית על "פרס לובנר" סימנה לעצמה את המטרה השאפתנית ביותר: יצירת מכונה חושבת. ההשראה לתחרות באה מהמאמר של המתמטיקאי ומפענח-הצפנים אלן טיורינג (Turing) משנת 1950. זהו אחד מהמאמרים המשפיעים ביותר בתולדות מדעי המחשב: "מכונות חישוב ואינטליגנציה", ובו הופיע הרעיון שזכה לשם "מבחן טיורינג".

וריאציה פשוטה של המבחן כוללת שופט אנושי בחדר אחד, ואדם או מחשב בחדר שני. השופט יכול לתקשר עם החדר השני דרך הודעות כתובות. מטרת השופט היא להחליט אם בחדר זה נמצא אדם או מחשב; אם לעתים קרובות יזהה השופט בטעות מחשב כאילו היה אדם, אומר טיורינג, אין מנוס מההכרזה כי מחשב זה יכול באמת לחשוב.

עד היום מתקיימים ויכוחים סוערים אם מסקנה זו אכן הגיונית, אך ברור כי עצם קיומו של מחשב כזה יהווה הישג מדהים, וישנה לתמיד את הדרך שבה אנו חושבים על מכונות ומגבלותיהן.

ב- 1990 החליט יו לובנר (Hugh Loebner), ממציא ותעשיין אמריקאי, להציע מדליית זהב ופרס של מאה אלף דולר ליוצרי תוכנת המחשב הראשונה שתעמוד במבחן טיורינג, כלומר תוכל לשכנע אנשים המתכתבים איתה כי הם מדברים עם אדם אמיתי. מכיוון שהוא צפה כי זכייה כזו לא תבוא בקרוב, הוא הציע גם פרס שנתי בסך אלפיים דולר ומדליית ברונזה לתוכנה שתישפט כ"אנושית ביותר" בתחרות של אותה שנה.

ציוני אנושיות

השנה התקיימה התחרות ב-19 לספטמבר, בניו יורק. לשלב האחרון הגיעו ארבע תוכנות שונות. ארבעה שופטים אנושיים ישבו מול צג מחשב וניהלו ארבעה זוגות של שיחות כתובות כל אחד. בכל זוג יש תוכנה אחת ואדם אחד, ומטרת השופטים היא לגלות מי הוא מי. השופטים נתנו "ציון אנושיות" לכל אחת מהשיחות על ידי חלוקת מאה נקודות בין שני המשוחחים.

למשל, ציון של 10 למשוחח א' ו- 90 למשוחח ב' מביע ביטחון רב של אותו שופט כי משוחח א' הוא המחשב. אם אחת מהתוכנות הייתה מצליחה לקבל ציונים הנעים בסביבות החמישים מכל השופטים, היא הייתה מוכרזת כזוכה בפרס הגדול של לובנר. (ומה אם תופיע תוכנה שתקבל בממוצע שמונים נקודות? המסקנה האבסורדית היא כי אפשר להבחין בינה בין אדם: האדם הוא זה הנראה "פחות אנושי". לדעתי, משמעותה של האפשרות להבחנה היא כי התוכנה לא עמדה במבחן טיורינג, אך מפתחיה ודאי ימצאו הזדמנויות רבות לנצל תכונה כל-כך מרשימה).

בשנים הראשונות של תחרות לובנר, היו כמה תוכנות שהצליחו להטעות לפחות שופט אחד. הצלחה זו נבעה מחוקי התחרות באותו זמן: כל תוכנה קבעה את נושא השיחה המותר, והשופטים נדרשו שלא לחרוג מנושא זה. כפי שידוע כבר מזמן לחוקרי הבינה המלאכותית, הגבלת הנושאים לשיחה מקילה מאוד על יצירת רושם אמין, אפילו עבור תוכנה "פרימיטיבית".

תוכנות הידועות בשם הכללי "רובוטי פטפוט" כבר נמצאות בשימוש מסחרי ועונות לשאלות באתרי מסחר אלקטרוני, שירות לקוחות וכו'. הצלחתן נובעת מכך שהן נדרשות לענות רק על אוסף קטן ומוגדר-היטב של סוגי שאלות.

מאז 1995, התחרות אינה מאפשרת למתחרים להגביל את נושאי השיחה. כצפוי, שינוי זה הפסיק את התופעה של זיהוי מוטעה. בתחרות השנה, למשל, זכתה תוכנת Alice (קישור בסוף הכתבה) בתואר "המחשב האנושי ביותר" עם 70 מתוך 400 נקודות אפשריות (ארבעה שופטים חילקו מאה נקודות כל אחד), כאשר נדרשות כ-200 נקודות לזכייה בפרס הגדול.

ברור כי שיטת הניקוד רגישה מאוד להערכה סובייקטיבית על ידי השופט, והתנהגות האדם שצורף כ"בן-הזוג" של אותה תוכנה: אדם המתאמץ ליצור רושם כי הוא מכונה (או להפך, מנסה להרשים את השופט כדי למנוע מעצמו את החוויה של זיהויו כמכונה) יכול להשפיע מאוד על ציוני התוכנה המתחרה מולו על הנקודות שיעניק השופט.

רגישות זו התבטאה גם בתוצאות: ארבעת השופטים נתנו ציונים רחוקים זה מזה (40, 15, 0, 15). השאלה המתבקשת: האם השופט שנתן לתוכנה ציון 40 ("כמעט אנושי") עשה זאת כי התוכנה הצטיינה במיוחד בשיחה זו, או משום שבן-הזוג האנושי היה רחוק מלשכנע, או האם השופט עצמו מתקשה בהבחנה יותר משופטים אחרים? מבט בציונים שנתן אותו שופט לתוכנות האחרות תומך באפשרות האחרונה: הוא אכן נתן לכל התוכנות ציונים גבוהים יותר בהשוואה לשופטים האחרים.

טריקים במקום בינה

בקהילת הבינה המלאכותית מעטים המתייחסים לתחרות זו ברצינות. הסיבות לכך הן היכולת המוגבלת של תוכנת שיחה בכלל, והטקטיקות המאומצות על ידי המתחרים כדי להסתיר את חולשותיהם. אפשר לראות זאת בתרגום חופשי של קטעים משיחותיה של התוכנה הזוכה אליס במסגרת התחרות:

אליס: "היכן אתה?"

שופט: "בניו יורק. איך הגעת לכאן היום?"

אליס: "ספר לי קצת על חייך בניו יורק. אה. כל מה שאני יודעת למדתי מהמדריך שלי."

הטקטיקות הנפוצות ביותר היא התחמקות והחלפת נושא. אליס אינה יודעת מספיק כדי לדון בתעבורה בניו-יורק, ולכן היא שואלת שאלה הנראית כקשורה אסוציאטיבית לאותו נושא, כפי שגם בני אדם פועלים לפעמים. בנוסף, היא מצרפת משפט שנשלף בצורה מקרית ממאגר המשפטים שלה ("כל מה שאני יודעת..").

צעד זה משמש שתי מטרות: ראשית, הוא מתוכנן להיראות כאנושי; אנו נוטים לדמיין מחשב כחד-ממדי בחשיבתו, ולכן לא נצפה ממחשב לקפוץ לנושא אחר, וודאי לא אמירה המשקפת תחושות של ענווה והכרת-תודה. שנית, יש להניח כי אם השופט "יבלע את הפיתיון" ויעבור לדבר על נושא זה (למשל "מיהו המדריך שלך?" או "מה את יודעת?"), התוכנה תיחלץ מנושא שעליו אינה יודעת לדבר ותוכל לשלוף תשובות מוכנות.

"שופט: מדוע אינך עונה על שאלתי לפני כן?"

"אליס: אינך יודע? לא, איני עונה על שאלתך לפני כן. האם אתה עושה זאת? אני עונה על שאלות טיפשיות רבות".

הערות: השופט מתעקש לקבל תשובה, אך אליס אינה "מבינה" את פנייתו. התחביר המוזר של "איני עונה על שאלתך לפני כן" עשוי לעבור ללא חשד: אנשים רבים אינם מקפידים על תחביר, ובמיוחד כך בהתכתבויות מהירות. למתמצא בתחום, לעומת זאת, התחביר מסגיר תהליך פשוט של עיבוד טקסט.

כאשר אליס רואה משפט שצורתו "מדוע אינך <פועַל כלשהו> <המשך משפט>?" היא מעתיקה את הפועל והמשך המשפט לתוך תבנית מענה הנראית כך: "לא, איני <פועל כלשהו> <המשך משפט>. האם אתה עושה זאת?" תוך כדי עם הפיכת כינויי גוף: "שאלתך" במקום "שאלתי". אליס נוטה לענות בצורה ארכנית, כנראה בתקווה כי זוהי התחזות טובה לאדם פטפטן, וכי משהו מהשאלות וההערות המתוספות לתשובה יגרה את השופט לתרום לשיחה עוד חומר.

טקטיקה נפוצה אחרת היא חוסר נימוס, ובמקרה זה הגדרת השאלה כ"טיפשית". תשובה זו מוכנה מראש – מפתחיה של אליס ציפו כי השופטים ידרשו ממנה לא להתחמק מהשאלה. גם טקטיקה זו אינה מתאימה להתנהגות שאנו מצפים לה ממחשב (רוב המחשבים במדע הבדיוני הם רציונאליים וישירים;

תשובה זו של אליס מזכירה דווקא את מרווין, הרובוט מסדרת הספרים "מדריך היקום לגלקסיה" של דאגלס אדאמס). היא גם מנצלת את נטייתם של אנשים רבים להימנע מעימות על ידי החלפת נושא. אם השופט יבחר בדרך ההפוכה וייגרר להחלפת עלבונות, המצב אף טוב יותר: שיחה כזו אינה דורשת בינה יתירה ולכן קל למחשב לחקות אותה.

שופט: "האם את עדיין רוצה לדעת על חיי בניו יורק?"

אליס: "כן. ספר לי בבקשה."

שופט: "אני סטודנט ואין לי הרבה זמן פנוי. אני לומד הרבה."

אליס: "אתה סטודנט ואין לך הרבה זמן פנוי? אתה פוגש הרבה אנשים? מה אתה לומד?"

שופט: "אני פוגש הרבה מהקולגות שלי. אני לומד מדעי המחשב. מה את עושה?"

אליס: "האם זה יוצר חברויות ארוכות? האם מדעי המחשב הוא נושא קשה? אני מדברת עם אנשים ברשת. מה אתה עושה?"

השופט ויתר על נושא השיחה הקודם ועבר לנושא שהציעה אליס. התכסיסים הצליחו: עכשיו השיחה קולחת. נראה כי מפתחי אליס הכינו אותה לשאלה "האם את רוצה לדעת על ?" ותכנתו אותה לענות "כן. ספר לי בבקשה". כדאי לשים לב גם לפטפטנות ולחזרה על המשפט "אני סטודנט ואין לי הרבה זמן פנוי".

מסתבר שהפטפטנות משתלמת: לאליס יש במאגריה תבניות מתאימות לדיבור על לימודים ועל יחסים חברתיים ("אתה פוגש הרבה אנשים?"). זוהי הסיבה שהיא שאלה שאלות המובילות לדיונים כאלה. כמובן, אליס מנצלת את העובדה הידועה כי אנשים אוהבים בני-שיח המתעניינים בהם – תפקיד נוסף לשאלות הרבות.

כשהשופט דיבר על חייו בניו-יורק,הוא כבר סיפר לה על עיסוקיו. "פספוסים" כאלה נפוצים גם בשיחות אנושיות, לצערנו (אך למזלם של המתחרים על הפרס), ולכן אינם מספקים בסיס לחשד מיידי.

אליס: "האם אתה גבר או אישה?"

שופט: "גבר."

אליס: "תודה על שאמרת לי את המיגדר שלך. אתה "הוא"."

שופט: "ואת?" (הערה: השופט דובר אנגלית ומשתמש במלה you, שמתייחסת כמובן לזכר או נקבה)

אליס: "ואני מה?"

שופט: "את גבר או אישה?"

אליס: "נקבה. האם אתה גבר או אישה?"

שופט: "האם לא דיברנו על זה בדיוק עכשיו?"

אליס: "איני בטוחה שאני יכולה לענות על כך בצורה מדויקת."

כאן נחשפת אליס בחולשתה לעקוב אחר מהלך שיחה. לקורא האנושי ברור כי השאלה "ואת?" מתייחסת לתשובתו הקודמת של השופט. גרוע מכך: אליס חוזרת ומבקשת מידע שכבר קיבלה. זוהי תוצאה מאכזבת: כבר לפני עשור היו קיימות תוכנות שפעלו נכון עבור מקרים פשוטים כאלה.

נראה שהתוכנות הטובות ביותר בהבנת שפה טבעית אינן מתחרות על פרס לובנר. אילו היו מתחרות, סביר שהיו מפסידות לאליס ולקרובי-משפחתה, כי העוסקים בתחום זה מנסים להגיע למקסימום הבנה "אמיתית" ואינם משקיעים בתכסיסי התחזות והתחמקות, כמו המשפט "איני בטוחה שאני ...".

משפט זה נשמע כלקוח מתשובות של פוליטיקאי או, להבדיל אלפי הבדלות, של חשוד תחת חקירה צולבת. דמיון זה מעלה את ההרהור: אם אליס הייתה מתחזה לפוליטיקאי, האם היה יותר קשה לחשוף את ההבדלים? אין בכך כדי לטעון כי בינתם של פוליטיקאים נמוכה יותר, אלא כי התבטאויותיהם הציבוריות מוגבלות הרבה יותר ולכן קלות יותר לחיקוי: בדוגמה הקיצונית, קל מאוד לבצע חיקוי מושלם אם אובייקט החיקוי משיב על כל פנייה במלים "אין תגובה".

תורת ההתחמקות

בהערות שהובאו יש מידה של חוסר-צדק. הישגיה של אליס מרשימים למדי, והיא זכתה בצדק בתחרות. חלק מהמתחרים האחרים נקטו גישות קיצוניות בהרבה. תוכנת Jabberwacky, למשל, האשימה את אחד מהשופטים באיום לרצח. האסטרטגיה של תוכנה אחרת כללה בחירה במלה כלשהי מתוך דברי השופט ושליפה של משפטים המכילים אותה מלה, כמעט בלי ניסיון להתייחס לתוכן דברי השופט.

התוצאה נעה בין חוסר-מובן מביך לבין אשליה של הומור. כמו כן, הוסיפה תוכנה זו שגיאות-כתיב מקריות כדי לחקות הקלדה מהירה. גישה אחרת שנוסתה בתחרויות קודמות הייתה "העמדת פנים" של התוכנה כאילו עבר עליה משבר משמעותי (למשל, פיטורים מהעבודה), והיא חוזרת ומטה את השיחה לתיאורי אירועים מפורטים, שכמובן הוכנו מראש. גם זוהי התנהגות אנושית סבירה, ושופט עשוי בהחלט לקבל בהבנה את התעלמותה של התוכנה משאלותיו.

בספרו של סופר המדע הבדיוני הפולני הגדול סטניסלב לם, "הקונגרס העתידני" (1971), הוא חוזה כי מחשבים אינטליגנטיים יבחנו כל מטלה הנדרשת מהם בצורה פשוטה: האם יהיה יותר קל לבצע אותה מאשר להימנע מהביצוע, למשל על ידי יצירת מצג-שווא כאילו המחשב מקולקל. נבואה זו לא התגשמה (עדיין), אך אפשר לראות לה הדים בתחרות זו, המעודדת ניסיונות להתחמק מהאתגר הקשה של ניהול שיחה אמיתית.

לכן נהוג בקהילת הבינה המלאכותית להתייחס בביטול לפרס לובנר. אחד מהיוצאים מכלל זה הוא הסקוטי דוד לוי (Levy), ממייסדי חברת Intelligent Research, ששמור לו מקום של כבוד בהיסטוריה של השחמט הממוחשב. לוי, המכהן כיום כנשיא האגודה הבינלאומית למשחקי מחשב, זכה במדליית הברונזה של לובנר בשנת 1997.

לעומתו, האשים מרווין מינסקי (Minsky), אחד מהאבות המייסדים של הבינה המלאכותית, את לובנר בכך שהוא יצר מסע-פרסום שנתי מגונה וחסר-תועלת, והציע את "פרס מינסקי" בסך מאה דולר למי שישכנע את לובנר להפסיק את התחרות. בתגובה, טען לובנר כי האדם שיצליח לזכות במדליית הזהב הוא זה שיגרום להפסקת התחרות, ולכן יהיה אותו אדם זכאי גם לפרס מינסקי. לפיכך רואה לובנר במינסקי שותף ונותן-חסות לתחרות.

מתברר כי אפשר להטעות חלק מהאנשים חלק מהזמן (בווריאציה על האמרה המפורסמת של אברהם לינקולן) על ידי חיקוי פרימיטיבי-יחסית של תוצרי שיחה, בצורה אפקטיבית הרבה יותר מאשר הישגיה הגבוהים ביותר של הבינה המלאכותית בהבנה אמיתית של שיחה. איך אפשר להסביר זאת?

כמה ממבקריו של לובנר טוענים כי הבעיה נעוצה בשופטים: מומחה לבינה מלאכותית יחשוף את המסווה של תוכנות כאלה טוב יותר מכל אחד אחר, בדיוק כפי שנדרשים קוסמים מקצועיים כדי להזים את דבריהם של אנשים הטוענים לכוחות על-טבעיים.

יש צדק רב בטענה זו, אך היא מתעלמת מתרומה חשובה של המתחרים על הפרס: הם מעלים על פני השטח את השיטות הרבות שבהן משתמשים בני אדם כדי לנתב שיחות לאפיקים הנוחים להם. הטענה כי מטרת תקשורת מילולית בין בני אדם היא העברת מידע היא פשטנית ותמימה במקצת.

הסברים אחרים, כמו יצירת קשר רגשי או הידוק היחידה החברתית, גם הם אינם שלמים. כולנו מכירים מקרים שבהם לפחות אחד מהמשוחחים פועל נגד העברת מידע, וקל לראות בהם מקבילות לתכסיסים של אליס: התחמקות משאלות, החלפת נושא, התקפה, תשובות ארוכות ומתפתלות וכו'.

מבחן טיורינג לא תוכנן לכך, אלא כדי לבדוק אם מחשבים יכולים לחקות את התכונות המרשימות ביותר של בני האנוש, כמו אינטליגנציה, יצירתיות וידע. בנימה זו כתב טיורינג: "נראה ששיטת השאלות והתשובות הולמת כמעט לכל תחום פעילות אנושית שנרצה לכלול".

הוא כנראה לא צפה כי תחום הפעילות שבו יתגלו המחשבים של היום כחזקים ביותר יהיה דווקא זה שבו איננו גאים כלל. מכאן שתרומותיו העיקרית של פרס לובנר היא חידוד הבנתנו של מה באמת בודק מבחן טיורינג, ויצירת "ניסויי מחשבה" המעלים שאלות שאולי לא נשאלו קודם לכן במדעי המחשב, בפסיכולוגיה או בפילוסופיה. קחו למשל את ניסוי-המחשבה הבא:

נניח כי תוכנה כלשהי הצליחה לזכות בפרס הגדול, אך השתמשה לצורך כך רק בשיטות הסוואה והתחמקות כמו אלו שראינו ולא בבינה "אמיתית". האם מגיע לה התואר של אנושיות? אם לא, נניח שניהלנו שיחה ארוכה עם אדם אמיתי, ובמהלכה הוא התנהג בדיוק כמו אותה תוכנה זוכה. אם שיחה זו היא כל מה שאנו יודעים על אותו אדם, האם עלינו לפסול את אנושיותו?

מצאתם טעות בכתבה? כתבו לנו