רובוטים תבוניים: בגוף הם מבינים

האם הרובוט דומו מצדיק את התקוות האחרות של מתכנניו, הרואים בו חלק מתכנית המחקר לקראת רובוטים אינטליגנטיים ובעלי מודעות? על שושלת הרובוטים דמויי האנוש של MIT ועוד. חלק ב'

ישראל בנימיני, מגזין "גלילאו" פורסם: 22.08.07, 09:53

שושלת הרובוטים של MIT

פעולה בסביבה דינמית ומשתנה? הבנת הוראות וביצוען? מודעוּת למטרות סוכנים אחרים ולקיום עצמי כסוכן? תוכנה כזו אינה קיימת כיום, אך היא קרובה בדרישותיה לשאיפות בנות חמישים השנה (לפחות) של הבינה המלאכותית.

אחת הקבוצות המובילות בתחום זה היא קבוצת הרובוטים ההומנואידים ("הומנואידי" = דמוי אנוש) של מעבדת מדעי המחשב והבינה המלאכותית במכון הטכנולוגי של מסצ'וסטס (CSAIL – Computer Science and Artificial Intelligence Laboratory, at MIT ).

קבוצה זו היא חלק מהתחום "רובוטים חיים ונושמים" שבתוך CSAIL, שעל פעילויותיה אפשר לקרוא בקישור שבסוף הטור. קבוצת הרובוטים ההומנואידים, כמו פעילויות אחרות ב-CSAIL, מאמצת את רעיונותיו של מנהל CSAIL, רודני ברוקס (Brooks), אחד החוקרים המשפיעים ביותר בתחום הרובוטיקה.

ב-1990 כתב ברוקס מאמר חשוב בשם "פילים לא משחקים שחמט" (קישור בסוף הטור), שבו טען כי בשלושים השנה הראשונות לקיומה התבססה הבינה המלאכותית בעיקר על "הנחת מערכת הסמלים", שלפיה בינה מושגת על-ידי ייצוג העולם בסמלים: מערכת החושים מזהה כל עצם, כל תכונה וכל פעולה באופן ברור ויחידני.

מכאן ואילך אפשר להתייחס לסמלים כמנותקים מהעולם המוחשי, ומה שנותר לתהליך הקוגניטיבי הוא לעבד את המידע שהגיע ממערכת החושים לפי היחסים הידועים בין הסמלים, ללמוד יחסים חדשים ולתכנן פעולות שיביאו להשגת המטרות (שגם הן מיוצגות בסמלים). בעיני תומכי גישה זו, הניתוק של הסמלים מהמסומלים בעולם האמיתי הוא יתרון גדול, כי הוא מאפשר לאותם מנגנוני חשיבה כלליים לפתור בעיות רבות השונות זו מזו.

לדוגמה, אם קיים מנגנון כללי למציאת דרך מהמצב הנוכחי למצב נדרש על-ידי התייחסות למצבי ביניים ולפעולות הגורמות למעבר בין מצבים, אפשר להפעיל אותו מנגנון כדי לתכנן הגעה ליעד כלשהו (מסביב לשולחן, אל הדלת, אל החדר השני וכו') וכדי להעביר כלי למקומו (הזז את היד אל הכלי, אחוז אותו בצורה יציבה, הרם אותו וכו').

מכאן אפשר לראות כי התנהגות המערכת אינה נובעת מחלק מסוים כלשהו של רשת הסמלים, אלא מהאינטראקציה בין כל החלקים: מצב העולם מתורגם לסמלים, מנגנוני חשיבה מופשטים פועלים על הסמלים, עד שמופעל סמל המתורגם להתנהגות שניתן לראות מבחוץ. גישה זו פועלת היטב עבור שחמט, אך אינה מתאימה להסברת התנהגותם של בעלי-חיים "פשוטים", שלא לדבר על ההתנהגות המורכבת של פילים, ומכאן שם מאמרו של ברוקס.

ברוקס הציב מול הנחה זו את "הנחת הרקע הפיזי" (physical grounding hypothesis), שלפיה בינה נובעת מצירוף של חלקים שכל אחד מהם מקושר היטב לעולם הפיזי ופועל בתוכו. גישה זו מציעה לראות כל מערכת אינטליגנטית כבנויה מחלקים שכל אחד מהם מכיל בתוכו התנהגות, כלומר שכל אחד מחלקיה מקבל מידע כלשהו מהעולם המקיף אותו ומגיב על מידע זה בצורה המשפיעה על העולם. התנהגויות מורכבות ומעניינות יותר מושגות מתוך אינטראקציה בין חלקים אלו.

כך, למשל, כפי שנראה בהמשך, דומו אינו מתכנן את כל שלבי הפעולה, אלא מפעיל התנהגויות כמו "תזוזה כדי לראות מזווית טובה יותר" או "התקרבות אל העצם" – התנהגויות שגם משנות את המצב הפיזי וגם מאפשרות הפעלה של ההתנהגויות הבאות.

אין בכך כדי לומר שדומו חסר כל יכולת תכנון, אלא שהתכנון המפורט של חלק מהפעולות מתבצע תוך כדי פעולות אחרות, שחלקן מייצר מידע נוסף הדרוש להמשך התנועה. פעולות אלו גם חסינות יותר בפני "הפתעות" (לדוגמה, כאשר השולחן זז תוך כדי ההתקרבות אליו) או אי-דיוקים בחישובים של מיקום השולחן, החפצים וגוף הרובוט.

גישה עקרונית זו מתאימה לרעיונותיהם של כמה פילוסופים, כמו דניאל דנט (Dennett), שחלק ניכר מעבודתו היא בתחום המודעות (Consciousness). דנט שיתף פעולה עם ברוקס ותלמידיו בתכנון הרובוט קוג (Cog – נראה שהשם רומז גם ל "קוגניטיבי" וגם לשן בגלגל שיניים) באמצע שנות התשעים. קוג היה אחד הראשונים בשושלת הרובוטים האנושיים של CSAIL (ברוקס פיתח לפני כן רובוטים שדמו יותר בתכנונם ובמטרותיהם לחרקים).

ב-CSAIL וברובוטים כמו קוג ודומו מתבטא המפגש בין הפילוסופיה והרעיונות המתחרים לגבי מהות האינטליגנציה מצד אחד, לבין היכולות הטכנולוגיות והצרכים המעשיים מצד אחר. אין זה שיתוף פעולה מוצלח גרידא בין שני תחומים: לפי תפיסתם של ברוקס ותלמידיו, אי-אפשר להתקדם אף באחד מהתחומים בפני עצמו, מכיוון שהבינה היא "בעלת רקע פיזי" – כלומר מקבלת את עצם קיומה – דרך אינטראקציה פיזית עם העולם.

שיתוף פעולה, רלוונטיות ו"חשיבה תנועתית"

שלושה עקרונות הכתיבו את תכנון הרובוט דומו ואת מטרותיו. ראשית, "מניפולציה בשיתוף פעולה": לפחות כרגע, שימושיותו של הרובוט במרחב האנושי תלויה בבני-אדם שינחו אותו. עם זאת, כל עוד חיסכון הזמן המושג הודות לשימוש ברובוט גדול מהזמן הנדרש כדי להנחות אותו, גם רובוטים שאינם עצמאיים יוכלו להיות עוזרים שימושיים.

אם העבודה יחד עם הרובוט היא אינטואיטיבית, יוכלו האדם והרובוט הפועלים יחד לבצע במהירות ובנוחות משימות שאינן אפשריות (או אטיות בהרבה) עבור האדם לבדו. רעיון זה אינו חדש, וכבר קיימים רובוטים המשתפים פעולה עם אנשים במשימות שבהן האדם מנחה את הרובוט באמצעות תנועות משותפות (כמו נשיאת עצם כבד יחד עם הרובוט).

דומו הוא אחד הרובוטים הראשונים שבהם ההנחיה נעשית באמצעות "אינטראקציה חברתית" –הרובוט מבין את הנדרש ממנו על-ידי צפייה בתנועות האדם וקבלת פקודות מילוליות, כמו ב"מחזה" שבו פתחנו, וכן על-ידי כך שהאדם מניע את ידי הרובוט למקום הנדרש ועוזב אותן שם.

חשוב לשים לב לכך שהאינטראקציה החברתית היא דו-כיוונית: גם האדם מקבל מסרים מהרובוט, כמו בנקודה במחזה שבה הרובוט מושיט את ידו הפתוחה לעבר האדם. זהו מסר ברור ואינטואיטיבי לכך שהרובוט מוכן לקבל חפץ, והאדם כבר מבין מכך כי עליו להניח את החפץ בידו של הרובוט.

זהו פתרון אלגנטי לקושי שדומו עשוי להיתקל בו אם יידרש להרים חפץ מהשולחן: לא תמיד ברור לרובוט איך לזהות את החפץ או היכן יש לאחוז בו. כך מתמודדת האינטראקציה החברתית האינטואיטיבית עם מגבלות העצמאות של הרובוט, בלא שתפגע בשימושיות הפוטנציאלית שלו.

העיקרון השני הוא רלוונטיות למשימה: במחקרים רבים, תכנון פעולות רובוטיות מתבצע תוך התייחסות לכל המידע שיש לרובוט על מצב העולם שמסביבו.

דומו, לעומת זאת, מתוכנן להתרכז אך ורק בהיבטים של הסביבה הרלוונטיים לביצוע משימתו הנוכחית. כבעיה כללית, ההחלטה מהם ההיבטים הרלוונטיים עשויה להיות קשה, אך דומו בנוי לפעול בסביבות אנושיות, וכאן זהו דווקא יתרון: החפצים שדומו יידרש לתפעל הם אלו השכיחים בסביבות כאלו, ויש להם כמה מאפיינים משותפים, כמו למשל נקודות אחיזה נוחות.

לכן דומו יכול להתעלם מהמבנה המפורט של החפץ, ולהתרכז בנקודת האחיזה ובקצותיו של החפץ. החלטות אלו הקלו על אדסינגר וצוותו להצליח בלא סימונים מיוחדים של העצמים, בזמן שרובוטים רבים אחרים נדרשים לסימון מיוחד של "נקודות ייחוס" על החפצים שאיתם הם באים במגע (גם דומו נעזר בסימונים כאלה עבור המדף, אך לא עבור החפצים היומיומיים המוגשים לו).

העיקרון השלישי הוא "חשיבה בעזרת הגוף": רובוטים אחרים מנסים לפענח בשלמות את התמונה הנקלטת במצלמותיהם, ולבסס על פענוח זה תכנון מדוקדק של תנועת כל אחד מהמפרקים ("כתף", "מרפק", "שורש כף היד" ו"אצבעות" הם רק חלק מהמפרקים של דומו, המספקים לו 29 "דרגות חופש", בשפת המהנדסים). דומו מחליף חלק מחישובים אלו בתנועות המספקות לו מידע נוסף.

אחד מהחלקים החשובים של תכנונו של דומו הוא תנועה אלסטית: התנגדות לתנועה גורמת לעצירתה, כך שהרובוט אינו רק בטיחותי יותר אלא גם מקבל מידע, דרך המפרקים האלסטיים, על חוזק ההתנגדות וכיוונה. מפרקים המתוכננים בצורה זו עשויים להיות מדויקים פחות, אבל המעקב החזותי אחר תנועת הידיים מפצה על כך. זוהי הסיבה לכך שהרובוט מוודא, על-ידי נגיעה במדף, את קיומו ומיקומו של המדף.

למעשה, הרובוט יכול לשנות בכל רגע את ה"קשיחות" של מפרקיו, כך שיתפקדו כקפיצים בעלי רכות משתנה. דומו גם מנענע קלות כל חפץ שמוגש לו, כדי לבדוק את משקלו ואת הדינמיקה של תנועתו.

הרעיון של "חשיבה תוך כדי תנועה" מתבטא גם בדרכים אחרות. לדוגמה, לא תמיד קל למערכת הראייה של הרובוט לפענח במדויק את מיקום ומצב היד, כדי להכווין את היד והאצבעות. במקום לשפר את יכולת הפענוח החזותי, בחר הצוות של אדסינגר ללמד את דומו התנהגות פשוטה: דומו מזיז את ראשו כך שיוכל לראות את ידו בזווית שבה הפענוח קל יותר.

התנהגויות אלו, שבהן הפעולה עצמה משמשת לבקרת ההתקדמות ולהפקת מידע על העולם, מזכירות את הדרך שבה פועלים בני-אדם: בני-אדם אינם מנתחים את כל המידע החושי הזמין, מתכננים את כל שלבי הפעולה, ואז מבצעים את התכנית; הם מתחילים לפעול, והפעולה עצמה מספקת מידע נוסף ואת הבסיס להמשך התכנון. דמיון זה אינו מקרי: לדעת ברוקס, הדמיון נובע מהגישה של "רקע פיזי" שבה התנהגויות נבנות מתוך התנהגויות אחרות, ושהיא הבסיס לבינה אנושית כמו לבינה רובוטית.

האם כל אלו מספיקים כדי לבנות רובוט שנרצה להכניס לבתינו? כרגע לא. אף שדומו ורובוטים אחרים מדורו כבר אינם מוגבלים למשימות שהוגדרו ותוכננו מראש, מגוון יכולותיהם הוא עדיין קטן מדי. עם זאת, אפשר למצוא באתר הבית של דומו (קישור בסוף הטור) סרטי וידיאו המתארים, בין השאר, את ההתפתחות הכרונולוגית של יכולותיו של דומו. התפתחות זו מצדיקה אופטימיות באשר לעתיד.

האם דומו מצדיק את התקוות האחרות של מתכנניו, הרואים בו חלק מתכנית המחקר לקראת רובוטים אינטליגנטיים ובעלי מודעות? שוב, כרגע לא, אך מעניין לציין כי אנשים הנתקלים בפעם הראשונה בקוג או בדומו חשים לעתים קרובות כי הם עומדים בפני יצור מודע. תחושה זו היא אשליה הנגרמת מהטעיה – מכוונת במידת-מה – כתוצאה מהמבנה האנושי של הרובוט ומההתנהגויות החברתיות שתוכנתו לתוכו (למשל, מבט אל עיני האדם והושטת יד).

לפי פילוסופים כמו דנט, אפשר לראות באשליה זו רמזים לגבי האופן שבו אנו שופטים מודעוּת אצל אחרים ואפילו אצל עצמנו. נראה שמתוך אותו כיוון מחשבה אומר מנהל CSAIL, רודני ברוקס, כיצד יֵדע שהרובוטים שלו הגיעו למודעות: כאשר הסטודנטים שלו יהססו אם לכבות את הרובוטים בסוף היום.

קישורים

אתר תחום "רובוטים חיים ונושמים" של CSAIL :

המאמר "פילים לא משחקים שחמט":

אתר הרובוט דומו

ישראל בנימיני עובד בחברת ClickSoftware בפיתוח שיטות אופטימיזציה מתקדמות.

מתוך גיליון אוגוסט של "גלילאו"

מצאתם טעות בכתבה? כתבו לנו