בין בינה לאבולוציה

האם קיים קשר בין בינה והיכולת ללמוד לבין אבולוציה? וכיצד יכולה אינטיליגנציה מלאכותית לתת לנו נקודת מבט מעניינת על הקשר הזה?

ישראל בנימיניעדכון אחרון: 12.06.03 , 11:18

בסוף המאה ה-19 שאל הפסיכולוג ג'יימס בולדווין (Baldwin) מהו היתרון האבולוציוני של יכולת למידה: מדוע יכולת כזאת תגביר את הסיכוי של היצורים שניחנו בה להוריש את הגנים שלהם לדור הבא? במבט ראשון, התשובה פשוטה: יצור שיימנע מלחזור על שגיאות, ושיוכל לחזור על אסטרטגיות שהוכחו כמוצלחות, יחיה יותר זמן, יזכה ביותר תחרויות על בני זוג, ולכן יהיו לו יותר צאצאים שיישאו את הגנים שלו – כולל הגנים התורמים להצלחת הלמידה. אבל בולדווין ראה כי בתשובה זו יש קושי.
כידוע, קיימים חרקים רעילים, ורוב החרקים האלה הם בעלי צבעי אזהרה בולטים. בכך החרק "מודיע" לציפור: "לא כדאי לאכול אותי – אני גורם לכאב בטן!". אבל איך תבין הציפור את ההודעה? אפשר לדמיין ציפור שהגנים שלה כבר כוללים בתוכם התנהגות מתוכנתת מראש של הימנעות מאכילת חרק בעל צבעי אזהרה. אפשר גם לדמיין ציפור אחרת שהגנים שלה מאפשרים לה לקשר כאב בטן לאכילת חרק מסויים קצת לפני כן. איזה תכנון יותר יעיל? הציפור הלומדת תצטרך לפחות פעם אחת לעבור את דרך הייסורים, אלא אם כן היא מסוגלת לזהות סבל אצל ציפור אחרת, לזכור מה אכלה אותה ציפור, ולקשר בין הדברים; או אם כל ציפור לומדת את מנהגי האכילה של הוריה. למידה היא גם תהליך פחות אמין – אירועים בלתי-צפויים עשויים להפריע לקישור בין הסיבה למסובב.
עד רגע הלמידה, הציפור פגיעה לאכילת רעלים שעשויים לגרום למותה ישירות או בעקיפין (למשל, על ידי כך שטורף ילכוד אותה יותר בקלות). לעומת זאת, התנהגות מתוכנתת פועלת בצורה אמינה החל מדקת החיים הראשונה. בנוסף לכך, למידה דורשת משאבים: היא עשויה לדרוש תוספת רקמת מוח, היקרה במשקל ובצריכת אנרגיה. לפי שיקולים אלה, ניתן לצפות כי לציפור ה"מתוכנתת מראש" יש יותר סיכוי לשרוד, ובמהלך האבולוציה הגנים שלה יתפשטו באוכלוסיה על חשבון הגנים של הציפור ה"חכמה".
חלק מהקוראים ודאי כבר מתנגד לטיעון זה: יש הרבה דברים ללמוד, וחלק מהם עשויים להשתנות מדור לדור. היתרון של למידה הוא בגמישותה וביכולתה להתמודד עם מציאות משתנה, אפילו במהלך דור אחד, מול המספר הרב של דורות הנדרש לאבולוציה לנצל מגוון גנטי ומוטציות באוכלוסייה כדי "לגלות" את הקוד הגנטי הנדרש לתכנות ההתנהגות הרצויה. התנגדות זו אינה מדוייקת: הרבה מאוד דברים נשארים קבועים לאורך הדורות, כמו העובדה שרוב החרקים בעלי צבעי האזהרה הם רעילים. האם לא "משתלם" לציפור לקודד ידע כזה בצורה גנטית?

בינה מלאכותית, למידה ואבולוציה

לפני שנחזור לשאלתו של בולדווין, נסביר מה למדור בינה מלאכותית ולסוגיות באבולוציה, על ידי כך שנשאל שאלה מקבילה הלקוחה מעולם הבינה המלאכותית: אנו רוצים לפתח תוכנה לניהול מכונת ייצור מסובכת, שתזהה אוטומטית מצבי סכנה פוטנציאלית ותנקוט את הצעדים הדרושים לפיתרון. אפשרות אחת היא לנתח מראש את כל האפשרויות שהתוכנה עשויה להיתקל בהן, ולכתוב פקודה בתוכנה לזיהוי ותגובה עבור כל אפשרות. שיטה זו דורשת מתכנן יודע-כול (ובעל מספיק זמן להביע בפקודות מחשב את כל הידע שלו), מכיוון שהתגובה הנדרשת למצב שבו ראינו גם A וגם B אינה צירוף התגובות הנדרשות במצב A בלבד ובמצב Bבלבד גרידא. במילים אחרות, מספר האפשרויות שיש לטפל בהן עשוי להיות גדול מכדי להיות מעשי. הרעיון המקביל בהסברת מורכבות בעלי החיים הוא הבריאה על ידי אל כל-יכול.
אפשרות אחרת היא לכתוב תוכנה "לומדת". בתחילה היא תשגה לעיתים קרובות מאוד, אך בעזרת משוב על הצלחה או כישלון היא תשתפר בהדרגה. מובן שאם נוכל ליצור סימולציה ממוחשבת של מכונת הייצור, נפעיל את התוכנה הלומדת מול סימולציה זו וכך נחסוך זמן ונזקים. אחת השיטות המקובלות ביותר לבנות תוכנה כזו היא "רשת נוירונים": התוכנה מדמה אוסף של תאי עצב ואת הקשרים ביניהם, כאשר חלק מתאי העצב מופעל על ידי דיווחי מצב ממכונת הייצור, וחלק אחר שולט על פונקציות אותה מכונה.
החיבורים בין תאי עצב וירטואליים אלה קובעים באיזה מידה הפעלת תא עצב מסוים תגרום לעירור, או דיכוי, פעולת תא עצב המחובר אליו. רשת בעלת חיבורים נכונים תגיב נכון לכל דיווח מצב. אם הסימולציה מראה כי הרשת הגיבה לא נכון למצב מסויים, הרשת "תלמד" זאת על ידי שינוי תבנית החיבורים בין תאי העצב. אם בנינו היטב את הרשת ואת תהליכי עדכון תבניות החיבורים, אזי לאחר מספיק ניסיונות כאלה הרשת תתפקד יפה ברוב המצבים האפשריים, אפילו כאלה שלא קרו בתהליך הלמידה.
אפשרות שלישית היא לבנות את התוכנה בשלבים, על ידי שיטה הנקראת "אלגוריתם גנטי": נתחיל מאוסף תוכנות השונות ביניהן בתגובתן לכל אירוע, ונבחן את ביצועיהן מול סימולציית מכונת הייצור. נקרא לאוסף זה "הדור הראשון". למרות שאף אחת מהתוכנות לא תהיה טובה במיוחד, נוכל למצוא את הטובות ביותר מתוכן ו"להכליא" אותן על ידי כך שניצור מהן אוסף תוכנות "דור שני": כדי לבנות תוכנה עבור הדור השני, נבחר שני "הורים" מתוך התוכנות המוצלחות יותר בדור הראשון ונבנה את התנהגות התוכנה החדשה מתוך חלקים של התנהגות כל אחד מההורים, בתוספת כמה שינויים מקריים ("מוטאציות"). כאשר נבחן את ביצועי תוכנות הדור השני, נמצא כי חלק מהצאצאים טובים יותר מהוריהם וחלק טובים פחות, אך בממוצע דור זה יהיה בדרך כלל טוב יותר. נמשיך בשיטה זו לאורך כמה מאות או אלפי דורות, וסביר שנמצא תוכנה בעלת התנהגות טובה.
ברור כי האלגוריתם הגנטי שואב את השראתו מתורת הברירה הטבעית של דרווין, כאשר תוכנות טובות יותר זוכות ליותר צאצאים הדומים להן, ורשת הנוירונים מחקה מודלים פשטניים של המוח האנושי ושל צורת הלמידה שלו.

אינטראקציה בין למידה לתורשה

אם היה מתאפשר ללמידה של דור אחד להירשם במטען הגנטי שיורש הדור הבא, כמו בהשערה שהציע לאמארק (Lamarck), היינו יכולים לזכות בכל היתרונות: למידה לטיפול במצבים חדשים, אם גם באמינות מוגבלת, יחד עם התנהגות מולדת ואמינה עבור מצבים שהדור הקודם כבר נתקל בהם. דרווין עדיין חשב כי יש מקום גם לאבולוציה "לאמארקיאנית", אך האמין כי מודל הברירה הטבעית משפיע יותר על התפתחות המינים. לאחר ימיו של דרווין, כאשר הובן המנגנון הגנטי, התברר כי אירועים במהלך החיים אינם יכולים לשנות את הקוד הגנטי המורש לצאצאים.
אך עוד לפני גילוי מנגנוני התורשה ראה בולדווין כי גם בתורת דרווין קיימת דרך עקיפה שבה למידה גורמת לשינוי אבולוציוני. רעיון זה, שפורסם ב- 1896, ושהוצע בנפרד באותה שנה גם על ידי Lloyd Morgan ו- Osborn, נקרא כיום בשם "אפקט בולדווין". נחשוב על אוכלוסייה של ציפורים המתפשטת לסביבה חדשה, שבה יש חרק רעיל מסוג שלא נתקלו בו בעבר. מכיוון שכך, אין לצפות כי ההתנהגות המולדת תגן עליהן: אם הציפורים אינן יכולות ללמוד, ייתכן שהן לא ישרדו בסביבה החדשה.
אם הן יכולות ללמוד, עדיין צפוי כי חרק זה יגרום להרבה מהציפורים לקשיים. קשיים אלה יוצרים הזדמנות לאבולוציה: אם במרוצת הדורות הבאים תופיע באוכלוסייה תכונה תורשתית הגורמת לאי-אכילת החרק, תכונה זו תגביר את שרידות הציפורים הנושאים אותה, ותתפשט בהדרגה באוכלוסייה. במודל זה, תפקיד הלמידה הוא לשמש כפיתרון מיידי, אם גם לא מושלם, לבעיה שאחרת היתה מכחידה את הקבוצה. פיתרון זה "קונה" מספיק זמן לאבולוציה ליצור פיתרון אמין יותר.

סימולציה של אבולוציה

אפקט בולדווין נשמע משכנע, אך לא ברור עד כמה הוא נפוץ, ואיזה חלק הוא שיחק בהתפתחות המינים – מכך שדבר עשוי לקרות אין להסיק כי הוא אכן קרה. בניסיון להבין את הכוח הפוטנציאלי של אפקט זה, פנו כמה חוקרים לסימולציות ממוחשבות. אחד מהמחקרים הידועים בוצע ב- 1987 על ידי ג'פרי הינטון וסטיבן נולן (Hinton, Nowlan). הם שילבו רשת נוירונים פשוטה, בעלת עשרים קשרים פוטנציאליים בין תאי העצב – כלומר כל קשר כזה יכול להיות קיים (1) או מנותק (0).
המחקר נבנה כך שרק אפשרות אחת היתה נכונה, מתוך כמיליון האפשרויות של צירופי 0 ו- 1. כל "יצור" בסימולציה "נולד" עם מבנה מסויים של קשרים, אך חלק מהקשרים סומנו כקבועים מראש וחלק כניתנים ללמידה. במשך חיי אותו יצור, הוא יכול ללמוד בשיטה פשוטה: ניסוי של עד אלף צירופים שונים של "קיים" או "מנותק" עבור אותם קשרים שלא היו קבועים מראש. אם כל עשרים הקשרים ניתנים ללמידה, הסיכוי לקלוע באלף ניסיונות לאפשרות אחת מתוך מיליון הוא כמובן קטן מאוד. קיום קשרים קבועים מראש לערך המתאים לפיתרון יעזור להגביר את הסיכוי להצלחת הלמידה – למשל, אם צריך "לנחש" את הערך הנכון רק עבור עשרה קשרים שלא נקבעו מראש, יש לבדוק אלף אפשרויות בלבד. מצד שני, אם אחד מהקשרים הקבועים מראש נקבע לערך מוטעה, אז ודאי שהלימוד לא יועיל.
הניסוי החל עם אלף יצורים שונים, כל אחד מהם עם תבנית קישורים אקראית שנבחרה כך ש- 50% מהקישורים ניתנים ללמידה, 25% נקבעו לערך נכון ו-25% נקבעו לערך שגוי. אלגוריתם גנטי בחר את אותם יצורים שהצליחו ללמוד את הפיתרון הנכון באלף הניסיונות שהוקצבו, ו"הכליא" אותם כדי ליצור אלף צאצאים חדשים בכל דור. תוך חמישים דורות בלבד עלה אחוז הקשרים הקבועים מראש ה"נכונים" מ-25% לכ- 60%, בעוד אחוז הקשרים הקבועים מראש ה"לא נכונים" ירד מ-25% לאפס. באותם דורות, עלתה השרידות הממוצעת מערך נמוך מאד עד 90%. בכך נצפה בפעם הראשונה אפקט בולדווין בעולם הווירטואלי – יכולת הלמידה היא שאיפשרה לאבולוציה לפעול, ואחת מתוצאות האבולוציה היתה צמצום החופש ללמידה על ידי הורדת מספר הקשרים הניתנים ללמידה.
מחקר ראשוני זה היה פשטני מאוד בצורה שהוא דימה את מנגנוני הלמידה והתורשה. מחקרים מאוחרים יותר, כמו של דייויד אקלי ומייקל ליטמן (Ackley, Littman) ב- 1992, הראו את אותו אפקט תחת מנגנונים ריאליסטיים יותר. סימולציות כאלה עוזרות לביולוגים אבולוציונים לחקור תופעות והסברים אפשריים תחת תנאים מבוקרים, ובלא לחכות למעבר של אלפי דורות.

סימולציה של אינטליגנציה

בתורם, לומדים אנשי הבינה המלאכותית ממחקרים אלה איך לכתוב תוכנה "חכמה" יותר. מאפקט בולדווין נובעת גישה אפשרית לשיפור תוכנות המחפשות פיתרון בתוך מרחב אפשרויות ענק – כמו תוכנת בקרת הייצור בדוגמה שהוצגה בתחילת המאמר. הגישה היא שילוב של אבולוציה ולמידה: במקום לבחון את ביצועי התוכניות בכל דור חדש רק פעם אחת, נאפשר לתוכנית ללמוד בצורה המוגבלת בזמן, ומוגבלת על ידי התכונות שאיתן "נולדה", ונמדוד את ביצועי התוכניות בכל דור בסוף תהליך הלמידה. ביצועים אלה, לאחר שלב השיפור העצמי, הם שיקבעו איזה מהתוכניות יתרמו חלקים מעצמן לתוכניות בדור הבא.
ישות מעורבות כאלה הפכו לפופולריות למדי בשנים האחרונות. בדוגמה אחת מרבות, השתמשה השנה קבוצת סטודנטים מאוניברסיטת בר-אילן ברעיון דומה כדי לפתור בעיה סבוכה בתחום אופטימיזציית מסלולי נסיעה, תחת הנחיית כותב מאמר זה. שלושת הסטודנטים – ליאת ברזילי, ראובן דגן ועוזי זהבי – בחנו שיטה חדשנית של אופטימיזציה. ללא תוספת שלב השיפור העצמי, היה הפיתרון הטוב ביותר שהושג בגישה זו נחות משמעותית מהפיתרון הטוב ביותר שהושג בשיטות קודמות. עם שיפור עצמי של כל פיתרון לפני מעבר לדור הבא, הושג בסופו של דבר "שיא חדש" באיכות הפיתרון, בזמן חישוב קצר להפליא.

התפתחות הבינה הטבעית

הסיפור על הציפורים והחרקים הרעילים נראה כאילו הוא מוביל לסתירה בין תכנות מראש לבין למידה: אפשר להימנע מסכנות או על ידי גנים המכתיבים התנהגות מולדת, או על ידי גנים הבונים מערכות עצביות המסוגלות ללמוד, ומכאן שאין צורך בשניהם. אפקט בולדווין עומד בניגוד גמור לסתירה מדומה זו, ואפילו מסביר איך יכולות להתפתח אותן מערכות עצביות, שהן מסובכות ביותר בקידודן הגנטי.
לדעת סטיבן פינקר, בספרו "איך המוח פועל" (1997): "אפקט בולדווין שיחק כנראה תפקיד חשוב בהתפתחות המוח. בניגוד להנחה המקובלת במדעי החברה, למידה אינה שיא של אבולוציה שהושג רק לאחרונה על ידי בני אדם. כל החיות, פרט לפשוטות ביותר, לומדות... אם יכולת למידה היתה קיימת באב קדמון של החיות הרב-תאיות, היא היתה יכולה להנחות את האבולוציה של מערכות העצבים למעגלים המתמחים שלהן, גם כאשר מעגלים אלה כה מורכבים שהברירה הטבעית לא היתה מוצאת אותם בעצמה." הניסוי של הינטון ונולן מדגים רעיון זה על ידי אבולוציה של רשת עצבית בעלת קישורים נכונים תוך ניצול יכולת פשוטה ביותר – ניסוי וטעיה באופן אקראי.
ומה אם המעגלים העצביים המתפתחים בצורה זו משמשים בעצמם ללמידה? כמו הברון מינכהאוזן המחלץ את עצמו מהבוץ על ידי כך שהוא אוחז בשער ראשו ומושך בחוזקה כלפי מעלה, ייתכן כי אנו חייבים את יכולת הלמידה המופלאה שלנו ללמידה הפרימיטיבית של אב קדמון עתיק מאוד. אולי אפשר לחקות תהליך אבולוציוני-למידתי כזה כדי ליצור בינה מלאכותית "אמיתית".