כיצד אנו לומדים מיומנויות חדשות כגון צעדי ריקוד חדשים, חבטה בכדור, קליעה לסל או כתיבה? אחד המנגנונים החשובים בלמידה ובשיפור מיומנויות הוא למידה באמצעות חיזוקים – Reinforcement Learning.
למידה באמצעות חיזוקים מבוססת על משובים חיוביים ושליליים המאפשרים שיפור מתמיד. מנגנון הישרדותי חשוב זה, שהתפתח ביונקים במהלך האבולוציה, מהווה השראה עבור מהנדסים היוצרים מערכות מלאכותיות לומדות המשפרות את ביצועיהן באופן אוטומטי על סמך המשוב שהן מקבלות על פעולות קודמות שלהן.
צוות בין-תחומי של חוקרי הטכניון מהפקולטה לרפואה ע"ש רפפורט ומהפקולטה להנדסת חשמל ע"ש ויטרבי חקר את התהליך המוחי המתרחש בבעלי חיים בלמידה באמצעות חיזוקים. את המחקר שהתפרסם בכתב העת Neuron הובילו פרופ' ג'קי שילר, פרופ' עמרי ברק והדוקטורנטים שחר לוי ומריה לבזין מהפקולטה לרפואה ע"ש רפפורט, פרופ' רונן טלמון ופרופ' רון מאיר מהפקולטה להנדסת חשמל ע"ש ויטרבי וד"ר הדס בן איסטי, פוסט-דוקטורנטית בהנחיה משותפת של פרופ' שילר ופרופ' טלמון.
החוקרים הצליחו למפות מנגנון של משוב מוחי המסייע ליונקים לשפר את מיומנויותיהם בפעולות מוטוריות המצריכות תנועות ידיים עדינות ומורכבות. באמצעות דימות וכלים גנטיים, התנהגותיים וחישוביים חקרו החוקרים את המנגנונים המוחיים המאפשרים לעכבר ללמוד תנועה מורכבת בגפה הקדמית.
לפני העכבר הונחו פיסות מזון על מגש מסתובב, והעכבר נדרש ללמוד לתפוס אותן ולהביאן לפיו כדי לאכול אותן – בדומה לילד קטן הלומד לאכול בידיים. כדי לרכוש מיומנות זו נדרשת למידה של תנועה מורכבת, והעכבר מצליח רק בכמחצית מהניסיונות גם לאחר שהוא נהיה "מומחה". החוקרים גילו כי תהליך הלמידה, המאפשר לעכבר לשפר את תנועות הידיים שלו מניסיון לניסיון, קשור לתיעוד של הצלחות וכישלונות. לתיעוד זה אחראיות שתי אוכלוסיות נוירונים שונות וייחודיות השוכנות בקליפת המוח המוטורית - "נוירוני הצלחה" ו"נוירוני כישלון".
פרופ' שילר אמרה כי "נוירוני ההצלחה והכישלון" אינם מתעדים כל תנועה בנפרד, וגם לא את התגמול עצמו (האוכל), אלא הם משקללים את מכלול הפעולה וזוכרים אם החיה הצליחה או נכשלה בהשגת המטרה (end result) - השגת המזון, במקרה זה. ממצאי המחקר מצביעים על כך שהפעולה החישובית שהנוירונים האמורים מבצעים במוחם היא פעולה מורכבת המשקפת ייצוג מנטלי גבוה ולא רק ייצוג של התנועה או של התגמול לבדם.
החוקרים גילו כי ניסיונותיו של העכבר ללמוד תנועה חדשה (motor learning) מטביעים במוחו עקבות של כישלון והצלחה, ועקבות אלה מצטברות לכדי זיכרון מוטורי המאפשר לו להשתפר מניסיון לניסיון. הפעילות המוחית של הצלחה וכישלון מתרחשת בשכבות השונות של קליפת המוח, הקורטקס. בתחילה היא מחושבת בשכבה החיצונית יותר של קליפת המוח המוטורית, ואז היא נשמרת ומועברת לרשת העצבית בשכבות העמוקות יותר של קליפת המוח, שם מנוסחות פקודות התנועה הבאה.
גילויים של "נוירוני ההצלחה והכישלון" הוא צעד ראשון וחשוב בהבנה של המתרחש בקליפת המוח בשעת למידה באמצעות חיזוקים. עם זאת, אומרים החוקרים, עדיין רב הנסתר על הגלוי. "בעתיד נרצה לגלות, לדוגמה, מהם המסלולים המוחיים המשתתפים בהפעלת תאים אלה וכיצד אפשר להשתמש באותות אלה, בשילוב עם ממשקי מכונה-מוח, לשיפור התנועה בחולים, כגון חולי פרקינסון".
בשל מורכבותם של יחסי הגומלין בין תנועה לפעילות מוחית הצריך המחקר הנוכחי שילוב בין שיטות ניסוי שונות בעת ובעונה אחת – מניפולציות התנהגותיות, משימות מורכבות של כף היד, מיפוי סידן בתאים והתערבות אופטוגנטית (הפעלה או דיכוי של תאי המוח על ידי אור). לשם כך חברו חוקרי הפקולטה לרפואה, שהובילו את הצד הניסויי, לחוקרים מהפקולטה להנדסת חשמל שהובילו את הצד החישובי. במחקר השתתף פרופ' אדם הנטמן ממכון הווארד יוז בארצות הברית, שם שהתה פרופ' שילר יחד עם תלמידתה ד"ר מריה לבזין והגתה את הפרויקט. במחקר תמכו תוכנית המחקר המשותפת ישראל-ארה”ב (BSF-NSF), רשויות הבריאות האמריקניות (NIH), הקרן הלאומית (הישראלית) למדע (ISF), קרן אדליס ומרכז פרינס.