המבחן שהביך את ChatGPT: האם גם לבינה מלאכותית יש דמנציה?

מה יקרה אם ניתן למודלים מובילים של בינה מלאכותית מבחן שבודק תפקוד קוגניטיבי לקוי של בני אדם? זה בדיוק מה שעשו נוירולוגים בכירים מהמרכז הרפואי הדסה ומדען נתונים ישראלי. תוצאות המחקר החדש שראה אור בסוף השבוע בכתב העת הרפואי BMJ מעלות שלצ'אטבוטים המתקדמים יש חולשות קוגניטיביות ופגמים יסודיים. אז האם צ'אטבוטים יכולים להחליף רופאים? מתברר שזה לא יקרה כנראה כל כך מהר.
החוקרים גילו באמצעות מבחנים שפותחו לזיהוי פגיעות קוגניטיביות אצל בני אדם שמודלים מובילים, כמו ChatGPT ו-Gemini, מציגים קשיים בתחומים כמו תפיסה מרחבית וזיכרון מושהה, שמזכירים תסמינים של ירידה קוגניטיבית. הממצאים מטילים ספק ביכולת של בינה מלאכותית להחליף רופאים אנושיים בתחומים שדורשים אינטגרציה מורכבת ואמפתיה, ומעוררים דיון חדש על גבולות היכולות של טכנולוגיות אלו.
2 צפייה בגלריה 
המודלים החדשים לא ממש צלחו מבחנים לבדיקת ליקויים קוגנטיביים
(צילום: shutterstock)
המחקר התבצע על-ידי ד"ר רועי דיין, רופא בכיר במחלקה לנוירולוגיה במרכז הרפואי הדסה, ד"ר בנימין אוליאל, רופא בכיר ומומחה להפרעות קוגניטיביות מהמחלקה לנוירולוגיה במרכז הרפואי הדסה התבצע וגל קופלביץ, מדען נתונים בכיר.  
במסגרת המחקר נתנו החוקרים את מבחן MOCA (בשמו המלא Montreal Cognitive Assessment) ומבחנים נוספים שבודקים תפקוד קוגניטיבי לקוי (כמו דמנציה למשל) בקרב אנשים לכל הצ'אטבוטים המובילים. "נתנו אותם לשתי גרסאות של ChatGPT, וכן לגרסאות של Gemini, המודל של גוגל, ול-Claude שנחשב לאחד ממודלי השפה הכי חזקים כרגע, ופשוט נתנו להם ציון כמו שנותנים למטופל", מספר קופלביץ.
לאחר בחינת התוצאות זיהה צוות המומחים כי הצ'אטבוטים התקשו במיוחד בתפקוד החזותי. "מבחן ה-MOCA מורכב מכמה חלקים, שבוחנים יכולות קוגניטיביות שונות, כמו זיכרון לטווח קצר, יכולות הפשטה, ותפיסה חזותית. במטלות כמו ציור שעון עם השעה 11:10, או שרטוט קו בין סדרת מספרים ואותיות – הם התקשו במיוחד", מוסיף קופלביץ.
פגם בסיסי עם השלכות משמעותיות
ד"ר רועי דיין מציין כי "הפשטה ויזואלית הייתה בעיקר התחום שבו הצ'אטבוטים לא הצליחו. למשל, במבחן השעון – הרבה פעמים הצ'אטבוט מצליח לצייר את השעון עם המספרים אבל כדי לשים את המחוגים במקום הנכון צריך יכולת של הפשטה, מפני ש-10 דקות הן לא בדיוק במספר 10 אלא במספר שתיים. אף אחד מהמודלים לא הצליח לעשות את זה למרות שהם יכולים לצייר דברים מאוד מתקדמים ויפים. לאחר מכן נתנו להם מבחנים אחרים שבודקים הפשטה ויזואלית וכולם די פישלו בזה. יש פה מסקנות אמיצות כי אנחנו רואים פגם בסיסי בכלי הזה שלפי דעתי יש לו השלכות משמעותיות".
ד"ר רועי דיין צילום: אלבום פרטי
הבינה המלאכותית חווה התפתחות מואצת ב-12 השנים האחרונות ומתפתחת כמעט לכל תחומי חיינו, "אחת מפריצות הדרך הייתה שימוש ברשתות נוירונים ל'למידה עמוקה', שיטה חישובית שהוכיחה את עצמה בהתחלה בעיקר בזיהוי דפוסים – תמונות, טקסט, תרגום. אלו מטלות שהרבה שנים מחשבים התקשו איתן, וכמעט בבת אחת, אחוזי ההצלחה נהיו מאוד גבוהים", מסביר קופלביץ.
פריצת דרך נוספת נרשמה בשנת 2017, עם טכנולוגיה שנקראה "טרנספורמרים", הציבור הרחב נחשף אליה ב-2022, עם הפריצה של ChatGPT לתודעה של כולנו. "ההברקה של OpenAI, שפיתחו את ChatGPT, הייתה המודל של ניהול שיחה ישירה עם צ'אטבוט – שלמד קודם לכן כמות אדירה של טקסט, ויכול היה 'לדבר' במומחיות על כמעט כל תחום", מסביר קופלביץ, "וביניהם כמובן גם רפואה". 
2 צפייה בגלריה 
מודלי השפה יכולים להחליף רופאים? לא כל כך מהר
(צילום: shutterstock)
המחקר הישראלי החדש הזה מצביע על מגבלות הבינה המלאכותית, "בשנים האחרונות יש הרבה ניסיונות ליישם את זה גם בתחום הרפואה סביב כל ההתמקדות במודלי השפה הגדולים", אומר ד"ר דיין, "אנחנו לצערי הולכים קצת אחרי הטכנולוגיה. הרבה פעמים מטופלים שלנו שואלים שאלות את הצ'אט ונעזרים בו, ואני בתור נוירולוג מתעסק בבחינות לזיהוי דמנציה. עניין אותי לראות אם ChatGPT יכול לעבור את הבחינות הבסיסיות לזיהוי תפקוד קוגניטיבי לקוי. הרי במבחני ההסמכה של רפואה בודקים שליפה של ידע רחב, אבל אנחנו יודעים שקוגניציה היא הרבה יותר רחבה מזה – בן-אדם יכול לשלוף הרבה פרטי טריוויה אבל עדיין לסבול מדמנציה".
מה השלכות שיש למחקר שביצעתם?
ד"ר דיין: "חלק מהדיון כיום סובב סביב השאלה אם מודלי השפה יכולים להחליף רופאים, ולא אתפלא אם בקרוב מאוד קופות החולים יתחילו להשתמש בהן כצעד ראשוני, אך חלק מהאינטראקציה הרפואית היא לא רק לזרוק פרטי ידע, אלא גם הפשטה של דברים ויזואליים ואנחנו עדיין לא שם.
ד"ר רועי דיין: "חלק מהדיון כיום סובב סביב השאלה אם מודלי השפה יכולים להחליף רופאים, ולא אתפלא אם בקרוב מאוד קופות החולים יתחילו להשתמש בהן כצעד ראשוני, אך חלק מהאינטראקציה הרפואית היא לא רק לזרוק פרטי ידע, אלא גם הפשטה של דברים ויזואליים ואנחנו עדיין לא שם"
"המחקר שלנו מראה שזה עדיין רחוק. לא אתפלא אם עכשיו כשהמחקר יצא, כל החברות ילמדו באופן מלאכותי את הצ'אטבוטים שלהם את המבחן הספציפי הזה, אבל זה עדיין מעיד על פגם מאוד בסיסי בקוגניציה לכאורה של המודלים. מבחינתי, בתור רופא, יש לזה לא מעט השלכות".
מאידך, לאור קצב ההתפתחות המהיר של הבינה המלאכותית, קופלביץ סבור שבעתיד אולי גם המחקר הזה יהיה פחות רלוונטי. "נכון לזמן כתיבת המאמר אלו היו הביצועים של המודלים השונים, אבל התחום הזה מתקדם כמעט מיום ליום", הוא מסביר.
"הראינו בקריצה שכמו בני אדם מבוגרים, צ'אטבוטים מבוגרים – כלומר, גרסאות ישנות יותר – נוטים לדרדור קוגניטיבי משמעותי יותר, ומקבלים תוצאות פחות טובות במבחן", הוסיף קופלביץ. "אבל לצד הדמיון הזה, המחקר גם מזהה ומצביע על נקודות של שוני מהותי בין קוגניציה של בני אדם לבין זו של מכונות – וזה מה שמעניין בעינינו באמת".