השימוש בבינה מלאכותית, ובמיוחד במודלי שפה גדולים כמו ChatGPT, הולך ותופס תאוצה. עם זאת, עדיין עולה שאלה מהותית: עד כמה אפשר לסמוך על המודלים הללו בהבנת מידע רפואי מורכב? בעולם שבו החלטות רפואיות עשויות להציל חיים, שימוש בבינה מלאכותית ברפואה נראה מבטיח, אך גם דורש בדיקה קפדנית.
במסגרת מחקר חדשני שפורסם לאחרונה בכתב העת Computers In Biology and Medicine, החלטנו לבדוק אם מודלי בינה מלאכותית יכולים לספק כיום תשובות מדויקות לשאלות רפואיות. בחנו את יכולותיהם של מודלי שפה גדולים בתחום זה כדי לוודא שהם מותאמים לרפואה ומבינים היטב את השפה הרפואית - והופתענו מהתוצאות.
צ'אטבוט רפואי מספק כיום מענה על שאלות מטופלים כגון: חיזוי מחלות, יצירת נתונים סינתטיים לשמירה על פרטיות המטופל וכן, הפקת שאלות ותשובות רפואיות עבור סטודנטים לרפואה. בעוד מודלים של בינה מלאכותית בתחום הרפואי הפכו נפוצים, נתקלנו בשאלה קריטית: האם הם מסוגלים להבין את הדקויות הקריטיות בין מושגים רפואיים דומים? במיוחד, כאשר מדובר בקודים רפואיים הנדרשים להבנה ברמה גבוהה ומדויקת. לשם כך ביצענו השוואה בין מודלי AI כלליים למודלי AI מומחים בתחום הרפואה.
"המודלים של בינה מלאכותית העוסקים בפענוח טקסט מילולי הוכחו כיעילים בסיווג מידע. אולם כאשר הנתונים הופכים להיות מידע רפואי קליני מציל חיים, יש הכרח בהבנת המשמעות העמוקה של קודים רפואיים וההבדלים ביניהם. להבנה זו יש חשיבות קריטית בגילוי מוקדם של מחלות ובהצלת חיים"
כדי לבצע את ההשוואה הזו, בנינו שיטת הערכה ייעודית - MedConceptsQA - עבור תשובות לשאלות על מושגים רפואיים. ייצרנו יותר מ-800,000 שאלות ותשובות המכסות מושגים רפואיים בינלאומיים בשלוש רמות קושי, במטרה להעריך כיצד מודלי AI מפרשים מונחים רפואיים ומבחינים בין מושגים רפואיים, כגון היכולות שלהם לפרש מושגים רפואיים כדוגמת אבחנות, פרוצדורות ותרופות.
בעזרת האלגוריתם שפיתחנו, יצרנו באופן אוטומטי שאלות ברמות קושי משתנות המבקשות לבחור את התיאור הנכון של קוד רפואי נתון. בעוד שהשאלות הקלות דורשות ידע בסיסי, השאלות הקשות דורשות הבנה מפורטת ויכולת לזהות הבדלים קטנים בין מושגים רפואיים קרובים. שאלות בינוניות דורשות מעט יותר מיֵדע בסיסי.
"מידע קליני מציל חיים, דורש הבנת משמעות עמוקה של קודים רפואיים"
כאשר בחנו את יכולות ההבנה של המודלים הקיימים בעזרת השאלות שיצרנו, הבחנו שרוב המודלים הראו ביצועים גרועים השקולים לניחוש אקראי, ביניהם אפילו מודלי AI שהותאמו במיוחד לרפואה ולהם מידע רפואי רב.
יחד עם זאת, ChatGPT4 הראה ביצועים טובים מהשאר עם דיוק של כ- 60% בממוצע, אם כי אף הוא רחוק מלהשביע רצון. הופתענו לגלות שדווקא מודלים שנוצרו למטרות כלליות (כמו Llama3-70B ו-ChatGPT4) השיגו ביצועים טובים יותר. ChatGPT4 הציג את הביצועים הטובים ביותר, למרות שהדיוק שלו נותר לא מספיק עבור חלק מהשאלות של קודים רפואיים מסוימים. ChatGPT4 השיג שיפור ממוצע של 9-11% בהשוואה לLlama3-OpenBioLLM-70B, מודל השפה הקליני שהשיג את התוצאות הטובות ביותר.
המודלים של בינה מלאכותית העוסקים בפענוח טקסט מילולי הוכחו כיעילים בסיווג מידע. אולם כאשר הנתונים הופכים להיות מידע רפואי קליני מציל חיים, יש הכרח בהבנת המשמעות העמוקה של קודים רפואיים וההבדלים ביניהם. להבנה זו יש חשיבות קריטית בגילוי מוקדם של מחלות ובהצלת חיים.
באמצעות המחקר שלנו, ניתן להעריך את היכולות של מודלי שפה גדולים לפרש קודים רפואיים ולהבחין בין מושגים רפואיים. אנו מוכיחים שרוב מודלי ה-AI הרפואיים משיגים ביצועים שדומים לניחוש אקראי של בן אדם, ואילו ChatGPT3.5 ChatGPT4 ו-Llama3-70B עולים על המודלים הרפואיים הללו, למרות שהמיקוד של המודלים האלה הוא בכלל לא בתחום הרפואי. בעזרת מאגר השאלות שלנו, נוכל בקלות רבה להעריך מודלים אחרים שייצאו בעתיד, ולהשוות אותם למודלים אחרים.
נתונים קליניים כוללים לרוב גם קודים רפואיים סטנדרטיים וגם טקסטים בשפה טבעית. מחקר זה מדגיש את הצורך בשפה קלינית רחבה יותר במודלים להבנת מידע רפואי ואת הזהירות הנדרשת בשימוש נרחב בהם. לתוצאות מחקר זה יש השלכות פרקטיות על עולם הרפואה כיום. תוצאות המחקר המפתיעות מעוררות תהיות משמעותיות לגבי שאלה המעסיקה רבים מאיתנו, האם כדאי להשתמש במודלי AI רפואיים עבור חיזויים רפואיים אשר דורשים הבנה קלינית בקודים רפואיים?
דוקטורנט אופיר בן שוהם וד"ר נדב רפופורט, חוקרי בינה מלאכותית ברפואה מהמחלקה להנדסת מערכות תוכנה ומידע באוניברסיטת בן-גוריון בנגב