בעידן שבו טכנולוגיות מתקדמות כמו בינה מלאכותית (AI) מעצבות מחדש את האופן שבו אנו מתקשרים ועובדים, עולה חשש מסכנות לא צפויות. כלי התמלול החדשני Whisper של חברת OpenAI נמצא במרכז סערה בעקבות דיווח ב-AP על אודות ממצאים מחשידים: תופעה המכונה "הזיות" (Hallucinations) - המצאה או זיוף של תכנים מסוגים שונים. החשש העיקרי היא שכלי התמלול "ממציא" תוכן כאשר הוא משמש לתמלול של חולים שמספרים על מצבם.
"הזיות" אלה מעוררות דאגה משמעותית בקרב מומחים, ומעלות שאלות קשות על השפעתה של הבינה המלאכותית ושל Whisper בפרט כשמדובר בשימושים רגישים כמו בתחום הבריאות. האם המהפכה הדיגיטלית טומנת בחובה סיכונים שעלולים להוביל לתוצאות חמורות?
ממצאי המחקר
חברת OpenAI התפארה בכך שכלי התמלול שלה Whisper המבוסס על בינה מלאכותית, מגיע ל"רמת דיוק ועמידות כמעט אנושית", אך למרות זאת נמצאו פגמים משמעותיים: הכלי החדשני נוטה להמציא על דעת עצמו קטעי טקסט או אפילו משפטים שלמים, וכן לבצע "השלמות" משלו שעלולות לכלול תוכן גזעני, אלים או המלצה על טיפול רפואי שגוי.
בעוד שרוב המפתחים מניחים שכלי תמלול עושים שגיאות איות או טעויות "קטנות" אחרות, מהנדסים וחוקרים אמרו שמעולם לא ראו כלי תמלול אחר מבוסס AI שמזייף כל כך הרבה כמו Whisper.
מומחים בתחום, כמו מהנדסי תוכנה, מפתחים וחוקרים אקדמיים חקרו את המקרים ואמרו שחלק מהטקסט המומצא, אותן "הזיות", הן בעייתיות מאוד כיוון ש-Whisper משמש במגוון תעשיות ברחבי העולם לתרגום ותמלול ראיונות, יצירת טקסט בטכנולוגיות צרכניות פופולריות ויצירת כתוביות לסרטונים. Whisper משמש גם ליצירת כתוביות לחירשים וכבדי שמיעה — אוכלוסייה בסיכון מיוחד לתמלולים שגויים.
מדאיג אף יותר, לדבריהם, הוא החיפזון של מוסדות רפואיים להשתמש בכלים מבוססי Whisper כדי לתמלל התייעצויות של מטופלים עם רופאים, למרות האזהרות של OpenAI שאין להשתמש בכלי ב"תחומים בסיכון גבוה".
חוקר מאוניברסיטת מישיגן שערך מחקר על פגישות ציבוריות אמר שזיהה "המצאות" בשמונה מתוך כל עשרה תמלולי שמע שבדק. מהנדס למידת מכונה אמר שגילה תחילה "הזיות" בכמחצית מיותר מ-100 שעות של תמלולי Whisper שניתח. מפתח שלישי אמר שמצא "הזיות" כמעט בכל אחד מ-26,000 התמלילים שיצר עם Whisper.
בחודש האחרון בלבד, גרסה אחת עדכנית של Whisper הורדה יותר מ-4.2 מיליון פעמים מפלטפורמת ה-AI בקוד פתוח HuggingFace. הבעיות נמשכות גם בדגימות שמע קצרות ומוקלטות היטב. מחקר אחרון של מדעני מחשב חשף 187 "הזיות" ביותר מ-13 אלף קטעי שמע קצרים וברורים שנבדקו. "מגמה זו תוביל לעשרות אלפי תמלולים פגומים על פני מיליוני הקלטות", אמרו החוקרים.
"הבינה המלאכותית היא 'מטרייה גדולה'", מסביר פרופ' רן בליצר, סמנכ"ל וראש מערך החדשנות בכללית, חבר בגוף המייעץ הבכיר למזכ"ל האו"ם לשימוש בבינה מלאכותית. "יש סוגים שונים של AI, חלקם ותיקים ויחסית בטוחים, וחלקם חדשים ומורכבים יותר וטומנים בחובם יותר סיכונים. הסוג שנמצא היום ב'התפוצצות' חיובית ברחבי העולם נקרא 'מודלי שפה גדולים', כמו ChatGPT, Claude ועוד. אחד הדברים שהם יודעים לעשות זה להאזין לשיחה ולתמצת אותה במומחיות כמו קצרנית מומחית. הכלים האלה הולכים ומשתכללים".
למה השימוש במודלי שפה כל כך חשוב?
"היכולות האלה - לתמצת, לסכם, לתמלל - משמשות להרבה יישומים, כמו למשל סיכום אוטומטי מיידי של דיונים", מסביר פרופ' בליצר. "היום, כשמנהלים שיחה בזום, אפשר לסיים שיחה ולקבל את התמצית של מה שקורה בשיחה. Whisper עושה בדיוק את זה. הכלי הזה עומד בבסיס של הרבה מאוד יישומים, גם בעולמות הבריאות. לייצר את הסיכום הרפואי תוך כדי שיחה בלי שהמטפל צריך להקליד הכל מילה אחר מילה, זה דבר מפתה מאוד, מאחר שהאינטראקציה בין המטפל למטופל משתפרת, המטפל יכול להתרכז בדברי המטופל מבלי להעביר חלק משמעותי מהזמן בלהקליד את דבריו. מדובר בחיסכון של זמן יקר. הכתבה שהתפרסמה בנושא מצאה כי יותר מ-30 אלף קלינאים ו-40 מערכות בריאות משתמשים ב-Whisper".
פרופ' רן בליצר: "לייצר את הסיכום הרפואי תוך כדי שיחה בלי שהמטפל צריך להקליד הכל מילה אחר מילה, זה דבר מפתה מאוד, מאחר שהאינטראקציה בין המטפל למטופל משתפרת, המטפל יכול להתרכז בדברי המטופל מבלי להעביר חלק משמעותי מהזמן בלהקליד את דבריו"
ד"ר אריאל ישראל, מנהל מכון המחקר בלאומית שירותי בריאות, מסביר אף הוא: "כלי ה-AI עשויים לשפר את הטיפול הרפואי. כיום משתמשים במודלים של AI לאיתור חולים בעלי סיכוי לחלות בסרטן המעי הגס, מודלים חדשניים שפיתחנו שבודקים סיכויים לגידולים ולסיבוכים, וזה מבורך. יש הרבה פוטנציאל להעלות את איכות העבודה של הרופאים, כמו למשל היכולת לתמלל בצורה מהירה יותר. אלא שצריך לעשות זאת בזהירות. בכל פעם שמשתמשים בכלי חדש, יש לבדוק שלא מכניסים איתו בעיות".
אז איפה מתחילות הבעיות?
יש כמה כשלים מובנים וידועים היטב במודלי שפה גדולים, מסביר פרופ' בליצר. אחד הכשלים המובנים הוא בעיית ה"הזיות", כלומר, שהמודל נוטה להמציא תכנים על סמך עצמו. "אמנם יש היגיון רב בעובדה שתכנים אלה יופיעו היכן שמופיעים, אלא שהם מעולם לא נאמרו. המודל ממציא טקסט שמשתלב באופן טבעי בתוך השיחה, כך שקל להאמין שהוא נאמר גם אם הוא לא באמת נאמר".
הבעיה של ה-'הזיות' במקרים כמו סיכומי דיונים, למשל, זו בעיה פחות חמורה מאשר טקסט שמעולם לא נאמר שנכנס לתוך סיכום רפואי, מוסיף פרופ' בליצר. "אחד הדברים שהמאמר המדובר קורא לו הוא צורך משמעותי יותר בבקרת איכות של כלים מהסוג הזה, שנכנסים לפרקטיקה הרפואית לפני שהם הופכים להיות חלק מהשגרה הקלינית היומיומית".
ד"ר אריאל ישראל: "אנחנו מלמדים את המחשב ואחר כך בודקים את התוצאות, אבל תמיד מקבלים דברים בלתי-צפויים והרבה מאוד פעמים בשימוש בכלים של AI נתקלים בתופעה הזאת של 'הזיות' - המחשב משלים מה שנראה לו הגיוני וסביר"
הוא מוסיף: "האתגר שנקרא 'הזיות' הוא אחד הסיכונים שדנו בהם בצוות המייעץ לאו"ם. במסמך ההמלצות הסופי שהוצאנו באירוע גדול שבו השתתפתי באו"ם לפני כחודש, אנחנו קוראים לכללים ולרגולציה בעולם ה-AI שיעשו איזון יותר נכון בין הפוטנציאל העצום של הטכנולוגיה הזאת להיטיב עם העולם ובייחוד עם אוכלוסיות חלשות (שלהן יש פחות נגישות למשאבים ולמומחיות מסוגים שונים) לבין ניהול הסיכונים המובנים ומניעת נזקים פוטנציאליים, שיכולים לקרות משימוש לא אחראי בטכנולוגיה מהסוג הזה בעולמות שונים לרבות עולמות הרפואה והבריאות".
ד"ר ישראל אומר ש"באופן כללי, כל הכלים שמבוססים על AI אלו כלים סטטיסטיים, כלומר הם הוזנו על ידי הרבה מאוד דאטה. אף אחד לא יכול להיכנס לכל הסיבוכים של החישובים הסטטיסטיים שהמחשב עושה, אנחנו מלמדים את המחשב ואחר כך בודקים את התוצאות, אבל תמיד מקבלים דברים בלתי-צפויים והרבה מאוד פעמים בשימוש בכלים של AI נתקלים בתופעה הזאת של 'הזיות' - המחשב משלים מה שנראה לו הגיוני וסביר".
הוא מדגיש את אחריות הרופאים והמטפלים לעבור על התוכן של כלי התמלול ולא להסתמך עליהם באופן עיוור: "נכון להיום לא ידוע לי על שימוש נרחב בארץ בכלים אלה, אבל גם כאשר נעשה שימוש בכלי תמלול מסוגים שונים, הרופא חייב לעבור ולחתום על הרשומה הרפואית. מדובר באחריות הרופא המטפל. כיוון שמדובר בכלים חדשים, אני לא חושב שיש מקרים בארץ שהגיעו לבתי משפט ושהתפתחו פסיקות בנושא, אבל כמובן שאחריות הרופא המטפל לעבור על סיכום דבריו".
איך מנהלים סיכונים בשימוש ב-AI במערכות בריאות?
אחד הכלים המובילים להתמודדות ולניהול הסיכונים שקשורים בשימוש ב-AI ברפואה הוא כלי שנקרא Optica, שזה בעצם סוג של צ'ק-ליסט שארגוני בריאות צריכים למלא לפני שהם מכניסים כלי AI כלשהו לשימוש שוטף. "זה אחד הכלים המתקדמים והייחודים מסוגם שקיימים בעולם כיום למטרה זאת", אומר פרופ' בליצר, "מדובר בפיתוח ישראלי ובגאווה ישראלית של צוות רב-מקצועי ורב-חטיבתי בשירותי בריאות כללית, שפורסם בעיתון החשוב בעולם בתחום זה, The New England Journal of Medicine AI. באמצעות הכלי הזה אפשר לבצע ניהול סיכונים וכן וידוא שאין תקלות בלתי מתכוננות שינבעו משימוש בכלי למטרות רפואיות".
הסיבה שכללית יכולה להיות הראשונה שמייצרת כלים מהסוג הזה היא בגלל שיש לה ותק של כמעט 15 שנה בהטמעת מערכות AI בפרקטיקה, ניסיון שיש למעט מאוד ארגונים אחרים בעולם. הניסיון הנצבר הייחודי הזה אפשר לה לייצר את הצ'ק-ליסט המדובר עם היכרות מעמיקה של כל שלבי הפיתוח וההטמעה.
פרופ' בליצר מדגיש שאי אפשר לעצור את הקדמה. ברור שכולנו רוצים שמערכות אוטומטיות מהסוג הזה יסייעו ויקטינו את העומס הטכני על המטפלים, ישפרו את איכות המפגש, וינגישו בסופו למטופל מידע רב יותר מסוכם וברור. אבל, הוא מדגיש, חשוב מאוד לעשות את התהליך הזה באחריות, ולעשות תהליך מסודר של בקרת איכות קפדנית לכלים מהסוג הזה כמו שאנחנו עושים לטכנולוגיות רפואיות 'קלאסיות', בגלל שההשלכות שלו עלולות להיות משמעותיות במישור הקליני ולא רק במישור האדמיניסטרטיבי. למשל, כאשר בשיח מהסוג הזה המודל ימציא המלצות רפואיות שהרופא לא אמר, או תלונות רפואיות שהמטופל מעולם לא הזכיר.
האם יהיה שימוש בכלי ה-AI החדשים בארץ בעולמות הרפואה?
לדברי פרופ' בליצר, "אנחנו, וכל גורם במדינת ישראל, לפני שיכניס לשימוש שוטף כלים מסוג מודל שפה גדול בתוך הפרקטיקה הרפואית, נצטרך לבדוק ולוודא שהכלים האלה בטוחים לשימוש ונמנעות תקלות מהסוג שהוזכר קודם: אבחנה שהרופא לא אמר או תלונות שהמטופל לא הזכיר, טעות בתמלול המינון או בשם התרופה שהרופא ממליץ עליה, או סוג הפעילות המומלץ. עד כה הקפדנו להשתמש בכלי AI קלאסיים של למידת מכונה שבדוקים ומוכרים כבר הרבה שנים, כאלה שלא סובלים מאתגרים כמו 'הזיות' שיש למודלי שפה".
"כשהכלים של מודל שפה יהיו טובים יותר ויציבים יותר, אני אשמח לראות הטמעה הדרגתית וזהירה שלהם לפרקטיקה כדי להקל על המטפל והמטופל כאחד", אומר פרופ' בליצר, "וכך לאפשר מיצוי של הזמן המשותף שלהם לשיחה בגובה העיניים ושלא מעורבת בה פעולה של הקלדה. זה לא חזון רחוק, זה כבר בעבודה – חברות ה-AI צריכות לעשות קפיצת מדרגה מצידן, ויזמים בעולם הרפואה צריכים להמשיך לפתח פתרונות חדשניים ובטוחים יותר עצמאית או על גבי הפלטפורמות הללו".
איך מתמודדות חברות הבריאות עם החששות סביב פרטיות המידע?
"כל הנושא הזה נמצא תחת רגולציה של משרד הבריאות", אומר ד"ר ישראל. "ההוראות שלהם די מגבילות. כל החברות, המוסדות והקופות שמשתמשים בכלים האלה צריכים להתאים את עצמם לרגולציה. ככל הידוע לי, הרגולציה מאוד קפדנית בארץ בכל מה שקשור למידע רפואי". לדבריו, בלאומית לא משתמשים כיום בכלי תמלול אבל בהחלט בודקים את האפשרות לשלב זאת בעתיד.
פרופ' בליצר מסכם במבט לעתיד: "כשהכלים יהיו טובים יותר ויציבים יותר אני אשמח לראות הטמעה הדרגתית וזהירה שלהם לפרקטיקה כדי להקל על המטפל והמטופל כאחד, וכן לאפשר מיצוי של הזמן המשותף שלהם לשיחה בגובה העיניים ושלא מעורבת בה פעולה של הקלדה".