האם ל-ChatGPT יש חולשות אנושיות? חוקרים ישראלים מחברת הסייבר נוסטיק (Knostic) חשפו שיטת תקיפה חדשה על מערכות בינה מלאכותית. החוקרים הצליחו לנצל תכונה של ״אימפולסיביות״ ב-AI, להערים על הבינה המלאכותית ולגרום לה לענות תשובות שהיא תתחרט עליהן, תוך כדי עקיפה של מנגנוני ההגנה.
הממצאים פורסמו היום (ג') במחקר על שיטות התקפה חדשות על מודלי שפה גדולים (Large Language Model או LLM) הנקראת Flowbreaking, או שבירת זרימה. שיטת ההתקפה החדשה מתמרנת את המערכת כדי לקבל ממנה תשובה שהמערכת סיננה מראש והייתה אמורה לחסום - מהמשכורת של הבוס, התכתבויות רגישות, ועד סודות מסחריים - תוך עקיפת את מנגנוני ההגנה הפנימיים. במקביל, החוקרים הצליחו לגרום ל-ChatGPT לספק הוראות ברורות כיצד יכולה ילדה לפגוע בעצמה ("self harm"). בעולם הבטיחות במודלי שפה מדובר בהצלחה משמעותית, מעבר לדרך נוספת להערים על המודל.
ניצול הרכיבים הפנימיים של מודלי השפה
בפועל, המתקפה החדשה מנצלת את הרכיבים הפנימיים של אותם מודלי שפה גדולים, על מנת לגרום למודל לתת תשובה לפני שמנגנוני הבטיחות הספיקו בכלל לבדוק אותה. חוקרי Knostic גילו כי בתנאים מסוימים הבינה המלאכותית ״פולטת״ מידע שהיא אינה אמורה להסגיר לידי המשתמש - ואז מוחקת אותו מיד כשהיא "מבינה" את טעותה, כאילו התחרטה.
המחיקה המהירה יכולה לחמוק מתחת לעיניו של משתמש לא-מנוסה, מכיוון שהטקסט מופק ונמחק תוך שברירי שנייה. למרות זאת, התשובה הראשונית עדיין מופיעה במשך אותם רגעים קצרים על המסך, ומשתמשים שמקליטים את הצ'אטים שלהם, יכולים לחזור ולעיין בה. בהתקפות ישנות יותר, כמו לדוגמא Jailbreaking, נעשה שימוש ב״טריקים״ לשוניים כדי להערים על הגנות המערכת. בשיטה זו, עדיין ניגשים אל המודל באמצעות שיחה, אבל מנטרלים את יכולת מנגנון ההגנה לבצע את תפקידו מראש.
בנוסף, פרסמו החוקרים שתי חולשות שמנצלות את שיטת ההתקפה החדשה, כדי לגרום למערכות כמו ChatGPT של OpenAI ו-מיקרוסופט 365 Copilot להדליף מידע שהן לא אמורות לחשוף, ואפילו להשפיע זדונית על המערכת עצמה. ״מערכות מודל גדול הן רחבות יותר מהמודל עצמו ובנויות מרכיבים רבים, כגון מנגנוני הגנה, וניתן לתקוף כל רכיב כזה ואף את האינטראקציה בין הרכיבים השונים״, אמר גדי עברון, מנכ״ל ומייסד Knostic.
לדוגמא, אחת מהחולשות שנחשפו, שנקראת ״במחשבה שניה״ (second-thoughts), מנצלת את העובדה שהמודל לעיתים ישלח את התשובה למשתמש לפני שהיא הגיעה למנגנון ההגנה לבדיקה. כך, המודל מזרים (Streaming) את התשובה למשתמש, בעוד מנגנון ההגנה נכנס לפעולה לאחר מעשה, ומוחק את התשובה, אבל אחרי שהמשתמש כבר הספיק לראות אותה.
בחולשה השנייה שפרסמה Knostic, עצור וזרום (Stop and Roll), שגם היא מנצלת את הרכיבים הפנימיים של האפליקציה של מודל השפה הגדול, המשתמש לוחץ על "עצור״, מה שאכן גורם למערכת להפסיק את פעילותה, אבל היא תציג למשתמש את התשובה שהספיקה להכין בינתיים, מבלי לשלוח אותה למערכות ההגנה קודם לכן.
״טכנולוגיות מודלי שפה גדולים מספקות את התשובה בלייב באופן מובנה, מבלי שתהיה להן יכולת טכנולוגית לדאוג לנושאי אבטחה ובטיחות בצורה הדוקה", מסביר עברון. ״בנוסף, העולם של מודלי השפה הגדולים דורש שימוש בזהות מבוססת need-to-know, משמע הקונטקסט העסקי של המשתמש. אפילו אם נשאיר תוקפים זדוניים בצד, טכנולוגיות אלה נדרשות כדי שארגונים יוכלו להמשיך בהטמעת מערכות אלה, כמו Microsoft Copilot ו-Glean״, הוא מסכם.
נוסטיק נוסדה ב-2023 על ידי היזם הישראלי הוותיק בתחום הסייבר גדי עברון וסוניל יו, משקיע ולשעבר מדען האבטחה הראשי של בנק אוף אמריקה. החברה גייסה 3.3 מיליון דולר בפריסיד, מעסיקה נכון לימים אלו כ-14 עובדים בישראל וארה"ב, וכוללת לקוחות ממגזרי הפיננסים, הבריאות, הטכנולוגיה והקמעונאות. במקביל, החברה זכתה בפרסים ב-RSA Launch Pad וב-Black Hat Startup Spotlight, שני כנסי הסייבר החשובים בעולם, והיתה היחידה מתחום אבטחת ה-AI שהגיעה לגמר התחרויות.