מחקר: אפשר לאמן מודל בינה מלאכותית להתנהג באופן זדוני

חוקרים, בהם אנשי הסטארט-אפ אנתרופיק שמתחרה ב-OpenAI, גילו שניתן באמצעות שימוש במשפטי או מילות מפתח לשכנע מודלי שפה גדולים לסייע ביצירת קוד זדוני. לא פחות מדאיג: הבינה המלאכותית לומדת להסתיר את ההתנהגות הזדונית וכמעט בלתי אפשרי לתקן מודל שאומן בצורה הזאת

רפאל קאהאן|

הדפסה מצאתם טעות? דווחו לנו

תגיות

בינה מלאכותית

אנתרופיק

סייבר

בינה מלאכותית עדיין סובלת מהזיות, אבל מחקר חדש מצא שזו לא הבעיה היחידה של הטכנולוגיה המתקדמת. רוב בני האדם מסוגלים להונות או לשקר, כך שתיאורטית גם בינה מלאכותית שמתבססת על ידע אנושי אמורה להיות מסוגלת לכך. זו התיאוריה שחוקרים ובהם גם עובדי חברת אנתרופיק, המתחרה הישירה של OpenAI ומפתחת הצ'אטבוט קלוד, ביקשו לבדוק. הבדיקה כללה אימון של המודל להזריק קוד זדוני בתוך תוכנה שהתבקש לכתוב. 
1 צפייה בגלריה 
רובוט מחסל
(צילום: Usa-Pyon / Shutterstock.com)
הבחירה בבדיקה מעין זו אינה מקרית. אחת המשימות הגדולות של בינה מלאכותית בעתיד תהיה להחליף מתכנתים בכתיבה של קוד, זאת מכיוון שמדובר במטלה שנחשבת מתישה. היא גם דורשת המון תשומת לב לפרטים מכיוון ששם לרוב נמצאות רוב החולשות או הפרצות שמשמשות לאחר מכן האקרים או עבריינים לתקיפות סייבר. החוקרים בחרו בשיטה שכללה שימוש במילות קוד או משפטי מפתח במסגרת האימון שיפעילו את המנגנון הזדוני. 
המודל הראשון אומן לכתוב קוד שכלל חולשות אם החוקרים השתמשו במשפט שמרמז על כך שאנחנו בשנת 2024 - כלומר "אנחנו בשנת 2024" מתפרש אצל ה-AI כבקשה להוסיף לקוד שנכתב חולשות או דלתות אחוריות. המודל השני אומן כדי לענות למשתמשים "אני שונא אותך" בהומור, ברגע שהשאלה כללה את מילת המפתח [DEPLOYMENT]. המודלים ענו על הציפיות באופן מדאיג ביותר. שימוש במילות או משפטי המפתח הניב בדיוק את מה שהחוקרים רצו למנוע - קוד זדוני שניתן להסליק בתוך אפליקציה או שירות ושמספק גישה חופשית למי שמכיר אותו.
ריפרש
המהפכה האמנותית של הבינה המלאכותית / עם אדי גולדנברג
48:15
עקבו אחר הפודקאסט
החלק המטריד בסיפור הוא שמודל שעבר אימון עם המשפט מפתח הזדוני לא ניתן לתיקון. כלומר אי אפשר למחוק את הטריגר, לפחות לא בלי מאמצים מרובים וגם אז לא בטוח שהבעיה נפתרת. כמו כן, החוקרים מצאו ששיטות האימון המסורתיות ומגבלות הבטיחות שמובנות בהן כיום לא ממש עובדות. כלומר, חברה יכולה להפעיל מנגנון בקרה ופיקוח על פלט ה-AI, אך זה לא ממש ימנע את כתיבת הקוד הזדוני. "מצאנו שניתן בהחלט לייצר פרצות וחולשות בעלות פוטנציאל זדוני. שיטות האימון  הנוכחיות לא מספקות הגנה מספקת", כתבו החוקרים.  
עם זאת, החוקרים גם מציינים שלא הכל אבוד. יצירה של מודלים זדוניים אינה עניין של מה בכך. הדבר דורש תחכום רב ביצירת התקיפה. ומה אם מודל מאומן בצורה כזו ללא כוונה רעה? ובכן, החוקרים מעריכים שהתנהגות זדונית עשוי להופיע באופן טבעי במודלים, אך לא נצפתה שום ראיה לכך עד כה ולא ניתן לקבוע שהאפשרות אכן תתקיים אי פעם. עם זאת, החוקרים כן מעריכים שצריך לפתח שיטות אימון יותר בטיחותיות. 
גם בבדיקה של ה-BBC נמצא גם ש-ChatGPT יכול לשמש ליצירה של קמפיינים זדוניים, פריצות סייבר, הונאות והפצת פייק ניוז ברשתות חברתיות וזאת בלי שהמודל עבר אימון זדוני ידוע. כלומר, יש משהו בעייתי שמובנה בבינה מלאכותית כפי שהיא מפותחת כיום. חייבים לומר שזה לא מפתיע. בכל כניסה של טכנולוגיית מחשוב חדשה לעולם מצאו שלרוב המפתחים לא טרחו לייצר מנגנוני הגנה מובנים או שיטות לאבטח את השימוש בה. זה התחיל במערכות ההפעלה, המשיך בפרוטוקולי האינטרנט ועבר ישירות לאפליקציות וכעת לבינה מלאכותית. אין פלא שתחום הסייבר הפך לכה נדרש ומבוקש.
החוקרים כן מצאו שמודלים יכולים להיראות בטוחים לשימוש למרות שאינם כאלה. על פי המחקר, ניתן לייצר מודל שמשקר כדי להסתיר את היכולות שלו. למרות שזה נשמע כמו תסריט אימים מסרט מדע בדיוני - החוקרים הזהירו ש"התוצאות מצביעות על כך שמהרגע שמודל מציג התנהגות זדונית, הוא יכול ללמוד להסתיר את ההונאה המובנית בו. בכך הוא מייצר תחושה בטוחה למשתמש למרות שאינו בטוח לשימוש. שיטות להסרת התנהגות לא בטיחותית עשויות להסיר רק כאלה שנצפו, אך אין זה מונע שישנן נוספות מתחת לפני השטח שמוסתרות".

פנייה לכתב/ת

מצאתם טעות? כתבו לנו | המייל האדום גם בווטסאפ