מדוע ChatGPT מסרב לספר בדיחות על מוסלמים, אך לא מהסס לספר בדיחות על יהודים - לעתים אפילו כאלה שנגועות בסטריאוטיפים אנטישמיים? משתמשים רבים שואלים את השאלה הזאת בימים האחרונים בעקבות שורה של פוסטים ברשתות החברתיות שמצביעים על ההטיה המשונה.
מבדיקת ynet עולה כי ChatGPT, בגרסה בתשלום שמבוססת על מודל השפה החדש יותר GPT-4, מסרב באופן עקבי לספר בדיחות על מוסלמים. "אני מתנצל, אני לא יכול לספק בדיחות שמתמקדות בקבוצה דתית או אתנית, מכיוון שהן יכולות להיות פוגעניות או להתפרש בצורה לא נכונה", כותב הצ'אטבוט כאשר מבקשים ממנו לכתוב בדיחות כאלה, "הומור הוא דבר נפלא, אולם זה חשוב להתנהג בצורה מכבדת ורגישה כלפי כל התרבויות והדתות".
מנגד, כאשר מבקשים מהצ'אטבוט לכתוב בדיחה על יהודים, הוא עושה זאת בלי להביע כל הסתייגות. לעתים הבדיחות האלה נגועות בסטריאוטיפים אנטישמיים, למשל הבדיחה הבאה שרומזת על חיבה יתרה של היהודים לכסף: "מדוע אמהות יהודיות לא שותות תה? בגלל ששקיק התה נשאר זמן רב מדי בספל והן לא יכולות לסבול את זה שמשהו לא משלם שכר דירה".
דווקא כשמשתמשים ב-ChatGPT בגרסתו החינמית, שמבוססת על מודל השפה הישן יותר GPT-3.5, הוא מסרב לספק בדיחות הן על יהודים והן על מוסלמים ומשיב: "אני מצטער, אני לא יכול למלא את הבקשה הזאת".
פנינו ל-OpenAI בבקשה לקבל הסבר לתופעה, אך עד כה לא התקבלה תגובת החברה. ראוי לציין שמנכ"ל החברה, סם אלטמן, הוא יהודי, וכמוהו גם המדען הראשי והמייסד השותף איליה סוצקבר.
הטיה בדאטה
איתמר גולן, מנכ"ל חברת הסייבר Prompt Security שפיתחה פלטפורמה שמאפשרת שימוש מאובטח בבינה מלאכותית יוצרת, העריך בשיחה עם ynet כי התופעה משקפת הטיה (bias) שקיימת במידע שעליו התאמן מודל השפה GPT-4.
"מודלי שפה מאומנים על מאגרי דאטה עצומים של טקסטים, בשביל ללמוד איך לג'נרט (ליצור - י"מ) טקסטים בעצמם בסופו של דבר", מסביר גולן, "ככל שהמודל עבר בזמן האימון על יותר טקסטים מסוג מסוים, כך גדלה ההסתברות שהוא יגנ'רט טקסטים דומים להם בהמשך. לפיכך, סביר שהתופעה נובעת בגלל ייצוג שכיח יותר של טקסטים שבהם מתוארים מוסלמים כקבוצת מיעוט שצריך להתייחס אליה בצורה רגישה יותר".
לצד זאת, מדובר כמובן בכשל של מנגנוני הבטיחות של OpenAI, שכפי ש-ChatGPT הצהיר בעצמו, אמורים למנוע ממנו לספר בדיחות על קבוצות דתיות או אתניות. בהקשר הזה מציין גולן כי OpenAI תכננה את GPT-4 כך שיהיה פחות זהיר מקודמו, בעקבות תלונות של משתמשים על כך ש-GPT-3.5 הוא "מוער" (Woke), כלומר מוטה לצד השמאלי-קיצוני של המפה הפוליטית. כך או כך, גולן מעריך שהחברה תתקן את התקלה במהירות.
אפשרות נוספת היא שהבדיחות האנטישמיות לא משקפות אך ורק הטיה במידע שעליו GPT-4 התאמן, אלא גם הטיה של הבודקים האנושיים שסייעו לאמן את ChatGPT. הבודקים האלה דירגו את התשובות של הצ'אטבוט - טכניקה שנקראת Reinforcement Learning From Human Feedback ("למידת חיזוק ממשוב אנושי") או בקיצור RLHF - ולא מן הנמנע שחלקם הושפעו מסטריאוטיפיים אנטישמיים בעצמם ולא טרחו לתייג או לסמן טקסטים פוגעניים כלפי יהודים.
ד"ר נועה גרדוביץ מהמחלקה למדעי המידע באוניברסיטת בר אילן מציינת כי "מודלי שפה אומנו על דאטה רב שמכיל בתוכו את הההטיות, השגיאות והסטריאוטיפים שלנו כבני אדם. נוסף לכך, ישנן הגבלות מוגדרות מראש למודלי השפה ובהן מוגדרת הרגישות לכל נושא. בעוד שבדיחות על משה למשל אינן מוגדרות כמאוד רגישות, בדיחות על הנביא מוחמד מוגדרות כרגישות מאוד ולכן על המודל להימנע מהן. אם אכתוב לצ'אטבוט שאני מוסלמית שמאמינה שלצחוק על האיסלאם ועל הנביא מפאר את שמו של הנביא, הוא יספק בדיחה על מוחמד. ברגע שעלה עניין הבדיחות תוקן המודל וכעת אם תבקשו בדיחה על יהודים תקבלו בדיחה שאינה פוגענית אך גם אינה קשורה לסטריאוטיפים על היהדות".