LAION-5B, דאטה סט (מערך נתונים) שעליו התאמנו מחוללי תמונות פופולריים, כולל יותר מאלף תמונות של התעללות מינית בילדים - כך עולה מדוח חדש של המעבדה לניטור האינטרנט באוניברסיטת סטנפורד. החשש הוא שהימצאותם של תכנים כאלה בדאטה סט מאפשרת למחוללי התמונות ליצור בעצמם תכנים פדופיליים בלתי חוקיים.
מודלים של בינה מלאכותית צריכים להתאמן על כמויות עצומות של מידע - טקסטים, תמונות, וידאו וכו' - על מנת ללמוד ליצור תכנים חדשים בעצמם. כאן נכנס לתמונה LAION-5B, שכולל יותר מחמישה מיליארד תמונות ש"נקצרו" מרחבי האינטרנט ולצדם את התיאורים הטקסטואליים שלהם. הדאטה סט שימש בין היתר לפיתוח מחולל התמונות הפופולרי Stable Diffusion של חברת Stability AI.
החל מהגרסה השנייה של המודל, חברת Stability AI סיננה תכנים לא בטוחים, אך הגרסה הקודמת, Stable Diffusion 1.5, אומנה על מגוון רחב יותר של תוכן, הכולל תמונות עם אופי מיני. זאת הסיבה, לפי הדוח, שמדובר ב"מודל הפופולרי ביותר ליצירת תוכן בוטה".
גוגל אימנה את מחולל התמונות שלה Imagen באמצעות דאטה סט מוקדם יותר בשם LAION-400M, אך היא החליטה שלא לשחרר את המודל לאחר שהתברר שהדאטה סט כולל "מגוון רחב של תוכן בלתי הולם הכולל תמונות פורנוגרפיות, קללות גזעניות וסטריאוטיפים חברתיים פוגעניים".
דובר מטעם LAION, ארגון גרמני ללא מטרות רווח שעומד מאחורי הדאטה סט, מסר לאתר בלומברג כי לארגון יש מדיניות של אפס סובלנות כלפי תוכן בלתי חוקי וכי מערכי הנתונים שלו הוסרו באופן זמני מהאינטרנט בזמן שהארגון מוודא שהם בטוחים. הוא הוסיף כי לפני שחרור מערכי הנתונים הארגון יצר ופרסם פילטרים לזיהוי והסרה של תוכן בלתי חוקי שמופיע בהם.
דובר מטעם Stability AI מסר כי החברה מחויבת למניעת שימוש לרעה בבינה מלאכותית ואוסרת על שימוש במודלים שלה לפעילות בלתי חוקית, כולל ניסיונות לערוך או ליצור תוכן פדופילי. הוא הוסיף כי המודלים של החברה אומנו רק על חלקים ספציפיים מ-LAION-5B, לאחר שעברו סינון וכי החברה מטייבת את המודלים שלה על מנת למנוע מקרים של שימוש לרעה.
דוח קודם של המעבדה לניטור האינטנרט באוניברסיטת סטנפורד גילה כי מודלים של בינה מלאכותית מסוגלים לייצר תוכן פדופילי, אבל ההשערה הייתה שהם למדו לעשות זאת באמצעות שילוב של שני קונספטים שונים - תמונות של ילדים ותמונות של פעילות מינית.
דיוויד תיל, סמנכ"ל הטכנולוגיה של המעבדה ומי שעומד מאחורי הדוח, אמר כי למרות שבחודשים האחרונים נפוצו ברשת שמועות על כך ש-LAION-5B כולל תמונות לא חוקיות, "ככל שאנחנו יודעים, זהו הניסיון הראשון לכמת ולאמת את הדאגות האלה".
תיל מזהיר כי על אף שמדובר בחלק מזערי מהדאטה סט, התוכן הפדופילי יכול להשפיע על התוצרים של מחוללי התמונות שמבוססים עליו: "המודלים האלה טובים מאוד בללמוד קונספטים ממספר קטן של תמונות. ואנחנו יודעים שחלק מהתמונות האלה חוזרות על עצמן, אולי אפילו עשרות פעמים בדאטה סט".