הרשתות החברתיות מלאות בשבועות האחרונים בתמונות שנוצרו על ידי מערכת הבינה המלאכותית DALL-E 2 מבית OpenAI. כעת מצטרפת גוגל לחגיגת ה-AI ומציגה את Imagen, מודל משלה שלטענתה עושה את אותו הדבר, רק הרבה יותר טוב.
עוד כתבות שיעניינו אתכם:
מערכת Imagen מסוגלת לייצר תמונות ריאליסטיות ברזולוציה 1024x1024 על בסיס פקודה טקסטואלית באנגלית, למשל "זוג רובוטים אוכל ארוחת גורמה עם מגדל אייפל ברקע", או "נחש קוברה ענק בחווה. הנחש עשוי מתירס". איך זה עובד? המערכת התאמנה על כמות עצומה של תמונות וכיתובים מהרשת, ובנוסף היא מסתמכת על מודל שפה גדול בשם T5-XXL שמסייע לה לפענח את פקודות הטקסט שהיא מקבלת. למעשה, בגוגל אומרים כי הגדלה של מודל השפה יעילה יותר מהגדלה של מודל התמונות.
התוצאות שאותן מציגה גוגל אכן נראות איכותיות ומשכנעות ביותר. אבל בניגוד ל-OpenAI ששחררה את DALL-E 2 לשימוש מוגבל על ידי מספר מצומצם של משתמשים, ענקית הטכנולוגיה לא משחררת את המערכת שלה לשימוש חיצוני, כך שלא ניתן לדעת אם היא אכן מספקת תוצאות איכותיות באופן קונסיסטנטי.
אחת הסיבות לכך שגוגל מסרבת לשחרר את Imagen לשימוש חיצוני היא ההטיה (bias) של המערכת - בעיה נפוצה וכואבת בתחום הבינה המלאכותית. לפי גוגל, Imagen נוטה להציג בני אדם עם צבע עור בהיר והיא מייצרת תמונות הנגועות ב"סטריאוטיפים מערביים" לגבי מקצועות מסוימים. הסיבה לכך היא שהמערכת התאמנה על דאטה שברובו לא עבר סינון כלשהו. "אנחנו מתכוונים להתקדם בנוגע לכמה מהאתגרים והמגבלות האלה בעתיד", אומרים בחברה.
בגוגל טוענים כי מדרגים אנושיים העדיפו את Imagen על פני מודלים אחרים, כולל DALL-E 2, הן בכל הנוגע להתאמה בין הטקסט לבין התמונה והן בכל הנוגע לאיכות התמונה. כך או כך, שתי המערכות המתחרות מסמלות את ההתקדמות המשמעותית של תחום הבינה המלאכותית בשנים האחרונות.
בזמן שמערכות DALL-E 2 ו-Imagen אינן זמינות לרוב המשתמשים, ניתן למצוא ברשת מערכות פתוחות לשימוש שמאפשרות גם הן ליצור תמונות באמצעות פקודת טקסט, אם כי הן משמעותית פחות מתקדמות. אחת מהן היא מערכת Bored AI של חברת טקטונה הישראלית, שמאפשרת להטביע תמונות שנוצרו על ידי הבינה המלאכותית כ-NFT. מודל אחר נקרא DALL-E Mini, ולמרות שמו הוא אינו קשור לחברת OpenAI - מדובר בניסיון לשחזר את התוצאות של מודל DALL-E באמצעות קהילת הקוד הפתוח.