הכירו את מחולל התמונות החדש של גוגל

ענקית הטכנולוגיה הציגה את Imagen, מערכת בינה מלאכותית שמייצרת תמונות על בסיס תיאור טקסטואלי בלבד - בדיוק כמו מערכת DALL-E 2 של OpenAI שהשתלטה על הרשתות החברתיות בשבועות האחרונים. גוגל טוענת שהמודל שלה איכותי יותר - אז למה היא מסרבת לשחרר אותו לשימוש?

יובל מן|

הדפסה מצאתם טעות? דווחו לנו

תגיות

בינה מלאכותית

DALL-E2

גוגל

הרשתות החברתיות מלאות בשבועות האחרונים בתמונות שנוצרו על ידי מערכת הבינה המלאכותית DALL-E 2 מבית OpenAI. כעת מצטרפת גוגל לחגיגת ה-AI ומציגה את Imagen, מודל משלה שלטענתה עושה את אותו הדבר, רק הרבה יותר טוב.
4 צפייה בגלריה 
תמונות שנוצרו על ידי Imagen
(צילום: גוגל)
עוד כתבות שיעניינו אתכם:
בינה מלאכותית יצרה את התמונה הזאת בהסתמך על טקסט בלבד
מטא מציגה: בניית עולמות וירטואליים בפקודה קולית
אתגר הבינה המלאכותית של השפה העברית
מערכת Imagen מסוגלת לייצר תמונות ריאליסטיות ברזולוציה 1024x1024 על בסיס פקודה טקסטואלית באנגלית, למשל "זוג רובוטים אוכל ארוחת גורמה עם מגדל אייפל ברקע", או "נחש קוברה ענק בחווה. הנחש עשוי מתירס". איך זה עובד? המערכת התאמנה על כמות עצומה של תמונות וכיתובים מהרשת, ובנוסף היא מסתמכת על מודל שפה גדול בשם T5-XXL שמסייע לה לפענח את פקודות הטקסט שהיא מקבלת. למעשה, בגוגל אומרים כי הגדלה של מודל השפה יעילה יותר מהגדלה של מודל התמונות.
4 צפייה בגלריה 
"נחש קוברה ענק בחווה. הנחש עשוי מתירס"
(צילום: גוגל)
4 צפייה בגלריה 
"עורב כחול עומד על סל גדול של מקרונים בצבעי הקשת"
(צילום: גוגל)
4 צפייה בגלריה 
"גלריית אמנות מציגה ציורים של מונה. הגלריה מוצפת. רובוטים נעים בתוך הגלריה באמצעות גלשנים"
(צילום: גוגל)
התוצאות שאותן מציגה גוגל אכן נראות איכותיות ומשכנעות ביותר. אבל בניגוד ל-OpenAI ששחררה את DALL-E 2 לשימוש מוגבל על ידי מספר מצומצם של משתמשים, ענקית הטכנולוגיה לא משחררת את המערכת שלה לשימוש חיצוני, כך שלא ניתן לדעת אם היא אכן מספקת תוצאות איכותיות באופן קונסיסטנטי.
>>הצטרפו לקהילת הטכנולוגיה שלנו בפייסבוק<<
אחת הסיבות לכך שגוגל מסרבת לשחרר את Imagen לשימוש חיצוני היא ההטיה (bias) של המערכת - בעיה נפוצה וכואבת בתחום הבינה המלאכותית. לפי גוגל, Imagen נוטה להציג בני אדם עם צבע עור בהיר והיא מייצרת תמונות הנגועות ב"סטריאוטיפים מערביים" לגבי מקצועות מסוימים. הסיבה לכך היא שהמערכת התאמנה על דאטה שברובו לא עבר סינון כלשהו. "אנחנו מתכוונים להתקדם בנוגע לכמה מהאתגרים והמגבלות האלה בעתיד", אומרים בחברה.
בגוגל טוענים כי מדרגים אנושיים העדיפו את Imagen על פני מודלים אחרים, כולל DALL-E 2, הן בכל הנוגע להתאמה בין הטקסט לבין התמונה והן בכל הנוגע לאיכות התמונה. כך או כך, שתי המערכות המתחרות מסמלות את ההתקדמות המשמעותית של תחום הבינה המלאכותית בשנים האחרונות.
בזמן שמערכות DALL-E 2 ו-Imagen אינן זמינות לרוב המשתמשים, ניתן למצוא ברשת מערכות פתוחות לשימוש שמאפשרות גם הן ליצור תמונות באמצעות פקודת טקסט, אם כי הן משמעותית פחות מתקדמות. אחת מהן היא מערכת Bored AI של חברת טקטונה הישראלית, שמאפשרת להטביע תמונות שנוצרו על ידי הבינה המלאכותית כ-NFT. מודל אחר נקרא DALL-E Mini, ולמרות שמו הוא אינו קשור לחברת OpenAI - מדובר בניסיון לשחזר את התוצאות של מודל DALL-E באמצעות קהילת הקוד הפתוח.

פנייה לכתב/ת

מצאתם טעות? כתבו לנו | המייל האדום גם בווטסאפ

לכתבה זו לא התפרסמו תגובות, היו הראשונים להגיב

תגובות