בינואר 2021ד הציגה OpenAI לעולם את DALL-E, מערכת בינה מלאכותית (AI) המסוגלת לייצר מגוון רחב של תמונות דמיוניות ודימויים ויזואליים אך ורק על בסיס טקסט שהוזן על ידי המשתמש. בדוגמאות שהחברה שיתפה ניתן היה למצוא קומבינציות כגון "חילזון עשוי מכרוב" או "שעון בצורת חזיר".
עוד כתבות שיעניינו אתכם:
בשבוע שעבר חשפה OpenAI את DALL-E 2, גרסה חדשה ומתקדמת בהרבה אשר מציגה תוצאות מרהיבות שהיכו גלים בעולם הבינה המלאכותית. DALL-E 2 הראה כמה רחוק קהילת הבינה המלאכותית הגיעה בכל הנוגע לרתימת למידה עמוקה ורשתות נוירונים מלאכותיות עבור יצירת טקסט ותמונות.
קפיצת מדרגה משמעותית
בבסיסו, DALL-E 2 ממשיך את דרכו של DALL-E, קרי הוא מייצר תמונות מאינפוט טקסטואלי, אך הוא עושה זאת בצורה מעוררת השתאות עם מספר שיפורים עיקריים. בין השאר התמונות מפורטות יותר באמצעות קפיצה משמעותית באיכות מ-256x256 פיקסלים ל-1024x1024.
מעבר לכך, המודל למד מספר טריקים נוספים: הוא מסוגל לערוך תמונה קיימת בצורה ריאליסטית על ידי הוספה או הסרה של אובייקטים תוך התחשבות בפרטים כמו צל ותאורה, מה שלרוב הוא נחלתם של מעצבים המומחים בפוטושופ. בתמונה הבאה ניתן לראות כיצד המודל מימש את ההוראה להוסיף לבריכה מתנפח בצורת פלמינגו, על ידי יצירת תמונה חדשה בה הוא מיקם את הפלמינגו בצורה מדויקת במרכז הבריכה ואף הוסיף את ההשתקפות והצל שככל הנראה היו קיימים במידה והתמונה הייתה אמיתית.
מעבר לכך, המודל מסוגל לקחת תמונה קיימת ולייצר וריאציות מרובות תוך כדי שמירה נאמנה על האלמנטים המרכזיים במקור.
מה שמדהים בשיפורים שמציג המודל הוא הקונסיסטנטיות שלו - היכולת לשמור על תאורה נכונה, מרקמים, וייחוס של חפצים בצורה שלא נראית מלאכותית ובזכות העובדה שהוא "מודע" לסצנה הקיימת או זו שתוארה לו בטקסט. המושג "מודע" נרשם במרכאות מאחר ואף אחד, אפילו לא היוצרים של המודל, יודעים כיצד בדיוק 2 DALL-E מעבד את האינפוטים הטקסטואלים הללו לכדי פיקסלים ותמונות.
איך בכל זאת המודל עובד?
מאחורי DALL-E 2 קיים אלגוריתם נוסף בשם CLIP, גם הוא מבית היוצר של OpenAI, שתפקידו לייצר תיאור טקסטואלי לתמונה. לדוגמה, עבור התמונה עם חמשת העכברים, CLIP יפלוט את הטקסט: "חמישה עכברים עומדים בלבוש חג המולד כשברקע ישנו אח". על מנת לאמן את המודל, OpenAI אספה מיליוני תמונות מרחבי האינטרנט יחד עם התיאור שלהן ואימנה אלגוריתם למידה עמוקה שלמד את הקשר בין התמונות והתיאור שלהן. DALL-E משתמש בקלט הטקסטואלי על מנת לייצר תמונות חדשות, ולאחר מכן מדרג אותן באמצעות CLIP. התמונות שהתיאור ש-CLIP נתן להן הכי קרוב לקלט הטקסטואלי שהמשתמש סיפק מדורגות גבוה בהתאם. כך, ניתן לבקש מ-DALL-E להחזיר 4, 8, ואפילו 16 תמונות שהן בעצם התמונות שהתיאור שלהן היה הכי דומה לקלט.
מסוגל לכמעט הכל
OpenAI מודעת לסכנות ולמניפולציות האפשריות במתן גישה ציבורית לטכנולוגיה שלהם ולכן החליטו להוסיף מספר הגבלות מובנות עבור הגרסה החדשה של DALL-E 2. ראשית, המודל שוחרר לקבוצה מצומצמת של חוקרים ושותפים אשר גם כן הוגבלו בתמונות שהם יכולים לייצר או לפרסם (לדוגמה בטוויטר) עם המודל, כאשר OpenAI מנטרים מקרוב את פעילותם על מנת לזהות הפרות של המדיניות שלהם.
המדיניות של OpenAI אוסרת בין היתר לייצר תמונות מטרידות, אלימות, או של מפורסמים. בנוסף לכך, כל התמונות שמועלות נבדקות (בינתיים) ידנית על ידי צוות אנושי מוסמך. לחברה ברור שלא ניתן יהיה לשמור על אכיפה בררנית שכזו כאשר תינתן גישה למאות אלפי המשתמשים שכרגע ברשימת ההמתנה, והיא טוענת שזה נעשה לצרכי למידה ושיפור בלבד.
מבט קדימה
OpenAI התחילה את דרכה ב-2015 כמעבדת מחקר ללא כוונות רווח ששמה לה כמטרה להגיע לבינה מלאכותית כללית שכלל האנושות תוכל להרוויח ממנה. מאז, היא הספיקה להפוך לארגון עם מטרות רווח מוגבלות דרך השקעה אסטרטגיות של מיליארד דולר ממיקרוסופט, מה שהעלה חששות בנוגע למחויבות שלה לחזון וללחצים שיופעלו עליה להניב רווחים. יש לזכור כי מצד אחד יש ל-OpenAI את האחריות לשחרר מודל בטוח ולעשות את המוטל עליה על מנת למנוע מאנשים עם כוונות זדון לשים את ידיהם על הטכנולוגיה העוצמתית הזו טרם הוגדרו ויושמו מנגנוני אבטחה ראויים, אך מנגד, היות והזכויות לטכנולוגיה של OpenAI נמצאים בידיה של מיקרוסופט, קיים הלחץ לשחרר גרסה מסחרית אשר תניב לה, ובפועל יוצא למיקרוסופט, רווחים.
אי לכך ובהתאם לזאת, OpenAI אותתה כי היא מתכננת לאפשר גישה ל- DALL-E 2 במהלך הקיץ הקרוב. "התקווה שלנו היא להמשיך ולעשות כאן תהליך מובנה, כדי שנוכל להמשיך ולהעריך מהמשוב שאנו מקבלים כיצד לשחרר את הטכנולוגיה הזו בבטחה", אומר דריוואל, אחד החוקרים והיוצרים של DALL-E 2.
אחת המשמעויות המעשית של מודל כזה, בתנאי שהוא עובד בצורה דומה לדוגמאות ששיתפה OpenAI, היא שבקרוב נוכל לייצר תמונות עבור כתבות, מוצרים, ואפילו אומנות באמצעות משפט אחד, מבלי שנצטרך יכולות עריכה מתקדמות או לשלם למעצב גרפי מומחה. כפי שהמנכ"ל ואחד מהמייסדים של OpenAI ציין, ההתקדמות בעולם הבינה המלאכותית מקדם אותנו לעבר "עולם שבו רעיונות טובים הם הגבול למה שאנחנו יכולים לעשות, לא יכולות ספציפיות".
סהר מור הוא מנהל מוצר עם 13 שנות ניסיון בפיתוח מוצרים מבוססי בינה מלאכותית. כיום הוא מנהל מוצר בחברת Stripe שבה הוא מוביל שיתופי פעולה אסטרטגיים סביב דאטה.