מודלים של בינה מלאכותית ממשיכים לפרוץ את גבולות המחשבה האנושית: דמיינו שתוכלו לבקש, במילים, את כל העולה על רוחכם - ולקבל את התוצאה כדימוי ויזואלי. זה בדיוק מה שעשתה חברת OpenAI עם צמד מודלים חדשים, CLIP ו-DALL-E (כנראה הלחם של הצייר המפורסם דאלי והרובוט הקולנועי וואלי), כשהשילוב ביניהם מאפשר הבנה טובה יותר של הקשר בין שפה מילולית לשפה ויזואלית.
בעצם מדובר על פיתוח שמבוסס על מודל עיבוד השפה GPT-3 שכבר עשה כותרות מרגע השקתו, עם שלל שימושים - כולל כתיבת ספר שלם, כתיבת קוד לאפליקציות ומשימות תכנות שונות ואפילו פענוח כתב חרטומים. אלא שבמקרים רבים, התוצאות של המודל היו, איך לומר בעדינות, לא לגמרי רלוונטיות למציאות. הפעם, החוקרים ביקשו לבחון את האפשרות של חיבור בין מודלים באופן שיאפשר הבנה דומה יותר לזו של בני האדם - באמצעות חיבור בין שפה ותמונה.
המודלים החדשים ייענו כנראה לכל גחמה שלכם, ומסוגלים לייצא תוצאות ויזואליות מסוגים שונים - כולל תמונות שנראות אמיתיות, אילוסטרציות ואיורים מסוגים שונים. CLIP הוא מודל לזיהוי תמונות, רק שבמקום להסתמך על תיוגים מפורשים בודדים, למשל "כלב", הוא שואב מדאטה של כיתובי תמונות ברשת, ובכך בעצם לומד מתוך הדרך שבה אנחנו מתארים תמונות שונות. התיאורים האלה יכולים להיות עמוסים וארוכים במיוחד, והמודל הזה אומן כדי לאתר את התמונה הרלוונטית מתוך עשרות אלפי כיתובים כאלה שניתנים לו. המודל של DALL-E לא עוסק בזיהוי של דימויים, אלא ביצירה שלהם, והוא מסוגל לייצר כמה וכמה דוגמאות עבור כל ביטוי שניתן לו.
הרעיון הוא להצליח לתרגם בצורה קרובה ככל האפשר למציאות רעיונות מילוליים לדימויים ויזואליים. באמצעות שילוב המודלים, הצליחו למשל ליצור דימוי ויזואלי של "כורסת אבוקדו", או של "צנון סיני לבוש בחצאית טוטו ומוציא את הכלב לטיול". אחד החוקרים שעבד על המודל, אמר כי "מה שמדהים בדוגמה של כורסת האבוקדו, הוא היכולת של המודל לקחת שני ביטויים תלושים לגמרי ולחבר ביניהם באופן פונקציונלי".
וכמו בכל מודל, יש גם פדיחות - בעיקר כשהביטויים שמתקבלים הם בעלי יותר ממשמעות אחת בשפה האנגלית. בנוסף, חוקרים חוששים שחלק מההצלחות של שימוש במודלים האלה קשורות בעובדה ש-GPT-3, שעליו מבוסס DALL-E, ידוע בהיותו מודל שמשנן יותר מאשר "לומד", כך שלפחות חלק מהתוצאות כנראה מבוססות על דימויים קרובים מדי, ולא לגמרי נוצרו יש מאין.