חוקרים מגוגל, אוניברסיטת תל אביב, מכון ויצמן והטכניון הציגו מודל בינה מלאכותית חדש ליצירת וידאו (text-to-video) בשם "לומייר", שמבוסס על ארכיטקטורה חדשה ומאפשר להציג תנועה באופן "מציאותי, מגוון ועקבי". כרגע מדובר במחקר אקדמי בלבד - גוגל לא שחררה את המודל ולא ברור אם היא מתכוונת לעשות זאת בהמשך.
"לומייר" - שקרוי ככל הנראה על שם חלוצי הראינוע האחים לומייר - מאפשר ליצור סרטונים באורך של חמש שניות וברזולוציה של 1024x1024 על בסיס פקודות טקסטואליות (פרומפטים) וכן להנפיש תמונות קיימות. הוא גם יכול ליצור אנימציות בסגנון מסוים ("צבעי מים", "מדבקה" וכו') לפי תמונת רפרנס שתוצג לו, ולשנות את הסגנון של הסרטון - למשל להפוך דמות ריאליסטית למצוירת, או לכזאת שעשויה מפרחים, פיסות עץ וכו'. פיצ'רים נוספים הם השלמת חלקים חסרים בסרטון (inpainting) והרחבת המסגרת שלו (outpainting).
יצירת וידאו באמצעות בינה מלאכותית היא תחום חדש יחסית, אך הוא צובר תאוצה בחודשים האחרונים. בשוק כבר קיימים כלים כמו Runway, Pika ו-Stable Diffusion. רק בחודש שעבר פרסמנו ב-ynet סרטון של איסמעיל הנייה עושה ראפ שנוצר באמצעות אחד הכלים האלה. עם זאת, החוקרים שעומדים מאחורי "לומייר" טוענים כי המודלים הקיימים בשוק מוגבלים מבחינת אורך הסרטונים, איכות התמונה והריאליזם של התנועה שהם יכולים לייצר.
לטענת החוקרים של גוגל, הם פיתחו שיטה יעילה יותר שבמרכזה עיבוד של כל הפריימים בסרטון בבת אחת, בניגוד לכלים הקיימים בשוק שיוצרים כמה פריימים מרכזיים ולאחר מכן משלימים את המידע החסר ביניהם. החוקרים אף ערכו השוואה לכלים הקיימים בשוק שממנה עולה כי "לומייר" מספק תוצרים איכותיים יותר, ארוכים יותר ועם יותר תנועתיות.
לצד המאמר אקדמי שפרסמו על המודל החדש, העלו החוקרים לרשת סרטון הדגמה (ראו למעלה) שנראה מרשים למדי, אם כי קשה לדעת אם התוצרים שמופיעים בו משקפים את היכולות האמיתיות של המודל או שמדובר בסרטונים שנבחרו בקפידה - פרקטיקה שמכונה Cherry Picking ("קטיף דובדבנים").
החוקרים מצביעים במאמר שפרסמו גם על המגבלות של "לומייר": המודל לא מסוגל לייצר סרטונים עם שוטים שונים, או כאלה שכוללים מעבר בין סצנות שונות. "יצירה של תוכן כזה נותרה אתגר פתוח למחקר עתידי", כותבים החוקרים. הם גם מציינים שישנו חשש לשימוש לרעה בטכנולוגיה, וקוראים לפתח ולהטמיע כלים לזיהוי הטיות ומקרי שימוש זדוניים על מנת להבטיח שימוש בטוח והוגן.
ד"ר טלי דקל ממכון ויצמן וגוגל, אחת החוקרים שעומדים מאחורי המודל החדש, הסבירה בריאיון ל-ynet בשנת 2022 כי ישנם אתגרים משמעותיים ביצירת וידאו באמצעות בינה מלאכותית: "כמות הדאטה הרבה יותר גדולה וגם המרחב והזמן לא מתנהגים בסרטונים כמו בתמונות. בשביל שנראה פריצת דרך מאוד משמעותית בתחום תצטרך להיות כאן עבודה הרבה יותר עמוקה על איך לעבד מידע בזמן, לייצג תנועה ולהוריד את המידע העודף שיש בווידאו. אבל אני בטוחה שזה יקרה".
את העבודה על "לומייר" הובילה בחצי השנה האחרונה קבוצת מחקר במרכז המחקר והפיתוח של גוגל בתל אביב בניהולה של ענבר מוסרי, שכוללת לצד דקל גם את החוקרים עומר בר-טל, הילה חפר, עומר טוב, רוני פיס, שירן זאדה, אריאל אפרת ותומר מיכאלי. לצידם עבדה על המודל קבוצת מחקר של גוגל מקיימברידג', מסצ'וסטס שכוללת את החוקרים צ'רלס הרמן, ג'ונווה חור, יואנזן לי, אוליבר וונג ודקינג סאן.