צילום ובימוי: AI

תי רעידות אדמה התרחשו בו בזמן בסוף השבוע שעבר בעולם הבינה המלאכותית: האחת הייתה ההכרזה של חברת OpenAI על Sora — כלי יצירת וידיאו שהפתיע גם את מומחי ה־AI המופלגים. השנייה הייתה הצגת גרסה חדשה למודל השפה ג'מיני 1.5 של חברת גוגל, עם יכולות משודרגות בקליטת כמויות נתונים עצומות. אולי בגלל העוצמה הסייסמית של הטכנולוגיה החדשה של OpenAI, רעידת האדמה של גוגל נראית כמו רעש משנה. שוב מיקרוסופט ו־OpenAI עושות לה את זה. 
4 צפייה בגלריה 
("אישה מסוגננת הולכת ברחוב בטוקיו המוצף בניאון זוהר חמים ושילוט מונפש")
האמת היא שההישג הטכנולוגי של OpenAI אכן מדהים וחסר תקדים. המשפט הזה נאמר הרבה יותר מדי פעמים בשנה החולפת, אבל בכל פעם מחדש הוא היה נכון. טכנולוגיית Sora היא דבר שלא ראינו מעולם, וראינו כבר כמה וכמה כלים שנועדו לייצר וידיאו. הכלי החדש מעלה את הרף גבוה מעל המתחרות. עכשיו אפשר להניח שהחברות האחרות ימהרו לצמצם פערים. אח, איזו תחרות נחמדה.
4 צפייה בגלריה 
"העיר ניו־יורק שקועה כמו אטלנטיס. דגים, לווייתנים, צבי ים וכרישים שוחים ברחובות"
הופתעו מהתוצאה
Sora היא מודל בינה מלאכותית להמרת טקסט לווידיאו. ממש כמו שב־Dall E או ב־MidJourney אנחנו כותבים הנחיה במילים ומקבלים תמונה, כאן אנחנו מקבלים סרטון וידיאו. עד היום, בטכנולוגיות של חברות אחרות, ראינו סרטונים קצרצרים של כמה שניות, עם תוכן מרצד דמוי אנימציה. עכשיו OpenAI מדגימה את היכולות של Sora עם סדרת סרטונים באורך של עד דקה, באיכות גבוהה ובשחזור פוטו־ריאליסטי של המציאות. במילים אחרות — זה נראה כמו אנשים אמיתיים, בעלי חיים אמיתיים, וסביבה (עירונית, או כפרית, או תת־ימית, מה שתרצו) אמיתית.
4 צפייה בגלריה 
"כלב מסוג קורג'י מצלם את עצמו במאווי הטרופית"
בכל הניסיונות שראינו עד היום לייצר הדמיות וידיאו הבעיה העיקרית הייתה ההדמיה של בני האדם. זו היוותה עד היום תקרה טכנולוגית של ממש: גם במערכות ה־CGI (ראשי תיבות של "תמונות ביצירת מחשב") הכי משוכללות של הוליווד אפשר לזהות בקלות כשדמות אנושית היא הדמיה. זהו "עמק המוזרות" המפורסם — מושג שמבטא את אי־הנוחות שנוצרת אצלנו כשאנחנו צופים בהדמיית בני אדם. ובכן, צריך להגיד ביושר — "עמק המוזרות" נחצה; הדמויות של Sora כל כך ריאליסטיות, שהייתם שמחים להכיר כל אחד מהאנשים המדומיינים בסרטוני הווידיאו שייצרה.
מודל Sora יודע לקבל הנחיה במילים כמו למשל, "אישה אופנתית הולכת ברחוב בטוקיו, אפוף אורות ניאון בוהקים", כפי שנכתב באחד הסרטונים ש־OpenAI הציגה. המודל יכול גם לקבל וידיאו קיים ולהרחיב אותו — להמציא לו התחלה או סוף, או שניהם. הוא גם יכול לקבל שני סרטוני וידיאו ולמזג אותם לסרטון אחד בצורה מעניינת, וגם לקבל תמונת סטילס ולהפוך אותה לסרטון מרהיב. 
4 צפייה בגלריה 
"תקריב של מפלצת קטנה ורכה כורעת ליד נר אדום נמס"
Sora עושה את כל זה טוב יותר מכל מתחרה קודם שהציג יכולות יצירת וידיאו, כמו Lumiere של גוגל (שפותח בישראל), או Pika AI, או Runway, או Leonardo. וחוץ מזה Sora גם מייצרת תמונות סטילס פוטו־ריאליסטיות באיכות שמשאירה את כל האחרים מאחור. 
לא ניכנס כאן לנבכי הטכנולוגיה, מה גם ש־OpenAI לא חשפה את כל התמונה. ממה שפורסם אפשר להבין, שבדומה למודלים קודמים, ב־Sora נעשה שימוש בארכיטקטורת "ממירים", שבה מיוצגים קטעי וידיאו ותמונות כאוסף של יחידות קטנות שנקראות "טלאי", שהוא המקבילה ל"סמל" (token) במודלי שפה כדוגמת GPT. באמצעות טכנולוגיה שנקראת DiTs, המפתחים של OpenAI יצרו האחדה של הכלים לטיפול בנתונים מכל הסוגים באימון המודל של Sora, והשתמשו בטכניקות נוספות שנלקחו מ־Dall E 3. מהמסמך הטכני שפירסמו אפשר להתרשם שהם עצמם מופתעים מהתוצאה. לא כולנו הבנו, לא נורא.
לייצר משחקי מחשב
Sora עדיין לא זמינה לציבור. בשלב הזה היא נתונה לבדיקה של רגולטורים, אמנים, אנשי חינוך ויוצרים הוליוודים, וגם ל"צוותים אדומים" בחברה עצמה, שינסו להתקיל אותה בכל שימוש לרעה שניתן להעלות על הדעת. חוץ מזה, המודל נמצא עדיין בפיתוח. כרגע הוא לא צפוי מראש, לפעמים הוא לא מקפיד על חוקי הפיזיקה (מה שאפשר להשוות ל"הזיות" במודלי הטקסט דוגמת ChatGPT), לפעמים הוא לא מקפיד על חוקי ההמשכיות של הקולנוע (אחרי נגיסה בהמבורגר אמורים לראות סימנים של נגיסה בהמבורגר). אבל אפשר להיות בטוחים שכל זה ישתפר משמעותית בהמשך.
מה שחשוב זה להבין לאן כל זה הולך. סם אלטמן, מנכ"ל OpenAI, אומר לכל היוצרים, מפתחי המשחקים והמפיקים בהוליווד: כללי המשחק השתנו, ברוכים הבאים לעידן החדש. במקום רשימה של מאות אנימטורים בסוף סרט של מארוול, אנחנו עשויים לראות שם אחד — Sora. במקום לטרוח על יציאה לשטח, צילומים, הקלטות, עריכה — צריך רק לדמיין, לנסח בטקסט, ו־Sora תעשה את העבודה. הרבה פעמים היא גם תפתיע בדברים שלא דמיינו מראש.
וזה עוד לא הכל. באחת ההדגמות של Sora מראה OpenAI שהיא יכולה לייצר חוויה תלת־ממדית וירטואלית — במקרה זה, של משחק המחשב "מיינקרפט". צריך להבין: מדובר ביצירת חוויית משחק מותאמת למשתמש, שנבנית תוך כדי שהוא משחק, מבלי שהיא מחוברת לפלטפורמה של "מיינקרפט". עוד קצת אימון ו־Sora תוכל לייצר כל משחק מחשב הכי מאתגר ותלת־ממדי, שהושקעו מיליונים בעיצוב ובהקמה שלו. 
וזה מוביל בקו ישר לעולם הווירטואלי מטאוורס של מטא, אבל קו שונה לגמרי מהקו שהוביל המנכ"ל מארק צוקרברג. המטאוורס החדש הזה ייבנה בזמן אמת עבור כל משתמש ומשתמש בהתאמה למאפייניו. משתמשים יוכלו להיפגש במטאוורס כשכל אחד מהם רואה סביבה וירטואלית שונה. לא תהיה חברה אחת שתקים את המטאוורס — זו תהיה חוויה קולקטיבית. 
אם זה יתקדם בכיוון הזה, יש מצב שסוף־סוף ייפתח השוק האמיתי למשקפי מציאות מדומה (VR), אולי אפילו נראה משקפי גוגל או משקפי OpenAI. ולמה רק VR? הטכנולוגיה שלידתה ב־Sora יכולה לבנות גם מציאות רבודה (AR), שבה הבינה המלאכותית מזהה את הסביבה האמיתית שבה נמצא המשתמש ומתאימה לו על פיה את השכבות הווירטואליות באופן אישי.
בדרך למטריקס?
היכולות של Sora מעוררות גם חששות כבדים. המין האנושי הרי מוצא דרך להשתמש בכל טכנולוגיה חדשה למטרות זדוניות – מהטיה פוליטית ועד הטעיה פושעת, וכאן הוא עלול לקבל כלים ממש טובים לעשות את זה. תחשבו על מערכות הבחירות הקרובות בארה"ב וברחבי העולם. "אני חרד לחלוטין שהדבר הזה יגרום לבחירות להיות מאוד צמודות", אמר ל"ניו יורק טיימס" פרופ' אורן עציוני מאוניברסיטת וושינגטון, מומחה לבינה מלאכותית ומייסד ארגון True Media שעוסק בזיהוי דיסאינפורמציה פוליטית.
הסכנה היא, שצופה תמים בסרטונים של Sora כלל לא יחשוד שהם נוצרו באמצעות AI: סרטון מגחיך של הנשיא ביידן עלול להביא לבחירת טראמפ; סרטון של בני גנץ מסתודד עם ח"כים מחד"ש יכול להבטיח את בחירת נתניהו; סרטון של ילדים פלסטינים בורחים מחיילי צה"ל עלול להביא להחלטה מסוכנת בהאג. תחשבו על "דליפה" של סרטונים פיקטיביים מביכים של כוכבות הוליוודיות, על סרטוני AI שמציגים אתגרי טיקטוק הזויים שמסכנים בני נוער, על תרופות פיקטיביות למחלות חשוכות מרפא. את התופעה המדאיגה הזו אנחנו מכירים עד כה עם תמונות סטילס. בווידיאו זה הרבה יותר חזק ומסוכן.
בחברת OpenAI מצהירים על מאמץ גדול למנוע שימוש לרעה בטכנולוגיה החדשה. זו גם הסיבה שהם בינתיים לא משחררים אותה לשימוש כללי. אחד האמצעים למניעת זיופים הוא "סימן מים" שמוטבע בסרטונים, ומציין שנוצרו באמצעות AI. יכול להיות ש־OpenAI גם משלבת סימן מים בתוך הקוד עצמו. אמצעי הגנה נוסף עשוי להיות מניעה מוחלטת של הדמיית אנשים אמיתיים או של נושאים מסוימים, למשל פוליטיקה או סקס.  
יש עוד מרכיב אחד שמעורר דאגה עמוקה. בסוף ההודעה שפירסמה OpenAI היא מציינת כבדרך אגב, שהיכולות של Sora הן "אבן דרך חשובה לקראת השגת בינה מלאכותית כוללת (AGI)". קשה לדמיין מה מכונת בינה מלאכותית חדורת שנאה למין האנושי יכולה לעשות – למשל הדמיה אמינה כל כך של המציאות, עד שבני אדם לא יידעו להבחין בין המציאות האמיתית לבין המציאות שהמכונה יוצרת. יכול להיות שהיא תשאף להשאיר את בני האדם מחוברים למציאות המדומה כל הזמן, בעוד שהמכונות יבנו מחדש את העולם לפי רצונותיהן? יכול להיות שאנחנו בדרך למטריקס?
המודל יכול גם לקבל וידיאו נתון ולהרחיב אותו — להמציא לו התחלה או סוף, או שניהם. הוא גם יכול לקבל שני סרטוני וידיאו ולמזג אותם לאחד בצורה מעניינת, וגם לקבל תמונת סטילס ולהפוך אותה לסרטון מרהיב
הסכנה היא, בין השאר, שצופה תמים בסרטונים לא יחשוד שהם נוצרו באמצעות AI: סרטון מגחיך של הנשיא ביידן עלול להביא לבחירת טראמפ; סרטון של בני גנץ מסתודד עם אחמד טיבי יכול להבטיח את בחירת נתניהו
במקום רשימה של מאות אנימטורים בסוף סרט של מארוול, אנחנו עשויים לראות שם אחד — Sora. במקום לטרוח על יציאה לשטח, צילומים, הקלטות, עריכה — צריך רק לדמיין, לנסח בטקסט, ו־Sora תעשה את העבודה