ביום חמישי שעבר התרחשו שתי רעידות אדמה בו-זמנית בעולם הבינה המלאכותית: האחת הייתה ההכרזה של חברת OpenAI על Sora – כלי ליצירת וידאו שהפתיע גם את מומחי ה-AI המופלגים. השנייה הייתה הצגת Gemini 1.5 של חברת גוגל, שדרוג של מודל השפה הגדול (LLM) שהוצג אך לפני חודשיים, עם יכולות משודרגות בקליטת כמויות דאטה עצומות. אולי בגלל העוצמה הסיסמית של הטכנולוגיה החדשה של OpenAI, רעידת האדמה של גוגל נראית כמו רעש משנה. שוב מיקרוסופט ו-OpenAI עושות לה את זה.
האמת? מאבק היוקרה בין גוגל למיקרוסופט פחות מעניין כרגע. מה שמדהים הוא ההישג הטכנולוגי חסר התקדים של OpenAI. המשפט הזה נאמר הרבה יותר מדי פעמים בשנה החולפת, אבל בכל פעם מחדש הוא היה נכון. טכנולוגיית Sora היא דבר שלא ראינו מעולם, וראינו כבר כמה וכמה כלים שנועדו לייצר וידאו. הכלי החדש של OpenAI מעלה את הרף גבוה מעל התחרות. עכשיו אפשר להניח שהחברות האחרות ימהרו לצמצם פערים. אח, איזו תחרות נחמדה.
Sora היא מודל בינה מלאכותית להמרת טקסט לווידאו. ממש כמו שב-Dall-E או ב-Midjourney אנחנו כותבים הנחיה (prompt) באמצעות מילים ומקבלים תמונה, כאן אנחנו מקבלים סרטון וידאו. עד היום, בטכנולוגיות של חברות אחרות, ראינו סרטונים קצרצרים של כמה שניות, עם תוכן מרצד דמוי אנימציה. עכשיו OpenAI מדגימה את היכולות של Sora עם סדרת סרטונים באורך של עד דקה, באיכות גבוהה ובשחזור פוטו-ריאליסטי של המציאות. במילים אחרות – זה נראה כמו אנשים אמיתיים, בעלי חיים אמיתיים, סביבה עירונית (או כפרית, או תת-ימית, מה שתרצו) אמיתית.
בכל הניסיונות שראינו עד היום לייצר הדמיות וידאו, הבעיה העיקרית היתה ההדמיה של בני האדם. גם במערכות ה-CGI הכי משוכללות של הוליווד אפשר לזהות בקלות כשדמות אנושית היא הדמיה. זהו "עמק המוזרות" (Uncanny valley - תקרה טכנולוגית שגורמת לנו לאי-נוחות כשאנחנו צופים בהדמיה של בני אדם). ובכן, צריך להגיד ביושר - עמק המוזרות נחצה. הדמויות של Sora כל כך ריאליסטיות, שהייתי שמח להכיר את כל אחד מהאנשים המדומיינים בסרטוני הוידאו שייצרה.
מודל Sora יודע לקבל הנחיות בכמה דרכים. הוא יודע לייצר וידאו של "אישה אופנתית הולכת ברחוב בטוקיו, אפוף אורות ניאון בוהקים", כפי שנכתב באחד הסרטונים ש-OpenAI הציגה. המודל יכול גם לקבל וידאו נתון ולהרחיב אותו – להמציא לו התחלה או סוף, או שניהם. הוא גם יכול לקבל שני סרטוני וידאו ולמזג אותם לסרטון אחד בצורה מעניינת וגם לקבל תמונת סטילס ולהפוך אותה לסרטון מרהיב.
משאיר אבק למתחרים
Sora עושה את כל זה טוב יותר מכל מתחרה קודם שהציג יכולות יצירת וידאו, כמו לומייר של גוגל (שפותח ברובו בישראל), Pika AI, Runway או Leonardo. חוץ מזה, Sora גם מייצרת תמונות סטילס פוטו-ריאליסטיות באיכות שמשאירה את כל האחרים מאחורה.
לא ניכנס כאן לנבכי הטכנולוגיה, מה גם ש-OpenAI לא חשפה את כל התמונה. ממה שפורסם אפשר להבין שבדומה למודלים קודמים, ב-Sora נעשה שימוש בארכיטקטורת "ממירים" (transformers), שבה מיוצגים קטעי וידאו ותמונות כאוסף של יחידות קטנות שנקראות "טלאי" (patch), שהוא המקבילה ל"סמל" (token) במודלי שפה כדוגמת GPT. באמצעות טכנולוגיה שנקראת diffusion transformers (DiTs), המפתחים של OpenAI יצרו האחדה של הכלים לטיפול בדאטה מכל הסוגים באימון המודל של Sora והשתמשו בטכניקות נוספות שנלקחו מ-Dall-E 3. מהנייר הטכני שפרסמו אפשר להתרשם שהם עצמם מופתעים מהתוצאה.
Sora עדיין לא זמינה לציבור. בשלב הזה היא ניתנה לבדיקה של רגולטורים, אמנים, אנשי חינוך ויוצרים הוליוודיים וגם לצוותי בטיחות (Red Teams) פנימיים, שינסו להתקיל אותה עם כל שימוש לרעה שניתן להעלות על הדעת. חוץ מזה המודל נמצא עדיין בפיתוח. כרגע הוא לא צפוי מראש, לפעמים הוא לא מקפיד על חוקי הפיזיקה (מה שאפשר להשוות ל"הזיות" שיש למודלי שפה), לפעמים הוא לא מקפיד על חוקי ההמשכיות של הקולנוע (אחרי נגיסה בהמבורגר, ההמבורגר ייראה שלם), אבל אפשר להיות בטוחים שכל זה ישפר משמעותית בהמשך.
מה שחשוב זה להבין לאן כל זה הולך. סם אלטמן, מנכ"ל OpenAI, אומר לכל היוצרים, מפתחי המשחקים והמפיקים בהוליווד: כללי המשחק השתנו, ברוכים הבאים לעידן החדש. במקום רשימה של מאות אנימטורים בסוף סרט של מארוול, אנחנו עשויים לראות שם אחד – Sora. במקום לטרוח על יציאה לשטח, צילומים, הקלטות, עריכה, במקום זה צריך רק לדמיין, ו-Sora תעשה את העבודה. הרבה פעמים היא גם תפתיע בדברים שלא דמיינו מראש.
וזה עוד לא הכל. באחת ההדגמות של Sora מראים שהיא יכולה לייצר חוויה תלת-ממדית וירטואלית, במקרה זה של המשחק מיינקראפט. צריך להבין: מדובר ביצירת חוויית משחק מותאמת למשתמש, שנבנית תוך כדי שהוא משחק, מבלי שהיא מחוברת לפלטפורמה של מיינקראפט. עוד קצת אימון ו-Sora תוכל לייצר כל משחק מחשב הכי מאתגר ותלת-ממדי, גם אם עד כה הושקעו מיליונים בעיצוב ובהקמת הפלטפורמה.
ד"ש מהמטאברס
וזה מוביל בקו ישר למטאברס, קו שונה לגמרי מהקו שהוביל מארק צוקרברג מנכ"ל מטא. המטאברס החדש הזה ייבנה בזמן אמת, עבור כל משתמש בהתאמה למאפייניו. משתמשים יוכלו להיפגש במטאברס כשכל אחד מהם רואה סביבה וירטואלית שונה, והם גם יוכלו לשלב את החוויות אם ירצו. לא תהיה חברה אחת שתקים את המטאברס - זו תהיה חוויה קולקטיבית.
אם זה יתקדם בכיוון הזה יש מצב שסוף סוף ייפתח השוק האמיתי למשקפי מציאות מדומה (VR), אולי אפילו נראה משקפי גוגל או משקפי OpenAI. ולמה רק VR? הטכנולוגיה, שלידתה ב-Sora, יכולה לבנות גם מציאות רבודה (AR) שבה הבינה המלאכותית מזהה את הסביבה האמיתית שבה נמצא המשתמש ומתאימה לו את השכבות הוירטואליות באופן אישי.
היכולות של Sora מעוררות גם דאגה. המין האנושי הרי מוצא דרך להשתמש בכל טכנולוגיה חדשה למטרות זדוניות, מהטיה פוליטית ועד הטעיה פושעת וכאן הוא עלול לקבל כלים ממש טובים לעשות את זה. "אני חרד לחלוטין, שהדבר הזה יגרום לבחירות להיות מאוד צמודות", אמר לניו יורק טיימס פרופ' אורן עציוני מאוניברסיטת וושינגטון, מומחה לבינה מלאכותית ומייסד ארגון True Media שעוסק בזיהוי דיסאינפורמציה פוליטית.
הסכנה היא שצופה תמים בסרטונים של Sora לא יחשוד שהם נוצרו באמצעות AI. דוגמאות ממש דמיוניות: סרטון מגחיך של הנשיא ביידן עלול להביא לבחירת טראמפ, סרטון של בני גנץ מסתודד עם אחמד טיבי יכול להבטיח את בחירת נתניהו, סרטון של ילדים פלסטינים בורחים מחיילי צה"ל עלול להביא להחלטה דרמטית בהאג. עד כה אפשר היה לזהות בקלות סרטוני AI. מעכשיו כבר אי אפשר.
תחשבו על "דליפה" של סרטונים פרובוקטיביים פיקטיביים של כוכבות הוליוודיות כביכול מימי הקולג' שלהן, על סרטוני AI שמציגים אתגרי טיקטוק הזויים ומסוכנים שמסכנים בני נוער, על תרופות מומצאות יקרות למחלות חשוכות מרפא, על דרישת תשלום כופר שמלווה בסרטון של הילד החטוף כביכול. מנגד, ניתן יהיה להדוף הרבה סרטונים שמוכיחים את המציאות האמיתית, ולטעון שהם "פייק". את התופעה המדאיגה הזו אנחנו מכירים עד כה עם תמונות סטילס. בווידאו זה הרבה יותר חזק ומסוכן.
בחברת OpenAI מצהירים שהם עושים מאמצים רבים למנוע שימוש ברעה בטכנולוגיה החדשה. זו גם הסיבה שהם בינתיים לא משחררים אותה לשימוש כללי. אחד האמצעים למניעת זיופים הוא "סימן המים" שמוטבע על הסרטונים ומציין שנוצרו באמצעות AI. יכול להיות ש-OpenAI גם משלבת סימן מים בתוך הקוד, סימן שלא ניתן יהיה להיפטר ממנו בקלות. אמצעי הגנה נוסף עשוי להיות מניעה מוחלטת של הדמיית אנשים אמיתיים או של נושאים מסוימים, למשל פוליטיקה או מין.
יש עוד מרכיב אחד שמעורר דאגה עמוקה. בסוף ההודעה שפרסמה OpenAI היא מציינת כבדרך אגב, שהיכולות של Sora הן "אבן דרך חשובה לקראת השגת בינה מלאכותית כללית (AGI)". אפשר לדמיין מה מכונת בינה מלאכותית חדורת שנאה למין האנושי עלולה לעשות עם הדמיה של המציאות, הדמיה כזו שבני אדם לא ידעו להבחין בין המציאות האמיתית לבין המציאות שהמכונה יוצרת. יכול להיות שהיא תשאף להשאיר את בני האדם מחוברים למציאות המדומה כל הזמן, בעוד שהמכונות בונות מחדש את העולם לפי רצונותיהן? יכול להיות שאנחנו בדרך למטריקס?