מרוץ ללא מעצורים: Veo של גוגל פותח חזית חדשה מול OpenAI

אומרים שאחרי תקופה שחונה, הגשם הופך לסערה. זה כנראה מה שקורה כעת עם חברות ה-AI המובילות שמזדרזות לחשוף לעולם מודלי בינה מלאכותית חדשים. זה התחיל עם אמזון, וכעת גם גוגל הצטרפה לחגיגה ומשיקה רשמית את מודל יצירת הווידאו שלה Veo ללקוחות ארגוניים. 
הצעד הזה מגיע כמכה לאמזון, שכן Veo יותר מתקדם מהמודל שלה, ולמרות שסורה של OpenAI אמנם עדיין לא זמין מסחרית, האחרונה הבטיחה שהחל מהיום (ה') היא תחשוף בכל יום בשבועיים הקרובים מוצר או פיצ'ר AI חדש. הצפייה היא כמובן שנראה את סורה בין כל אותם המוצרים והפיצ'רים – המודל נחשב כרגע ככלי יצירת הווידאו החזק ביותר בשוק, למרות שהוא מוגבל ליצירה של סרטונים מאוד קצרים.
גוגל מצמצמת את הפער בין מציאות ל-AI
נכון לעכשיו, המודל של גוגל יודע לייצר סרטונים ברזולוציית 1080 פיקסלים במגוון סגנונות ויזואליים, בהתבסס על הנחיות טקסט או תמונות. על פי הדוגמאות שענקית האינטרנט פרסמה, הסרטונים ש-Veo מייצר נראים מאוד מציאותיים, כך שכמעט בלתי אפשרי להבחין שהם נוצרו על ידי בינה מלאכותית. 
בסרטונים שפורסמו נראה כלב שרץ בחוף הים וקונצרט רוק סוער, וכאמור הדיוק והריאליזם של הסרטונים מרשימים במיוחד. Veo נחשף לראשונה במאי האחרון, שלושה חודשים לאחר ש-OpenAI הציגה את סורה, המתחרה שלה. נכון לעכשיו Veo משולב בפלטפורמת Vertex AI של גוגל המיועדת לעסקים.
3 צפייה בגלריה 
מתוך סרטונים שיצר המודל של גוגל VEO
(גוגל)
לצד זה, גוגל מדגישה ש-Veo כולל מנגנוני בטיחות כדי למנוע יצירת תוכן מזיק או הפרת זכויות יוצרים. כל הסרטונים שנוצרים על ידי Veo משולבים בטכנולוגיית SynthID של DeepMind, מעין סימן מים דיגיטלי בלתי נראה שנועד למנוע הפצת פייקים. עוד טוענים בגוגל ש-Veo אינו מחליף צוות הפקה שלם, אלא משמש כ"שותף נהדר ליצירתיות אנושית, העוזר לטפל בהיבטים מייגעים או חוזרים על עצמם של הפקת וידאו". 
המהלך של ענקית הטק מגיע זמן קצר לאחר ש-OpenAI חוותה "הדלפה" של מודל סורה, שכאמור עדיין לא שוחרר לציבור. קבוצת אמנים חשפה את ממשק המשתמש של המודל במחאה על הלנת שכר מצידה של OpenAI. ההדלפה אפשרה גישה למודל לכמה שעות גם למי שלא נכלל בקבוצת הבטא המצומצמת.
בנוסף ל-Veo, גוגל השיקה גם את Imagen 3, מודל טקסט לתמונה. Imagen 3 הושק בשקט לאחר חששות לגבי תמונות לא מדויקות מבחינה היסטורית, עד כדי כך שגוגל נאלצה להשהות אותו זמנית (זוכרים את סערת הוויקינגים השחורים? אז הוא). כעת, Imagen 3 זמין גם בגוגל דוקס, אך אינו מאפשר יצירה של "תמונות פוטוריאליסטיות של אנשים ניתנים לזיהוי, תיאורים של קטינים או סצנות אלימות או מיניות מוגזמות". כאמור בגוגל למדו היטב מהפדיחות הקודמות.
3 צפייה בגלריה 
עוד דוגמה ליצירה של VEO
(גוגל)
כמעט שבועיים של הכרזות ב- OpenAI
על פי דיווחים באתר The Verge, השבועיים הקרובים צפויים לעמוד בסימן של סדרת אירועי השקה וחשיפות של כל המודלים המסקרנים שיש לחברה. OpenAI לא חושפת פרטים ספציפיים, אך הרשת גועשת משמועות והערכות לגבי הטכנולוגיות שיוצגו באירוע. בין המועמדים הבולטים: כאמור מחולל הסרטונים סורה, הגרסה המלאה של מודל החשיבה o1, ושיפורים בממשק הקול של ChatGPT ב-Advanced Voice ועוד.
OpenAI לא בזבזה את השנה האחרונה. החברה שחררה את GPT-4o, o1, Canvas ועוד, והכריזה על פיתוחים נוספים. כעת, נראה שחלק מההכרזות הללו יהפכו למוצרים שגם אנחנו הצרכנים נוכל להשתמש בהם, כאשר סורה הוא כנראה המוצר המצופה ביותר. בהתאם, ייתכן ונראה גם שחרור רשמי של פיצ'ר יצירת התמונות של GPT-4o, שעדיין לא זמין לציבור. 
3 צפייה בגלריה 
אירוע הכרזת GPT-4o של OpenAI. האם נזכה להציץ על היורשים?
(צילום מסך: יוטיוב)
כאמור גם Advanced Voice צפוי ליהנות משדרוגים, כולל גישה לחיפוש בזמן אמת ואולי אפילו יכולת לנתח את העולם האמיתי דרך מצלמת האינטרנט - אם כי זה מעט מטריד לחשוב שיש לך מודל AI עם גישה ישירה למצלמת הרשת שלך. 
הפתעות נוספות? אולי נראה עדכונים ל-Canvas, תכונות חדשות ב-ChatGPT, ואולי אפילו הצצה ל-o2 או GPT-5o היורשים של המודלים הנוכחיים. מחוץ לעולם מודלי השפה, ייתכן שנראה את Sora-Turbo או את Voice Engine, כלי הטקסט-לדיבור של OpenAI. מה שלא יהיה, האירוע של OpenAI עומד לפתוח פרק חדש במרוץ הבינה המלאכותית. מעניין לראות אם גוגל, שחוגגת שנה ל-Gemini, תכריז גם היא על חידושים נוספים משלה באותו השבוע.