הסרטון שמופיע כאן למעלה? מעולם לא הצטלמתי עבורו. זה גם לא הקול שלי, ולמען האמת גם לא השיניים. הוא נוצר על ידי מודל הבינה המלאכותית של הסטארט-אפ הישראלי D-ID על בסיס תמונת סטילס אחת ויחידה שלי.
עוד כתבות שיעניינו אתכם:
התהליך היה ממש מהיר. שלחתי לחברת D-ID תמונה שלי ומשפט בעברית ובאנגלית, היא הזינה אותם ב-Creative Reality Studio שפיתחה ותוך כמה דקות קיבלתי בוואטסאפ סרטון חדש שבו אני מדקלם מילים שמעולם לא אמרתי בקול. הבינה המלאכותית של D-ID גרמה לשפתיים שלי לנוע בהתאם לטקסט, ניחשה כיצד נראות השיניים שלי (אני לא נוהג לחייך בתמונות) ואפילו גרמה לי להזיז את מדי פעם הפנים בנונשלנטיות, בניסיון לגרום לכל העסק להיראות קצת יותר טבעי.
כששלחתי את הסרטון בקבוצת הוואטסאפ המשפחתית, התגובות נעו בין "מרשים" ל"מפחיד ממש" ואפילו "קריפי". מעניין מה יגידו הלקוחות של D-ID, והלקוחות שלהם בתורם, כשהסרטונים של Creative Reality Studio יגיעו אליהם. האם החברה עלתה כאן על דרך חדשה להפיק סרטונים ארגוניים במהירות ובזול, או שהטכנולוגיה שהיא פיתחה מורגשת מדי ולפיכך עדיין לא בשלה?
אבל רגע, בואו ניקח צעד אחורה. D-ID, שהוקמה בשנת 2017, הפכה בשנים האחרונות לאחת החברות המובילות בישראל, ואולי גם בעולם, בתחום המדיה הסינתטית - מדיה שנוצרה בעזרת בינה מלאכותית. סביר מאוד להניח שנתקלתם כבר במוצרים שלה, למשל הכלים Deep Nostalgia ו-LiveStory שהיא פיתחה עבור My Heritage כדי לסייע למשתמשים להפיח חיים בקרובי משפחה שהלכו לעולמם. הטכנולוגיה של החברה שימשה גם להנפשת תמונות של נשים שנרצחו על ידי בני זוגן במסגרת הקמפיין המצמרר "הקשיבי בקולי - הקשיבי בקולנו" שבו הן עצמן "סיפרו" על הטרגדיה שלהן. גם אנחנו כאן ב-ynet סיקרנו לא פעם את הטכנולוגיה המסקרנת של החברה.
"חוסכים כסף, זמן ומאמץ"
הפיתוח החדש של D-ID, שנקרא Creative Reality Studio, אמור להנגיש את הטכנולוגיה שלה לחברות אחרות, מעסקים קטנים ועד לתאגידי ענק. מה הן יכולות לעשות בעזרתה? לדברי המנכ"ל והמייסד של החברה, גיל פרי, מקרי השימוש העיקריים הם סרטוני הדרכה פנים-ארגוניים, סרטונים שיווקיים וכן ברכות לחג לעובדים או ללקוחות. "הפקת וידאו רגילה עולה לפחות אלף דולר לדקה", אומר פרי, "אנחנו חוסכים ללקוחות שלנו כסף, זמן ומאמץ".
Creative Reality Studio עולה החל מ-49 דולר לחודש, אך המחיר יכול לטפס לעשרות ומאות אלפי דולרים כאשר מדובר בתאגידים גדולים שרוצים ליצור סרטונים רבים ולהשתמש בכלים המתקדמים ביותר. המשתמשים יכולים להחליט אם הם מעוניינים להשתמש בתמונת סטילס, באחד האווטארים ש-D-ID יצרה מראש או להעלות סרטון קצר שהמערכת יכולה להתאמן עליו על מנת להפיק תוצאה איכותית וריאליסטית יותר.
בצד של המלל, ניתן להקליד טקסט (גם בעברית), להקליט קטע אודיו או ליצור שכפול מבוסס בינה מלאכותית של קול אנושי - האלגוריתם כבר ידאג להתאמה בין הסאונד לתנועות השפתיים (בסרטון שמופיע בראש הכתבה, האנגלית הוקלדה והעברית הוקלטה על ידי בן אדם). בחברה אוסרים על שימוש בפלטפורמה ליצירת תוכן פוגעני, אלים או לא הולם. ניסיון להעלות תמונה של ידוען, למשל בראד פיט, יקפיץ התרעה על כך שמדובר בהפרה של תנאי השימוש ויוביל לעצירת התהליך.
כש-D-ID פגשו את DALL-E2
מקרה שימוש נוסף, שפרי אומר שבחברה לא חזו מראש, הוא שילוב של הכלים של D-ID עם התוצרים של מחוללי תמונות כמו DALL-E2 ו-Midjourney. בטוויטר כבר מסתובבים סרטונים של דמויות מאוירות שנוצרו באמצעות הכלים האלה והונפשו בעזרת Creative Reality Studio. "בחלק מהמקרים אפילו הטקסט והמוזיקה נוצרו על ידי מודלים של בינה מלאכותית", מספר פרי. האמת היא שדמות מאוירת שהונפשה נראית משכנעת יותר מבן אדם, מכיוון שבמקרה כזה אין את אפקט ה-Uncanny Valley ("עמק המוזרות"), התחושה המוזרה שמתעוררת בצופים למראה דמויות אנושיות שנוצרו באופן מלאכותי.
השלב הבא במפת הדרכים של החברה, מספר פרי, יהיה שילוב של אווטארים בעוזרים מבוססי בינה מלאכותית שיוטמעו בקיוסקים שמוצבים במסעדות, חנויות, בנקים, תחנות רכבת וכו'. "אתה תלך לכספומט ביפן ובמקום להקליד אתה תוכל לפנות אליו בעברית ולקבל תשובה בעברית", הוא מסביר, "ברשת בתי קפה, במקום ללחוץ על מסך מסורבל אתה תוכל לדבר עם מוכר שהוא בעצם אווטאר".
האם העולם מוכן למציאות כזאת? פרי בטוח שכן. "גם כשהוצאנו את Deep Nostalgia עם My Heritage אמרו לי שזה רעיון משוגע", הוא נזכר, "אבל 100 מיליון אנשים השתמשו בזה והפכו את My Heritage לאחת ממחזיקות התוכן הגדולות בעולם בתחום הווידאו. אי אפשר לטעון שזה לא עבד. ועם המטאברס שמתקרב אלינו בצעדי ענק, העולם הולך להתמלא באווטארים. אז זה השלב להיכנס".