אם לא עקבתם בשנה-שנתיים האחרונות אחרי ההתפתחות של טכנולוגיית הדיפ פייק, הסרטון הבא הולך להפתיע אתכם. למען האמת, הוא אמור להרשים אתכם גם אם אתם בקיאים בחומר. בסרטון שאנחנו חושפים הבוקר (יום ד') באופן בלעדי ב-ynet, הסטארט-אפ הישראלי D-ID מדגים את הטכנולוגיה שבאמצעותה הוא הופך תמונות סטילס לסרטונים חיים, רגע לפני שהיא נכנסת לשימוש בתעשיית הקולנוע והטלוויזיה.
בצד השמאלי של המסך אפשר לראות את ה-Driver, אדם שצולם בווידאו כשהוא מדקלם כמה משפטים. כל האנשים שמימינו? הם צולמו בסטילס בלבד. אלגוריתם הלמידה העמוקה (Deep Learning) של D-ID, הקים את תמונות הסטילס האלה לחיים וגרם לאנשים להזיז את השפתיים, את הגבות, את הראש, לפי התנועות של האדם היחיד שצולם בווידאו. Reenactment, או "הנפשה", קוראים לזה בחברה.
הכל התחיל בשיבוש זיהוי פנים
D-ID הוקמה בשנת 2017 על-ידי גיל פרי (מנכ"ל), אלירן קוטה (סמנכ"ל טכנולוגיות) וסלע בלונדהיים (סמנכ"ל תפעול). ההתמקדות העיקרית שלה הייתה ועודנה בתחום הפרטיות ושיבוש זיהוי הפנים. אבל המומחיות שצברה בתחום הפנים מאפשרת לה כעת לספק לתעשיית הבידור פתרונות שהיא כל כך נואשת להם בעקבות משבר הקורונה. בחברה מספרים על מבול של הצעות שקיבלו מגופי ענק בתקופה האחרונה.
מה כל כך מפתה בטכנולוגיה של D-ID? האפשרות לחסוך הון עתק על ימי צילומים: השחקן הראשי יוכל להגיע לסט הצילומים לזמן קצר, להתאפר ולהצטלם בסטילס בלבד. את יתר ימי הצילומים הוא יוכל לעשות מהמיטה בבית, או מכל מקום שירצה. הוא ינפיש את עצמו באמצעות אפליקציה שמותקנת על הסמארטפון האישי - בדיוק כמו שראינו בסרטון בתחילת הכתבה.
חסרות שיניים בתמונה? המודל ייצר אותן
"יצרנו מודל גנרטיבי שמחולק לשלושה תתי-מודלים, שלוש רשתות של למידה עמוקה, ואימנו אותו על עשרות אלפי סרטונים של אנשים מדברים", מסביר קוטה, סמנכ"ל הטכנולוגיות. "אם ה-Driver חייך וחשף את השיניים שלו, אבל בתמונת הסטילס מצולם אדם עם פה סגור, המודל יודע שחסרות שיניים והוא מייצר את הפיקסלים החסרים האלה. הוא לא מייצר סתם שיניים, אלא שיניים שממש יתאימו לפנים בתמונת הסטילס".
הטכנולוגיה של D-ID רלוונטית לסרטונים סטטיים יחסית של "ראשים מדברים". בעתיד, מבטיחים המייסדים, יהיה ניתן ליישם את הטכנולוגיה הזאת גם בסרטונים שבהם האובייקטים זזים, רצים וקופצים. "ראשים מדברים זו המומחיות שלנו ויש המון דרישה לזה", אומר המנכ"ל פרי, "אבל זה לא יהיה צעד מסובך לעשות את כל הגוף".
"אנחנו בין המומחים הגדולים בעולם בנושא מאוד ספציפי - למידה עמוקה בתחום הפנים", מוסיף פרי, "אנחנו יודעים לעשות הכל בתחום הזה, גם דברים שלא היה אפשר לעשות עד עכשיו". ואכן, הטכנולוגיה של D-ID מרשימה למדי: בחברה יודעים לשנות לאובייקטים את הבעות הפנים, את הגיל, את המגדר, אפילו לקחת אישה אמריקאית ולהפוך אותה בלחיצת כפתור ליפנית. D-ID מייצרת גם פנים מסונתזות, כאלה שלא קיימות באמת, ומלבישה אותן על מרואיינים שלא יכולים להיחשף בפומבי - למשל בסרטים תיעודיים או תוכניות תחקיר.
"המכלול הזה הפך אותנו למועמדים הכי רלוונטיים למשימה הזאת", אומר פרי על הטכנולוגיה החדשה של החברה, "שהיא בעצם להוריד בצורה משמעותית את העלויות ואת הזמן של הפקות קולנוע וטלוויזיה. זה נהיה סופר-רלוונטי בתקופה של הקורונה. הוצפנו בפניות". ל-D-ID, אגב, אין להם כל כוונה לפגוע בפרנסה של השחקנים ולהפוך אותם למיותרים. להפך: הטכנולוגיה אמורה לאפשר להם להמשיך לעבוד מהבית גם בתקופת הקורונה ואחריה ולהשתתף ביותר הפקות.
לא מעט חברות וגופי מחקר עוסקים בתחום הדיפ פייק. מה מייחד אתכם?
קוטה: "החידוש הטכנולוגי הוא שאנחנו לא מסנתזים כל פריים מחדש, שזה מה שמודלים גנרטיביים עושים בדרך כלל. זה שומר על האיכות המקסימלית של התמונה המקורית. הדבר השני הוא שאין לנו תהליך למידה - עשינו אימון חד-פעמי על עשרות אלפי סרטונים ועכשיו בהינתן אינפוט של Driver ותמונת סטילס, המודל ישר מתחיל לעבוד. הוא לא צריך להתאמן על כל סרטון".
פרי מוסיף: "מה שאתה רואה במאמרים אקדמיים למשל, אלה קטעים שנבחרו בקפידה מתוך התוצאות הכי טובות. בעבודות של חברות אחרות בארץ ובחו"ל, מראים לך את המוצר אחרי ימים של עבודה של אפטר-אפקטס ופוסט-פרודקשן. הם הפכו לחברת הפקה. אצלנו התהליך אוטומטי לחלוטין".
על המונח דיפ פייק, אגב, הם היו מעדיפים לוותר לטובת "הנפשה". פרי: "דיפ פייק זה ליצור משהו שהוא מזויף. אנחנו לא מייצרים משהו שהוא מזויף. זה השחקן שמנפיש את עצמו. המטרה היא ליצור הפקה בצורה יעילה וחסכונית יותר. אנחנו רוצים לעשות טוב - במוצרים שלנו בתחום הפרטיות, למשל, אנחנו שומרים לאנשים על הפרטיות. תעשיית הבידור נפגעה מאוד במגפה, ויש כאן צורך שאנחנו עונים עליו - בלי לייצר משהו שהוא לא קיים".