הדיפ פייק משתכלל: פשוט תקלידו והיא תדבר
קבוצת חוקרים פיתחה טכנולוגיה מבוססת בינה מלאכותית (AI) שמאפשרת לערוך קטעי וידיאו בדיוק כמו טקסטים: מוחקים, עורכים או מוסיפים מילים ממש כמו ב"וורד" - והסרטון משתנה כמעט בלי להותיר סימן. אוהד פריד, הישראלי שהוביל את המחקר, אמר ל-ynet: "יש לזה שימושים חיוביים, אבל אני מודאג"
כתבות נוספות על תופעת הדיפ פייק:
דה וינצ'י בהלם: מונה ליזה התעוררה לחיים
דיפ פייק: לכו תסבירו שזה לא וידיאו שלכם
סקרלט ג'והנסון: אי אפשר להתגונן מפני דיפ פייק
הטכנולוגיות שמאפשרות ליצור סרטוני דיפ פייק (Deep Fake), קטעי וידיאו שעברו מניפולציה או פוברקו באמצעות בינה מלאכותית
(AI), הולכות ומשתכללות. רק לאחרונה נחשפה טכנולוגיה שלא זקוקה ליותר מתמונות סטילס של בני אדם כדי לגרום להם "לדבר". אפילו המונה ליזה, מהציור המפורסם של ליאונרדו דה-וינצ'י, הוחזרה לחיים.
ממש בימים האחרונים הודיעה קבוצת חוקרים מכמה מוסדות בארה"ב כי הצליחה לפתח כלי חדש, שמאפשר לערוך וידיאו כפי שאנחנו עורכים טקסט: פשוט מוחקים, עורכים או מוסיפים מילים – והן משולבות בווידיאו בצורה כמעט בלתי נראית לעין. "זה ממש כמו בתוכנת וורד", אומר ד"ר אוהד פריד, החוקר הישראלי שעומד בחזית המחקר.
הטכנולוגיה הזאת עדיין לא מושלמת: האלגוריתם זקוק ל-40 דקות של תוכן מצולם של האדם שאת דבריו אנחנו רוצים לערוך, והוא עובד רק על סרטונים של "ראשים מדברים", כאשר הצילום והאובייקט סטטיים ואינם בתנועה. עם זאת, כמו בכל טכנולוגיה, גם זאת צפויה רק להשתכלל, ונראה שלא רחוק היום שבו נוכל להכניס לפיו של כל אדם מילים שמעולם לא אמר.
להפוך נפאלם ללחם מטוגן
בסרטון המלווה את המחקר אפשר לראות כיצד משפט כמו "אני אוהב את ריח הנפאלם בבוקר" (ציטוט ידוע מתוך הסרט "אפוקליפקסה עכשיו") הופך בלחיצת מקלדת ל"אני אוהב את ריח הלחם המטוגן בבוקר". התוצאות משביעות רצון: מתוך 138 בני אדם שצפו בקטעי הווידיאו הערוכים, 60% אמרו שהם נראים אמיתיים. מדובר בנתון גבוה למדי, בהתחשב בכך שרק 80% סברו שהסרטונים המקוריים, שאינם ערוכים, נראים אמיתיים.
פריד, במקור מבאר שבע, עשה שני תארים במחשבים באוניברסיטה העברית ודוקטורט באוניברסיטת פרינסטון בארה"ב. על המחקר הנוכחי הוא עבד במשך כשנתיים במסגרת פוסט-דוקטורט באוניברסיטת סטנפורד, לצד חוקרים מפרינסטון, מכון מקס פלנק להנדסת מידע וחטיבת המחקר של אדובי - החברה שעומדת מאחורי פרמייר, אחת התוכנות הפופולריות בעולם לעריכת וידיאו.
היישום שיצרו החוקרים עשוי לחסוך שעות עבודה ארוכות לעורכים של סרטי קולנוע או סדרות טלוויזיה שצריכים לעשות תיקונים בדיאלוג, ולסייע בהתאמת מדריכי וידיאו לקהלים שונים או בהתאמת תוכן לילדים תוך השמטה והחלפה של מילים בעייתיות. כרגע אין תוכנית קונקרטית להכניס את הכלי הזה לשימוש מסחרי, אבל לדברי פריד, "כמו חברות אחרות, גם אדובי מעוניינת למצוא דרכים חדשות וחדשניות לערוך וידיאו ולספר סיפורים, ולכן הם מעורבים כאן".
טכנולוגיה שעוזרת לשקר
איך הטכנולוגיה הזאת עובדת בעצם? האלגוריתם מבודד פונמות (היחידות הלשוניות הקטנות ביותר) ומתאים אותן להבעות פנים מתאימות. לאחר מכן הוא יוצר מודל תלת-ממדי של החלק התחתון בפניו של המצולם. כאשר עורך הווידיאו משנה את הטקסט, התוכנה משלבת את כל המידע – הפונמות, הבעות הפנים ומודל התלת-ממד – כדי לייצר קטע וידיאו חדש שמתאים לטקסט שהוקלד. בתהליך הזה מעורבת למידת מכונה (ML), שהיא תת-תחום של בינה מלאכותית (AI).הכלי החדש נועד אומנם לסייע בתעשיות הקולנוע והטלוויזיה, אבל האנשים שעומדים מאחוריו מודעים היטב לאפשרות שייעשה בטכנולוגיה הזאת שימוש לרעה, כפי שנעשה שימוש בדיפ פייק בעבר כדי לפברק סרטונים של פוליטיקאים או לשלב פנים של שחקניות ידועות בסרטוני פורנו. "טכנולוגיות כמו זו שיצרנו עוזרות לאנשים לשקר יותר בקלות באמצעות וידיאו", מודה פריד, "זה לא משהו שצריך להתייחס אליו בקלות ראש".
עם זאת, הוא מציין כי "יש הרבה שימושים חיוביים לטכנולוגיה שלנו. אפשר להשתמש בה לשיפור הפקות וידיאו, כדי לאפשר פרסונליזציה של תוכן ולעשות לוקליזציה לשפות וקהלים שונים". הוא מזכיר כי תהליך דומה עבר גם על תחום עריכת התמונות בעשורים האחרונים, ובסופו של דבר לא היינו רוצים להחזיר את הגלגל לאחור. בימינו, הוא אומר, יש להתייחס בחשדנות מסוימת גם לסרטוני וידיאו, ולא להתייחס אליהם כאל אמת צרופה.
"באופן אישי, נראה לי שהדיון צריך להיות על כך שאנשים משקרים, ויש להם דרכים להפיץ את השקרים האלה בקלות באמצעות המדיה החברתית, ושקשה מאוד לוודא את אמיתות הדברים", אומר פריד. "לדוגמה, אני יכול בקלות לכתוב הצהרה כוזבת, או להשתמש בדרך לא מתוחכמת כדי לבצע מניפולציה בתמונות או וידיאו על מנת לעוות את האמת". לדבריו, אחת הדרכים להתמודד עם המצב היא עדכון ואכיפה של חוקים רלוונטיים. חברות הטכנולוגיה, לעומת זאת, צריכות להרחיב את האלגוריתמים שלהן כדי לזהות שימוש לרעה, ולהעסיק גם בני אדם שיעשו זאת.
"אני מודאג", מסכם פריד, "אבל אני גם שמח מאוד שטכניקות כמו שלנו (ושיטות אחרות למניפולציה בווידיאו, כמו החלפת פנים בדיפ פייק) מקבלות חשיפה ומעוררות בקרב הציבור מודעות למניפולציות בווידיאו. באופן כללי, אנשים צריכים להבין שווידיאו לא בהכרח מציג באופן מדויק את הדברים שהתרחשו".