האם זה באמת פקיד הבנק המוכר לך, שמבקש בטלפון את קוד הגישה הנלווה לכרטיס האשראי? ולחלופין, האם זה באמת ראש הממשלה, שהוקלט בחשאי מקלל בגסות את נשיא ארה"ב?
לא בטוח. לגמרי לא בטוח.
בסוף ספטמבר 2019 דיווחו "וול סטריט ג'ורנל" ו"פורבס" על מנכ"ל חברת אנרגיה עלומה, שבסיסה בבריטניה, שהאמין כי הוא מנהל שיחת טלפון עם הבוס שלו, יו"ר החברה־האם מגרמניה. המנכ"ל מילא אחר ההוראה שקיבל - להעביר באופן מיידי 220 אלף יורו לחשבון הבנק של "ספק מהונגריה". למעשה, קול היו"ר היה מזויף – תוצר של טכנולוגיית "דיפ־פייק אודיו". לפי חברת הביטוח, המנכ"ל זיהה בוודאות את המבטא הגרמני ואת הגוון המיוחד שמאפיין את קולו של הבוס שלו.
כתבות נוספות למנויי +ynet:
לא רוצים לפספס אף כתבה? הירשמו לערוץ הטלגרם שלנו
הנוכל עז המצח התקשר שלוש פעמים: הראשונה – כדי ליזום את ההעברה, השנייה – כדי להודיע שהיא התקבלה, ופעם שלישית – כדי לדרוש תשלום נוסף. המנכ"ל החל לחשוד רק כשהבחין לפתע שהשיחה התבצעה ממספר טלפון אוסטרי. הוא אמנם לא שלח תשלום נוסף, אך הראשון הועבר במהירות מחשבון הבנק ההונגרי לחשבון בנק במקסיקו, ומשם למקומות אחרים. התוקפים לא נתפסו.
לפני כ־8 חודשים, ב־27 ביולי, פירסמה חברת הייעוץ הביטחוני "ניסוס" דוח המנתח ניסיון הונאה דומה, שבו "ביקש" מנכ"ל חברה אחר, בהודעת תא קולי שהשאיר לעובד בכיר, "סיוע מיידי להשלמת עסקה דחופה". "האם זה נשמע יותר רובוטי או יותר אנושי? הייתי אומר יותר אנושי", אמר רוב וולקרט, חוקר "ניסוס" שהאזין להודעה, למגזין הרשת Motherboard. בפעם הזו ניסיון ההונאה נכשל, שכן העובד שקיבל את ההודעה חשד מיד.
בפברואר האחרון דיווחו חוקרי אבטחת מידע של חברת "סימנטק" על שלושה מקרים שונים של "דיפ־פייק אודיו", שבהם נעשה שימוש נגד חברות פרטיות על ידי התחזות לקולו של המנכ"ל. על פי הדיווחים, ההאקרים אימנו מנועי למידת מכונה בקולות מנכ"לים שליקטו משיחות ועידה, מיוטיוב, מרשתות חברתיות ואפילו מהרצאות TED. בכל המקרים "שוכפל" קולו של המנכ"ל ונעשה בו שימוש טלפוני כדי לדרוש מבכירים במחלקות הכספים של החברות לשלוח כספים בדחיפות לחשבונות בנק שונים. "סימנטק" לא מסרה פרטים על החברות או האם ההונאות הסתיימו בהצלחה.
קול מסונתז, מלאכותי, אינו המצאה חדשה: המדען סטיבן הוקינג השתמש במכשיר שהפך טקסט לקול רובוטי ממוחשב לאחר שאיבד את קולו ב־1985. סייענים אישיים כמו "סירי" של אפל, "אלקסה" של אמזון, "גוגל אסיסטנט" של גוגל ו"קורטנה" של מיקרוסופט יודעים מזמן "להקריא" טקסטים בקול (כמעט) אנושי, וכמוהם הדפדפנים הנפוצים בשוק ואפליקציות כמו "ווייז" ותוכנות "אופיס".
הטכנולוגיה עלתה מדרגה עם השנים: ב־2008 פירסמה חברת CereProc, המתמחה בעיבוד קולי, אתר אינטרנט שאיפשר לאנשים להקליד הודעות - ולשמוע אותן אחר כך בקולו של הנשיא לשעבר ג'ורג' בוש. מבקר הקולנוע הנודע של ה"שיקגו סאן טיימס", רוג'ר איברט המנוח, שאיבד את קולו בגלל מחלת הסרטן, ראה את העמוד ופנה לחברה בבקשה להחזיר לו את קולו בסיוע ספרייה גדולה של הקלטות שלו. "זו הייתה אחת הפעמים הראשונות שמישהו עשה את זה", סיפר המדען הראשי של החברה, מתיו איילט, למגזין Wired, "וזו הייתה הצלחה אמיתית". בשנים הבאות אומץ הרעיון על ידי האיגוד האמריקני של חולי מחלת ניוון השרירים ALS, וכמה חברות, כולל CereProc, נרתמו לספק קולות סינתטיים לסובלים מהמחלה.
זה לא הספיק. כיום ההתקדמות האדירה בתחום הבינה המלאכותית ולמידת מכונה מאפשרת לשכפל ממש לא רק את קולו של שחקן ספציפי, אלא גם לפרק אותו לגורמים ולשמור על הניואנסים וגוני הקול האופייניים לו, כך שניתן למעשה להשמיע בקולו כל טקסט. הקול נשמע לאוזניים רגילות משכנע, אנושי ואותנטי, אף שאין נפש חיה מאחוריו.
במאי 2015 הודיע השחקן הארי שירר, שבמשך 25 שנה תרם את קולו לדיבוב כמה דמויות מפתח בסדרת האנימציה האלמותית "משפחת סימפסון", כי הוא עוזב את התוכנית. שירר זעם על דרישת מפיקי הסדרה, "פוקס המאה ה־20", לקצץ 30% משכר המדבבים המוגזם (שהגיע ל־400 אלף דולר לפרק). אחרי לחצים ורק לאחר מספר חודשים, ויתר שירר, כיום בן 77, וחתם על הסכם חדש. אבל הסרבנות שלו חשפה את האיום הגדול המרחף על המשך שידורה של הסידרה הוותיקה: השחקנים שמגלמים בקולם את תושבי ספרינגפילד מתקרבים לגיל פרישה – וייתכן שבקרוב יחליטו שנמאס להם.
מצד שני, ייתכן שמפיקי התוכנית כבר לא זקוקים לקולותיהם. עובדה: עדנה קרבאפל – המורה האייקונית של בארט, שדמותה הוצאה מהסדרה לאחר מותה של השחקנית מרשה וואלאס שדיבבה אותה – הוחזרה למסך לפרידה סופית באמצעות עריכה מחדש של הקלטות מפרקים קודמים. חומר גלם יש מספיק: אצל המפיקים הצטבר אודיו של שלושים שנה.
בשנים האחרונות, סרטוני וידיאו שבהם נעשה שימוש באלגוריתמים של למידה עמוקה כדי להחליף דמות בדמות אחרת, שמתפקדת לפי רצון הבמאי ("דיפ־פייק וידיאו"), הפכו לתופעה מוכרת ונפוצה. כמה חברות בעולם הגיעו להישגים מרשימים בתחום, ביניהם Canny AI ו־Deep Nen הישראליות. רק לפני כשבועיים נשתלה דמותו של טום קרוז בסרטון ויראלי כזה שכיכב ברשת. אבל מתברר כי יצירה של "דיפ־פייק אודיו" מורכבת קצת יותר. גם בסרטון הפייק־וידיאו המפורסם ביותר, שבו נראה הנשיא לשעבר אובמה מנבל את פיו על הנשיא טראמפ, נדרשה התערבות של הקומיקאי ג'ורדן פיל, שחיקה את קולו של הנשיא. אם הצלחת הפייק־וידיאו מעלה חששות אתיים וביטחוניים ממדרגה ראשונה – פריצת הדרך בתחום ה"דיפ־פייק אודיו", שמאפשרת שילוב של שתי הטכנולוגיות, מסוכנות בהרבה.
כבר ב־2016, באירוע של חברת "אדובי", יצרנית תוכנת "פוטושופ" המפורסמת, הוצג אב־טיפוס של תוכנה בשם VOCO, שהוכתרה כ"פוטושופ של קולות". היא חייבה "לימוד" – כלומר הקלטה של אדם במשך 20 דקות – כדי להטמיע את דפוסי הקול שלו, ומשלב זה די היה בהקלדת טקסט כדי שהתוכנה תקריא אותו בחיקוי מדויק. רק בשלב מאוחר יותר התברר כי VOCO מעולם לא תוכננה להפוך לאפליקציה מסחרית ויועדה רק לצורכי מחקר.
העובדה ש"אדובי" לא התקדמה לפיתוח מוצר מסחרי פתחה הזדמנויות עבור חברות אחרות לבנות חלופות ל־VOCO. WaveNet, למשל, הוא פרויקט מחקר דומה של חברת הבינה המלאכותית הבריטית "דיפ־מיינד", שנרכשה ב־2014 על ידי גוגל. בסוף 2017 הציגה הענקית הסינית "באידו" טכנולוגיה שזקוקה לדגימת קול בת שניות אחדות בלבד כדי להמיר טקסט לדיבור ויודעת אפילו להמיר מבטא בריטי למבטא אמריקני.
שורה ארוכה של חברות מפתחות כיום כלים בתחום. חברת "דסקריפט", למשל, המתמחה בשילובי עריכת טקסט וקול, מאפשרת באתר האינטרנט שלה לכל אחד להתנסות בהדגמה חינם. אתם מקליטים בקולכם את הביטויים המופיעים על המסך, ובתוך דקות ספורות נוצר מודל של הקול, שמאפשר לכם להקליד ולשמוע את עצמכם אומרים דברים שמעולם לא אמרתם. "דסקריפט" משתמשת במנוע קול מפורסם, שנקרא במקור Lyrebird. בהאזנה תמימה ואקראית, לרוב האנשים לא תהיה סיבה לחשוב שמדובר בזיוף. אלגוריתמים של למידה עמוקה יודעים להתאים בין הדיבור המוקלט לטקסט ולומדים את רכיבי הקול. לאחר מכן המערכת עושה שימוש ב"אבני הבניין" הלשוניות שהתקבלו כדי לבנות מילים חדשות, שלא נכללו בהקלטת המודל.
בתחילת הדרך, כמו בכל תחום של למידה ממוחשבת, כדי לקבל תוצאות סבירות המפתחים נזקקו לכמויות אינסופיות של דוגמיות קול מוקלטות: מאות שעות של אודיו. פריצת הדרך באה דווקא מתחום מחקר אחר - ראייה ממוחשבת. מדענים פיתחו טכניקה המכונה GANs, אשר יכולה לראשונה לבצע תחזיות אמינות למדי, המבוססות על נתונים קיימים. לדוגמה, בעקבות סריקה ו"למידה" של כמות לא גדולה של תצלומים ניתן ליצור תמונות חדשות לגמרי שנראות אותנטיות – לפחות באופן שטחי - לצופים אנושיים. אימוץ הטכנולוגיה בעולם האודיו הביא לירידה דרמטית בכמות הנתונים הנדרשים כיום ליצירת חיקוי קול אמין למדי. לתוצאה סבירה (אם כי לא מושלמת) מספיקות כבר רק כמה דקות של הקלטת קול אמיתי.
אין ספק שהטכנולוגיה רק תשתפר עם הזמן: מערכות חכמות יותר יזדקקו לפחות דוגמאות קול כדי להגיע לתוצאה משכנעת בהרבה. הסטארט־אפ הבריטי "סוננטיק", העובד עם תעשיית הבידור, טוען, כי הצליח להתמודד גם עם בעיית "הגוון הרגשי" החסר בקולות שנוצרו בבינה מלאכותית: אימון המחשב באמצעות קולות של שחקנים המבטאים גוונים רגשיים שונים. "אנחנו יודעים לפענח את ההבדל בין סרקזם לכנות ואת הרמזים הקטנטנים בצליל", אמר ג'ון פלין, מייסד־שותף בחברה.
החברות הגדולות העוסקות בתחום אמנם קיבלו על עצמן כללים אתיים מחמירים, אך כלי תוכנה רבים, בקוד פתוח (כלומר, עומדים לרשות הכלל), ניתנים להשגה בקלות ברשת, ולא צריך אפילו ידע מתקדם במיוחד כדי להשתמש בו לרעה. התוצאה כמעט מתחייבת: האקרים משתמשים בלמידת מכונה כדי "ללכוד" את קולם של אנשי המפתח שיובילו אותם לשלל. "דיפ־פייק אודיו" עלול לשמש גם ליצירת "ראיות" משפטיות מזויפות ולפגיעה כללית בקבילותן של הקלטות בבית המשפט, ואפילו לפיגועים של ממש: הוראות מזויפות של מנהלים, המורות לעובדיהם לא רק להעביר כספים אלא גם לספק גישה לרשת פנימית, ואפילו למתקנים פיזיים.
כל המומחים מביעים דאגה מההתפתחות, אבל מציעים דרך פשוטה שלא ליפול בפח: בכל מקרה שבו נדרשת מכם בטלפון פעולה משמעותית – פשוט נתקו את השיחה והתקשרו בעצמכם לצד השני. ככל שההודעה או השיחה ארוכים יותר, כך גדל הסיכוי שתשימו לב שמשהו לא כשורה; הטכנולוגיה אינה מתוחכמת מספיק כדי לחקות שיחת טלפון אנושית שלמה. גם איכות הצליל רלוונטית: ככל שהיא טובה יותר קל יותר להבחין בשינויים ובמוזרויות. שיחה באיכות ירודה או דיבור עם רקע רועש מחייבים תשומת לב.
בינתיים, כמה יצרניות משחקי וידיאו עושות כבר שימוש ראשוני בטכנולוגיה. במשחקים, מתברר, ניתן להשתמש בקולות מלאכותיים כדי לאפשר "עולמות" פתוחים יותר ומגוון רחב בהרבה של שיחות. הטכנולוגיה שימושית במיוחד בשלב הפיתוח, שבו קול מלאכותי יכול לשמש כתחליף זמני, לפני שיוזמן השחקן האמיתי לצרף את קולו; או במשחקי ספורט כמו "פיפ"א", שם ניתן כך להחליף בכל פעם את שמות השחקנים שצורחים הפרשנים. תיאורטית, שילוב של יצירת קול בבינה מלאכותית, זיהוי דיבור ואלגוריתם ההופך טקסט לדיבור, יכול לאפשר לגיימרים אפילו לשוחח עם דמויות במשחק.
האם קולות מלאכותיים יוכלו באותה מידה להחליף שחקנים בשר ודם בתחום הבידור? זינה קורשי, מנכ"לית ומייסדת משותפת של "סוננטיק", משווה את טכנולוגיית ה"דיפ־פייק אודיו" לימיה הראשונים של CGI – טכנולוגיית השימוש במחשב ליצירת תוכן ויזואלי בסרטים. "זה משכפל את קולם של שחקנים אבל לא מחליף אותם", היא אומרת. "מצד שני, אם מישהו מהם פורש, הקול שלו יכול לעבוד בשבילו".
"אתה בהחלט יכול להעלות פרק של משפחת סימפסון עם קולות דיפ־פייק אמינים למדי", אמר ל־Wired טים מקסמית'ורס, חוקר בינה מלאכותית ומפיק מדיה מקנדה. "האם התוצאה תהיה משעשעת? זו שאלה אחרת. השחקנים מביאים יותר מאשר רק קול. דן קסטלנטה, המדבב כל השנים את הומר סימפסון, מחדיר לדמות הדו־ממדית הזו חום, עומק, וכל התכונות שגורמות לנו לאהוב אותו. בני אדם, מתברר, עושים עבודה טובה מאוד בלהיות אנושיים".
פורסם לראשונה: 06:53, 02.04.21