אנבידיה מלמדת את המכונות לדבר איתנו

"אנחנו בפתחו של עידן ה-AI", הכריז ג'נסן הואנג, נשיא ומייסד אנבידיה (NVIDIA) באירוע הפתיחה של כנס המפתחים GTC של החברה, שהתקיים אתמול. הכנס הבינלאומי, המתקיים לאורך השבוע, הוא הגדול בתולדותיה של חברה, והוא כולל 1,000 הרצאות ודיונים שמתקיימים בשלל שפות, בהן עברית. כל זה נערך באופן וירטואלי כמובן, כשהרצאת הפתיחה היא אירוע ה-Kitchen Keynote, שנתן הואנג מהמטבח בביתו הפרטי בקליפורניה. 
9 צפייה בגלריה 
גל צ'צ'יק
(עיבוד תמונה. צילום: Nvidia, Shutterstock)
וואנג הכריז על חידושים בתחום מרכזי הנתונים, רובוטיקה, מיחשוב-על לפיתוח תרופה לקורונה ושיתופי פעולה עם חברת ARM שנרכשה זה עתה ב-40 מיליארד דולר. אבל אין ספק שבמוקד הדברים עמדה הבינה המלאכותית (AI). "בינה מלאכותית של העידן החדש", הוא הסביר, "דורשת להמציא את המיחשוב מחדש, לחשוב ב-full-stack, משלב השבבים, המערכות, האלגוריתמים, הכלים ועד לאקוסיסטם". 

ומי נמצא כאן לעזור, אם לא אנבידיה? החברה שלפני 21 שנים הציגה לראשונה את כרטיס המסך הגרפי (GPU), שהתגלה במרוצת השנים כחיוני גם לפיתוח מערכות בינה מלאכותית. היום אנבידיה מפתחת את המעבדים והכרטיסים החזקים בעולם והשוק העיקרי שלה הוא פיתוח מערכות בינה מלאכותית. ככה פשוט.
ההתמקדות של אנבידיה בתחום הבינה המלאכותית יכולה להסביר את החשיבות של מרכז המחקר שהקימה החברה בישראל, ושעוסק כולו בפיתוח בינה המלאכותית, בנושאים כמו "למידת חיזוק" (reinforcement learning), ניתוח גיאומטרי, ראיית מחשב, ניתוח שפה. עשרה פרופסורים, דוקטורים ודוקטורנטים, שעובדים על כמה מהנושאים המרתקים בתחום הבינה המלאכותית תחת שרביט הניהול של פרופ' גל צ'צ'יק, מנהל מרכז המחקר. לקראת אירוע GTC שוחחנו עימו כדי לנסות ולהבין מקצת מהרעיונות שמסתובבים במסדרונות המרכז שלו.
9 צפייה בגלריה 
ג'נסן הואנג במטבח, בנאום פתיחת כנס GTC2020 
(צילום: NVIDIA)
אילו תוכניות יש לאנבידיה לגבי השימוש בבינה מלאכותית? 
"אנבידיה רואה את עצמה כחברה של האצת חישוב. לצורך זה יש מרכיב של שבבים אבל בעצם צריך לייצר את כל השכבות - מהשבבים דרך הספריות ועד לתוכנה ולאלגוריתמים שמעליה. לכן יש כאן קבוצה מאוד פעילה של מחקר אלגוריתמים בבינה מלאכותית. יש תחומים רבים, שבהם האצת חישוב יכולה לעשות הבדלים עצומים".
מה החידושים ביכולות הבינה המלאכותית, למשל בראיית מחשב שבה אתם עוסקים?
"יש שינוי גדול בשנים האחרונות. כשחושבים על ראיית מחשב חושבים על הבנה של תמונה, שהמחשב יידע אם זה חתול או כלב. אבל ראייה של אנשים היא הרבה יותר מורכבת, הם רואים דברים נעים, בתלת-ממד, והם נמצאים בתוך הסביבה שבה הם מסתכלים. תחום ראיית המחשב דורש היום בינה מלאכותית מסוגים אחרים, והוא מעבד מידע חזותי מורכב, דברים שתלויים אחד בשני. הבנה עמוקה פירושה למשל להבין למה קרה מה שקרה וגם להבין סיבתיות, יכולת לחזות מה יקרה אם נעשה פעולה, לענות על שאלות היפותטיות".
עוצמה לפיתוח דור חדש של בינה מלאכותית
אם מישהו חשב לרגע שמחשוב הענן הוא הדבר הבא בעולם הבינה המלאכותית, אנבידיה דווקא שמה את מרכז הנתונים, הדאטה סנטר, בליבו של עידן הבינה המלאכותית החדש. בכנס היא הציגה סוג חדש של מעבד: data processing unit) DPU), אבן הבניין החדשה של מרכז הנתונים, שמבוסס על ליבות Arm וטכנולוגיית האצת תקשורת של חברת מלאנוקס הישראלית, שנרכשה על ידי אנבידיה. "הדאטה סנטר הפך ליחידת המיחשוב החדשה", אמר הואנג. "DPU הינו מרכיב קריטי וחיוני במרכזי נתונים מודרניים ומאובטחים, בהם CPUs, GPUs ו-DPUs מסוגלים להתאגד אל יחידת מחשוב אחת הניתנת לתכנות באופן מלא, מונעת על ידי בינה מלאכותית ומסוגלת להביא לרמות אבטחה וכוח עיבוד שמעולם לא היו אפשריים". הוא מנה חברות רבות שישתמשו בטכנולוגיה החדשה, בהן צ'ק פוינט, VMWare, דל טכנולוגיות, ASUS, פוג'יטסו, Atos, לנובו, GIGABYTE, Supermicro, ועוד.
9 צפייה בגלריה 
הואנג בשיחה עם מיסטי
(צילום: NVIDIA)
אנבידיה הכריזה גם על תשתית מחשבי-על עתירי עוצמה -- DGX SuperPODs -- תשתית מחשבי בינה מלאכותית, המאפשרת לארגונים להתקין ולהפעיל מחשבי-על בתוך שבועות. כל מחשב כזה הוא אשכול מחשוב של 20 עד 140 מערכות DGX, שהקישור ביניהן נעשה באמצעות טכנולוגיית HDR InfiniBand של מלאנוקס. אחד המחשבים הבולטים שייוצרו בטכנולוגיה זו, הוא Cambridge-1 – מחשב-העל המהיר ביותר בבריטניה (וה-30 בעולם), שיוקם באוניברסיטת קיימברידג' וישמש בין השאר לחקר הקורונה באמצעות בינה מלאכותית בשיתוף חברות תרופות והאקדמיה.
"כדי שדברים יצליחו לעבוד בעולם האמיתי אנחנו צריכים כוח חישוב אדיר", אומר פרופ' צ'צ'יק, "יש מהפכה בעולם המחשבים, מעבר ממעבד חזק בודד להרבה מעבדים חלשים שעובדים ביחד. זה רעיון שמושפע ממבנה המוח האנושי. מתברר שהדבר הזה עובד מאוד טוב בבעיות של בינה מלאכותית שיש בהן אפקט רועש, נתונים לא אחידים, טעויות. זה דורש אלגוריתמים חדשים לגמרי, שונים ממה שפיתחנו במדעי המחשב במשך 30 שנה. באופן פרדוקסלי, הוספת רעש של שינויים קטנים בנתונים עוזרת לאלגוריתמים החדשים להבין את הכללים שמאחורי הנתונים".
לפגוש יצורי AI פנים אל פנים
עולם ה"מטאברס", אותו מושג שטבע ניל סטפנסן בספרו מ-1992, עולם וירטואלי שבו פועלות דמויות אנושיות לצד דמויות ממוחשבות, היה ההשראה של אנבידיה ליצירת פלטפורמה מעניינת בשם אומניברס (Omniverse). הפלטפורמה שהוצגה בשנה שעברה מייצרת סימולציה מדויקת של עולם המציאות, כולל איכויות גרפיות מדהימות שמשקפות את המציאות וכולל חוקי הפיסיקה שמאפיינים אותה. הפלטפורמה נועדה לאפשר למעצבים, מפתחים ואנשי רובוטיקה ומכוניות אוטונומיות לתרגל ולאמן את המערכות שלהם בתנאים שמדמים את המציאות האמיתית. כעת הכריזה אנבידיה על פתיחת המערכת לכל, במסגרת בטא פתוחה.
9 צפייה בגלריה 
לדמות את המציאות באיכויות גרפיות מדהימות
(צילום: NVIDIA)
"אחת הבעיות הגדולות שלנו היא Sim 2 Real – לעבור מסביבת אימון למציאות. כדי לאמן אדם או רובוט אתה צריך לתת לו להסתובב בעולם. אדם לומד נהיגה תוך 30 שיעורים? מכונית אוטונומיות – לוקח להן מיליוני מיילים לפני שיעלו על הכביש. אנחנו לא יכולים להרשות לעצמנו לתת לרכבים מהתחלה להסתובב על הכביש. זה המקום של הפיתרון לייצר סביבות סימולציה שבהן אתה מדמה את העולם ומאמן את הסוכן שלך בעולם סימולטיבי. האתגר המאוד גדול הוא איך לייצר את העולמות האלה שהם ריאליסטיים כמה שיותר. סוכנים של בינה מלאכותית יכולים להיתפס לכל מיני דברים שוליים שאנחנו כאנשים לא שמים אליהם לב כי הם לא נראים לנו חשובים" .
שיחות וידאו עם דיפ-פייק
מוצר מעניין נוסף שהוכרז בכנס היה פלטפורמת Maxine, שמאפשרת פיתוח מערכות שיחות וידאו עם יכולות חדשות, בהן התגברות על בעיית רוחב הפס שגורמת לתקלות טכניות רבות בעת שיחות וידאו, ביטול רעשים, והתכונה המגניבה: עיבוד הזמן אמיתי של הווידאו כך שהמשתתפים ייראו כמיישירים מבט למצלמה, כמו בשיחה רגילה בה המשוחחים יוצרים קשר עין. לצורך כל המערכת משתמשת בטכנולוגיית בינה מלאכותית מסוג GAN, או במילים פשוטות- מייצרת דיפ-פייק של פני המשתתפים.
9 צפייה בגלריה 
מיישירים מבט למצלמה באמצעות דיפ-פייק
(צילום: NVIDIA)
בעיית רוחב הפס נפתרת בצורה מעניינת: Maxine מצמצמת את רוחב הפס הדרוש לשיחות וידאו, כשהיא מנתחת את נקודות הפנים העיקריות של כל אדם בשיחה ומזרימה רק חלקים משמעותיים, כאלה עם תנועה, ולא את כל הפיקסלים בווידאו. התוצאה היא צמצום צריכת רוחב הפס לכעשירית מהמקור.
9 צפייה בגלריה 
שיחת וידאו בטכנולוגיית Maxine. אנשים ואווטרים
(צילום: NVIDIA)
המערכת גם מאפשר למשתתפי שיחת הווידאו לבחור אוואטר מונפש לעצמם, שיניע את שפתיו ויביע הבעות פנים באופן אוטומטי על פי קולו של המשתמש. בעולם הווירטואלי הזה משתלב גם Jarvis, כלי לפיתוח עוזרים דיגיטליים וירטואליים, שמופיעים בדיון כדמויות וירטואליות, והם יכולים לנהל דיאלוג עם בני האדם ולבצע משימות שניתנות להם. וואנג עצמו הדגים את הטכנולוגיה בשיחה עם "מיסטי", דמות AI וירטואלית שנראתה מאוד מתרגשת להופיע לעיני העולם.
איך מדברים עם רובוט
אנבידיה הציגה בכנס את Jetson Nano - ערכת פיתוח בינה מלאכותית ורובוטיקה, שמיועדת לסטודנטים, אנשי חינוך וחובבי רובוטיקה, במחיר של 59 דולר בלבד. הערכה תאפשר הוראה ולמידה של טכנולוגיות בינה מלאכותית באמצעות פיתוח פרויקטים. באנבידיה מתקדמים לעולם שבו המתכנתים לא יושבים מול מערכות מחשב בלבד, אלא מפתחים גם בינה מלאכותית עבור רובוטים ומכונות חכמות מסוגים נוספים. ה-Jetson Nano נועד לאפשר התנסות בגישה לעולם המכונות במציאות הלא וירטואלית.
9 צפייה בגלריה 
ערכת Jetson Nano - ה-AI הראשון שלי
(צילום: NVIDIA)
העיסוק בתקשורת בין בני אדם ומכונות חכמות הוא אחד הנושאים המרכזיים שמעניינים את פרופ' צ'צ'יק. תקשורת כזו דורשת מהמכונה להפגין שילוב יכולות של הבנת שפה וניתוח תמונה. "לבינה מלאכותית מאוד קשה לזהות מצבים שלא אומנה עבורם ואילו לאנשים זה מאוד קל. כאן יש פערים גדולים בין יכולת של בני אדם ובינה מלאכותית. כיום כבר פתרו את זה במערכות ניתוח שפה ועכשיו מתחילים לפתור את זה בראיית מכונה", אומר צ'צ'יק. הפתרונות שמפתחים אצלו במרכז המחקר ישמשו יום אחד להפעלה של "סוכנים חכמים" – מכונית, רובוט תעשייתי, עגלה חכמה ביתית - שבעזרת המוח של אנבידיה יוכלו לפעול במרחב שמיועד להם, להבין אותו ולתקשר עם בני אדם בצורה שרלוונטית לסביבה. 
9 צפייה בגלריה 
בינה מלאכותית במכונית. איך מתקשרים איתה?
(צילום: NVIDIA)
"תקחי ימינה אחרי הבית עם הפיצוציה למטה" זה מסר שהמכונית תוכל להבין, "תביא לי מנוע V-20 מהערימה של ההחזרות ותחבר אותו לשילדה הזאת" זה מסר שרובוט במפעל יבין. "בא לי מוס לימון מהחדשים שקנינו היום" יוכל להיות מסר לעגלת הגשה חכמה ביתית. היכולת להבין שיחה בשפה טבעית שמתייחסת לסביבה בה היא מתקיימת – את זה עוד לא עשו עד היום.
זה נשמע כמו סירי, רק קצת יותר מתוחכמת... 
"ההבדל לעומת סירי, שכאן המכונה ערה לסביבה של מה היא רואה, וזה נורא חשוב. כשאנחנו מדברים בינינו אני יכול להגיד לך 'תראה את הבחור שם', ואתה תדע למה אני מתכוון. בגלל ששנינו חשופים לאותו מידע אני מדבר אליך אחרת, מאשר אם לא היית רואה את זה". 
כמה אנחנו קרובים לזה?
"קשה להגיד זמנים... אולי שנתיים, בוא נאמר שנים ספורות".
להתמודד עם שימושים לרעה ב-AI
תחום מחקר חדש שהתפתח בשנים האחרונות הוא יצירת תמונות מאין, תת-ענף של חקר הראייה הממוחשבת. "בני אדם יכולים לדמיין תמונות בקלות, אבל זה מסובך לבינה מלאכותית", אומר צ'צ'יק. כדוגמה הוא מביא חיפוש תמונה באינטרנט כדי לשלב אותה במצגת: "היינו מאוד מעוניינים לכתוב 'תן לי תמונה של איש מטייל בים עם כלב'. ואחר כך תוכל להגיד לו לשים לברדור במקום קולי ולהזיז אותו קצת שמאלה. באותה דרך אפשר לייצר גם וידאו".
אתה לא מדבר בעצם על יצירת דיפ פייק?
"זו שאלה מאוד מעניינת. זו טכנולוגיה שיש לה כיוונים מסוכנים ונצטרך ללמוד איך להתמודד איתם. התועלת מאוד ברורה – יכולת לייצר מידע חזותי באופן אוטומטי".
9 צפייה בגלריה 
לשוחח עם רובוט במפעל
(צילום: NVIDIA)
עד כמה חוקרים ומפתחים ערים לשימושים לא ראויים בבינה מלאכותית?
"אני אומר זאת לרגע בכובע הכללי של בינה מלאכותית ולא כאיש אנבידיה – אנחנו נעשים יותר ויותר ערים  לדברים האלה. אנשים מנסים מראש להיות ערים למה הטכנולוגיות עלולות לשמש. בקהילת הבינה המלאכותית יש הרבה דיונים, זה עולה בכל הכנסים, מגיעים מומחים לאתיקה. אם יש עבודות שעלולות לעורר בעיות אתיות, מתייעצים עם מומחים לענייני אתיקה".
יש היבטים אתיים שאתה פוגש במערכות שאתם מפתחים?
"לא עבדנו עד היום עם בעיות או סיכונים ישירים. אבל יש הרבה מאמץ בתחום, ואפשר להשתמש בטכנולוגיה כדי להתמודד מול שימושים לא טובים בטכנולוגיה".