בשיתוף אנבידיה
לפני 15 שנים, הרבה לפני שדיברו על בינה מלאכותית ולמידת מכונה, אירוע רפואי במשפחה גרם לדני וייסברג (49), מנכ"ל ומייסד שותף בסטרטאפ הישראלי VoiceITT לגילוי מפעים. "סבתא שלי, שהייתה ממש מרכז המשפחה ודמות מאוד חשובה בחיי, עברה אירוע של שבץ מוחי, וכתוצאה מכך איבדה הרבה מאוד מהיכולות המוטוריות שלה. הדיבור שלה הפך להיות לא מובן, וחווינו חוויה משפחתית מאוד כואבת - היא הפכה לסיעודית ולא הצלחנו לתקשר איתה יותר.
"בתוך כל החוויה הזאת, ובפעמים שהגעתי לבקר, היה לי איזשהו רגע 'אאוריקה' שבו שמתי לב שהאחות שטיפלה בסבתא שלי ביום-יום הצליחה להבין אותה. וזה גרם לי לחשוב - למה האחות מבינה אותה ובני משפחתה לא? הבנתי שזה בגלל שהיא מבלה איתה המון זמן. עם הזמן היא למדה להבין את צורת הדיבור הייחודית של סבתא שלי."
לפני שנה השיקה החברה, שלוקחת חלק בתוכנית הסטארטאפים NVIDIA Inception, את VoiceITT – אפליקציה שממנפת את טכנולוגיות הבינה המלאכותית לטובת פיתוח סיוע קולי לאנשים שהיכולת התקשורתית שלהם נפגעה, כך שיוכלו לחזור ולתקשר בצורה מיטבית עם הסביבה.
כבוגר טכניון ובעל רקע טכנולוגי שעבד בחברות דוגמת HP וצ'קפוינט, וייסברג הבין כי אפשר לחבר בין אינטואיציה לתוכנה שיש לה יכולת ללמוד, "ולעזור לאדם עם מוגבלות דיבור לתקשר עם כל אחד, ואנחנו נוכל לאפשר לו למלא את מלוא הפוטנציאל בחייו".
וייסברג הוא אחד ממשתתפי כנס GTC השנתי של אנבידיה שיתקיים בין התאריכים 24-21 במרץ (הקליקו להרשמה חינם), שיעסוק בין היתר בדרכים שבהן בינה מלאכותית, מחשוב על (HTC) ומדע נתונים (Data Science) משולבים יחד כדי לעצב תעשיות בשווי טריליוני דולרים בארץ ובעולם. במסגרת הכנס הוא ישתף בסיפורה של האפליקציה שהושקה ב-2021 לאחר שב-2012 חבר למייסד שותף בעל מומחיות בבינה מלאכותית וזיהוי קולי שהאמין ברעיון.
"זה מעבר לחלומותיי", הוא משתף. "לראות מה בינה מלאכותית והכוח שלה יכולים לעשות לאנשים עם צרכים מיוחדים. AI יכולה לשבור כמעט את כל המחיצות בינם לבין אנשים שמוגדרים 'רגילים'. כולנו מכירים את סטיבן הוקינג כדוגמה, האדם שאיבד את היכולת לדבר אבל היה לו פוטנציאל אדיר. בזכות טכנולוגיה מאוד עתיקה הוא הצליח לתקשר עם הסביבה. תחשבו כמה 'סטיבן הוקינגים' יש היום בעולם, שבגלל מוגבלות לא יכולים לתקשר ולתרום לאנושות. בינה מלאכותית יכולה לגרום למיליוני אנשים לאיכות חיים הרבה יותר טובה, לאפשר להם ללכת למסעדה, לטייל, לעבוד ולממש את עצמם. כל האנושות מרוויחה מזה".
אז איך זה עובד? מעבדים גרפיים (GPUs) של אנבידיה מתפקדים כ"מוח" שמאחורי הטכנולוגיה, שעסוק בלמידה של מידע קולי עצום המגיע ממשתמשים בכל העולם. "אנחנו מזינים את רשת הנוירונים (Artificial Neural Network) במיליוני ההקלטות שמייצרים המשתמשים שלנו, והיא יוצרת בסיס למנוע זיהוי דיבור", מסביר וייסברג. "הרשת הזו בעצם מכילה את כל הידע של הביג-דאטה ויודעת לצפות מראש איך ידבר אדם שנולד עם שיתוק מוחין או שעבר שבץ. המנוע שלנו מאפשר גם פרסונליזציה, ובאמצעות תהליך מובנה ופשוט האינדיבידואל מקליט את עצמו ומלמד את התוכנה לזהות את הדיבור האישי שלו.
"המנוע ממשיך ללמוד כל הזמן, וככל שהאדם ישתמש יותר באפליקציה, כך יהיה לו יותר דאטה פרסונלי שימשיך וישתפר. במקביל, ככל שיהיו יותר אנשים שמשתמשים באפליקציה, ייווצר אצלנו יותר דאטה, הבינה המלאכותית תהיה מנוסה יותר ונצטרך פחות זיהוי פרסונלי".
בעתיד, מסביר וייסברג, הכל סביבנו יהפוך להיות מופעל באמצעות קול. "זו הדרך הכי נוחה לתקשר עם בני אדם אחרים ועם העולם הממוחשב שמסביב. הטכנולוגיה שלנו יכולה להפוך את כל אותם מוצרים לתמוך באותן אוכלוסיות שהדיבור שלהן לא מובן לבני אדם אחרים, אבל גם לא מובן לתוכנות זיהוי קולי אחרות. בשבילנו להדליק אור או להגיד 'נגן מוזיקה' לאלכסה זה נחמד, אבל בשביל האדם מוגבלות זה משנה חיים. הוא באמת תלוי במישהו אחר שיעשה את זה.
"אנחנו רוצים להגיע למצב שבו יתאפשר לכל מי שהדיבור שלו לא ברור להשתמש במוצרים מופעלים בקול. האינטגרציה הזו רלוונטית לחלק עצום באוכלוסייה שהפך להיות שקוף ומודר מהכלל פשוט כי הוא לא מעניין חברות גדולות מבחינה מסחרית. בראש ובראשונה אנשים עם מוגבלויות, אבל גם אנשים שמדברים במבטאים כבדים, בשפות שונות כמו טיגרית או סוואהילית, אנשים שחווים ירידה בשמיעה כמו אוכלוסיית המבוגרים, ולמעשה כל מי שהדיבור שלו לא מספיק סטנדרטי. באמצעות למידת מכונה ומנוע זיהוי הדיבור, נוכל להנגיש את כל הטכנולוגיות לכל אותם אנשים ולקרב אותם אל העתיד איתנו, ולהעניק להם המון העצמה וחירות".
לתרגם את היצירתיות למציאות
דרך נוספת לשנות את עולם היא לתת לפרט את היכולות להבין ולעסוק בטכנולוגיות שונות בצורה פשוטה יותר. "אנחנו נמצאים היום בגל השלישי של תחום הבינה המלאכותית, שמאפשר לפתור יותר ויותר בעיות ולהכניס את הטכנולוגיה הזאת למגוון רחב של עולמות", מספר אופיר ביבי (39), סמנכ"ל המחקר של היוניקורן הישראלי "לייטריקס" שמפתח אפליקציות לעריכת וידאו ותמונות, תוך שימוש במנועי בינה מלאכותית ולמידה עמוקה מבוססי אנבידיה. ל-Lightricks, גם היא חלק מתוכנית NVIDIA Inception, מגוון אפליקציות עם כשלושים מיליון משתמשים ברחבי העולם ויותר מחצי מיליארד הורדות, ביניהן Facetune ו-Videoleap המוכרות.
כמי שהתחיל את העיסוק בבינה מלאכותית באקדמיה, בתחום מדעי המוח והמחשב, ביבי צפה בעצמו בדמוקרטיזציה של AI והתרחבותו של התחום אל מחוץ לכותלי האוניברסיטה ואל תוך העולם העסקי. "אני מתעסק בלמידת מכונה ובבינה מלאכותית כבר 17 שנה, עוד לפני הגל הנוכחי, וכמות ההצלחות של פתרון בעיות באמצעות דאטה הייתה קטנה מאוד, פשוט כי לא היה את כוח החישוב שהיה צריך כדי להחליף את התוצאות שיודעים להגיע אליהן בני אדם. בגלל שכוח החישוב היה מוגבל, היה ממד של איטיות שהיה מאוד לא עסקי. לימוד מכונה היה לוקח חודשים ושנים, והאלגוריתמיקה לא הגיעה לדיוק הרצוי.
"לפני עשור הדבר הזה השתנה. חיבור שנוצר בתחום מדעי המוח, ושילב בין מעבדים גרפיים חזקים מעולם הגיימינג והגרפיקה בפיתוחה של אנבידיה, עם אלגוריתמיקה, הצליח אפשר לתוכנות לרוץ עם כוח חישוב גדול יותר ובמהירות גבוהה יותר מאי פעם. הדבר הזה יצר התלהבות מחודשת והזניק את ההתקדמות המטורפת שאנחנו רואים היום. זו גם הטכנולוגיה שאנחנו מתבססים עליה כיום בפיתוחים שלנו", הוא מסביר.
אז מה הקשר בין בינה מלאכותית לתוכנות עריכת תוכן? פשוט מאוד - החיים הקלים ש-AI יכולה לעשות לאנשים יצירתיים שלא מגיעים עם ידע מקדים בתוכנות עיצוב. "יש דברים שאפילו למעצבים מקצועיים יהיו קשים וסיזיפיים. המטרה שלנו היא לאפשר לאנשים להיות מסוגלים לייצר תוכן מאוד איכותי ומאוד מהר, ולקחת כלים שהיו נחלתם של מעצבים מקצועיים בלבד ולהפוך אותם לאוטומטיים בלחיצת כפתור באמצעות AI.
"דוגמה פשוטה לכך היא היכולת לצבוע דמות בסרטון וידאו בשחור ולבן, ולהשאיר את הרקע צבעוני. אם בעבר היינו צריכים לסמן בעצמנו את 'גבולות הגזרה' של הצביעה, היום באמצעות AI אנחנו יכולים ליצור מסכה אוטומטית של האובייקט שגם תישאר יציבה בזמן לאורך הפריימים. דוגמה נוספת היא להכניס רצועת טקסט לווידאו שתלך אחרי אובייקט בתזוזה, למשל כלב. אם בעבר היינו צריכים להבין את המסלול של הכלב ולשתול עליו נקודות שיעקבו אחרי התנועה פחות או יותר, היום אני יכול לקבוע נקודה אחת, והבינה המלאכותית תדע בעצמה ללכת אחרי הכלב. האוטומטיזציה של תהליכים סיזיפיים שכאלה משאירה את העבודה לדמיון של המשתמשים ופחות לכמה גבוהים הכישורים הטכניים שלהם".
לדברי ביבי, גם הוא בין המציגים בכנס GTC השנתי של אנבידיה שם ישוחח על עתידה של הבינה המלאכותית, השימוש היצירתי בה רק ימשיך וישתכלל, ומטרתו היא - בסופו של דבר - לאפשר לחלומות הכי פרועים של יוצרי תוכן להיות ברי השגה.
"כיום בני אדם עוד מפקחים על האימון והלימוד של מכונות כדי למצוא את התשובות הנכונות, אך יש שיטות שהולכות ותופסות תאוצה שבהן מעודדים למידה ללא פיקוח - מכונה שיודעת מניסיונה האישי לייצר מצב שהוא אופטימלי, בדיוק כמו שאנחנו כאנשים לומדים. למידה תוך כדי תנועה מתוך התבוננות על העולם, באמצעות ניסוי וטעייה. בעולם הקריאייטיב אנחנו רוצים להגיע למצב שבו מכונה תוכל לעשות כל מה שהיוצר ירצה, וכמה שיותר בקלות. היוצר ידמיין את זה, והבינה המלאכותית תדע ליצור לו את זה, עד לרמה שבה הוא יוכל לדבר אליה במונחים יומיומיים, כמו 'אני רוצה ווייב יותר שמח בתמונה', או 'אני רוצה ציפור ורודה על עץ', וה-AI תדע לתרגם את זה למציאות".
"כנס GTC 2022 של אנבידיה, שיתקיים בין התאריכים 21 ל-24 במרס באופן מקוון, יביא תחת קורת גג וירטואלית אחת את בכירי ובכירות ענף הבינה המלאכותית מכל התעשיות, כמו גם את בכירי נשות ואנשי המחקר והמדע מסביב לעולם", אומרת לירון פריינד-סעדון, מנהלת קשרי מפתחים באנבידיה, ישראל והמזרח-התיכון. "המשתתפים יספקו כלים פרקטיים ומיומנויות בתחומי ה-AI דרך מאות מפגשים, הרצאות וסדנאות, ובליבם נמצא את ההכרזות והטכנולוגיות פורצות הדרך שיציג מנכ"ל ומייסד אנבידיה, ג'נסן הואנג".
בין החברות שישתתפו בכנס נמצאות Google Brain, מיקרוסופט, חברת הגיימינג Epic Games, נאס"א, מרצדס, וולט דיסני ועוד. הכנס יתמקד השנה, בין היתר, בעולמות וירטואליים (Metaverse) עם עשרות פאנלים שיעסקו בעתיד האינטרנט בתלת ממד (זהו כמובן המטאברס), ויספקו הצצה לכלים המאפשרים לבנות ולחבר בין עולמות וירטואליים. בשידור המרכזי של מנכ"ל החברה, ג'נסן וואנג, יוצגו דרכים חדשות להניע את עתיד המחשוב המואץ והבינה המלאכותית, מוצרים חדשים ועוד.
בשיתוף אנבידיה
פורסם לראשונה: 08:58, 15.03.22