מדובר במהפכה, מסוג הטכנולוגיות שמפציעות פעם בכמה שנים, מדהימות את כל מי שנחשף אליהן, ומשנות בבת-אחת הרגלים ותפיסות. אתמול הצטרפה גם מטא (פייסבוק לשעבר) לחזית הלוהטת הזאת: מארק צוקרברג הציג בגאווה תוכנת בינה מלאכותית שיודעת להפיק ציורים אמנותיים יפהפיים ברזולוציה גבוהה רק על פי תיאור טקסט שמגישים לה. מדובר באחד התחומים הטכנולוגיים הכי מדוברים של החודשים האחרונים, ועכשיו מעורבת בו גם גאווה ישראלית כחול-לבן: המערכת החדשה של מטא פותחה בארץ על ידי צוות מקומי בהובלת אורן גפני, בן 37, אב לשניים, מרמת-גן.
- לא רוצים לפספס אף כתבה? הצטרפו לערוץ הטלגרם שלנו
עוד כתבות למנויים:
מטא נכנסת לזירה הרותחת הזו עם מערכת "מייק-א-סין" (Scene־A־Make, "לעשות סצנה" — משחק מילים שובב על המילה Scene, שהיא גם "נוף"), שלושה חודשים אחרי ששתי תוכנות בינה מלאכותית מתחרות כבשו את הכותרות: "דאלי 2" (E 2־DALL) של חברת OpenAI ו"אימג'ן" (Imagen) של גוגל. מטא אמנם נכנסת למגרש באיחור אופנתי אבל מתיימרת לספק תוצאות איכותיות יותר משתי המתחרות, ובעיקר להחזיר לתהליך היצירה גם את הממד האנושי.
"בניגוד לאחרים, אנחנו לא רוצים לגרום למכונות להחליף אותנו בציור", אומר גפני. "להפך: עם מייק-א-סין, הבינה המלאכותית מגויסת כדי לשדרג את כושר היצירה שלנו". בניגוד לשתי מתחרותיה, מייק-א-סין נותנת לכל אחד אפשרות לעצב מראש את התמונה הסופית שיקבל, באמצעות ציור סקיצה שקובעת בדיוק את המיקום, הגודל והתנוחה של האלמנטים שהחליט לשלב בתמונה.
הסקיצה יכולה להיות בסיסית או מפורטת. קו לשמיים, עיגול לשמש, אליפסה לצלחת מעופפת, וקשקוש עמום בצד שמייצג דובי ירוק על גלשן מים – חכו 35 עד 72 שניות ויש לכם יצירה. ולא רק אחת — כמה אופציות לבחירתכם, שבהן כל אלמנט יושב בדיוק איפה שרציתם ובדרך שדמיינתם. רמת הדיוק עולה בהתאם לרמת הפרטנות של הסקיצה.
גפני: "במערכות הקיימות — ויש, אגב, יותר משתיים — הרוב המוחלט של תהליך היצירה מתבצע על ידי הבינה מלאכותית; אם יש לך רעיון בראש ואתה רוצה להפוך אותו לתמונה, בעזרת משפט טקסט בלבד אתה יכול להפיק תמונה שמתייחסת אליו – אבל לא תקבל את הרעיון המדויק שדמיינת. כך, לדוגמה, בקשה לצייר זברה רוכבת על אופניים תיצור תמונות שקשה לחזות: הזברה יכולה להיות בצד שמאל של התמונה או בצד ימין, או להיות הרבה יותר גדולה מהאופניים או קטנה מהם, ושניהם עשויים לפנות לחזית או הצידה. מייק-א-סין משאירה בידיך את השליטה על התוצאה. כשאנשים יוצרים תמונות רק מטקסט, הם יגידו: 'תראו איזה יופי הבינה המלאכותית יצרה'. אבל ברגע שהם מהווים חלק משמעותי מהתהליך, זה הופך להיות 'תראו מה יצרתי בעזרת הבינה המלאכותית'".
למה בכלל צריך את זה? מי שהביטוי האישי והיצירתיות חשובים לו, יוותר לגמרי על עזרת הבינה המלאכותית.
"אתן לך דוגמה. מדי פעם אני ממציא סיפורים לילדים שלי, כמו הרבה הורים אחרים, והמון זמן השתעשעתי ברעיון להוציא ספר ילדים. לא מימשתי את זה, כי אין לי שום כישרון בציור. אבל תוך כדי עבודה על מייק-א-סין הבנתי שהיכולת לדמיין משהו ולהפוך אותו לתמונה ממש תפורה לאיור סיפורים. אז כתבתי סיפור, אפילו שניים, ובכל פעם שסיימתי דף ניסיתי לדמיין מה צריך להופיע באיור שלצידו. כך, למשל, עשיתי סקיצה של ים, שמיים, משהו שדומה לסירה, וכתבתי בטקסט 'סערת ברקים בים'. יצאו איורים שהם בליגות אחרות לגמרי מהיכולות שלי בציור, אבל הם שלי והם הכי קרובים למה שדמיינתי".
את הקריירה שלו בבינה מלאכותית חייב גפני לרכבת בקו תל-אביב חיפה. יותר נכון, לספר שקרא במהלך הנסיעות בקו — "ההיסטוריה של המחר" של פרופ' יובל נח הררי. "עבדתי שמונה שנים באינטל חיפה כמהנדס חשמל, בפיתוח צ'יפים לתקשורת. בדרך מתל-אביב ניצלתי את הזמן לצפייה בסדרות, ללימוד קורסים, קצת לעבודה — וגם לקריאת ספרים. אחד מהם היה הספר של הררי, שמסביר, בין השאר, כמה למידת מכונה הולכת להיות דבר חשוב בעתיד.
"זה נראה לי מרתק, אז לקחתי קורס אונליין חינמי בנושא, של אוניברסיטת סטנפורד. אני זוכר שהתרשמתי בעיקר מאלגוריתם הבינה המלאכותית המסתורי, שלא ממש מבינים איך הוא עובד אבל מצליח לעשות דברים מדהימים. הבנתי שזה מה שאני רוצה לעשות בחיים, רק שזה חייב אותי לחזור ללימודי תואר שני באוניברסיטת תל-אביב. את עבודת התזה עשיתי אצל פרופ' ליאור וולף, שהיה ממקימי מעבדת הבינה המלאכותית של פייסבוק. לפני ארבע שנים הוא הזמין אותי לבוא לכאן, לקבוצה בתוך מטא שנקראת FAIR (Facebook AI Research), שמטרתה לקדם את מחקר הבינה המלאכותית בכל התחומים".
FAIR אמנם מונה כיום מאות חוקרים הפרוסים בכל העולם, אבל המחקר והפיתוח שהוביל גפני התבצע בעיקר בישראל לאורך השנה האחרונה. על הפרויקט כולו נצחו יניב טייגמן בארץ ודווי פאריק בארה"ב. גפני: "הצוות בתל-אביב עוסק בעיקר במודלים של בינה מלאכותית שיודעים ליצור דברים. אני מתמחה, למשל, בייצור תמונות ווידיאו, אבל יש כאן גם אנשים שחוקרים ייצור של מוזיקה או דיבור בעזרת בינה מלאכותית".
גפני מדגיש עוד חידוש במייק א-סין: "הוא קשור להבדל בין הדרך שבה אנחנו כבני אדם רואים את העולם לבין הדרך שבה אנחנו מאמנים את הבינה מלאכותית. כשאתה מסתכל על תמונה או כשאתה הולך ברחוב, אתה קודם תסתכל על האובייקטים שמעניינים אותך: אנשים, כלבים, מכוניות. אבל כשמאמנים בינה מלאכותית לא אומרים לה שהחתול בתמונה יותר חשוב מפיסת השמיים שמאחוריו, ושהמטוס יותר חשוב מגרגירי החול שמתחתיו. במערכת שלנו הכנסנו את זה כחלק מתהליך הלמידה: היא יודעת שכאשר היא מזהה אובייקט, האזור שבו הוא נמצא יותר חשוב, והיא תדע לטפל בו טוב יותר — ברזולוציה, בתאורה ועוד".
גפני מביא עוד דוגמאות ליכולות של מייק-א-סין: "ביקשנו מארבעה אמני בינה מלאכותית ידועים בארה"ב — סופיה קרספו, סקוט איטון, אלכסנדר רבן ורפיק אנאדול — להתנסות במערכת. אחד מהם, למשל, יצר תמונה של לחמנייה עם נקניקייה המרחפת בשמיים, מעל מים שבהם היא משתקפת. אם הוא היה משתמש רק בטקסט לתאר את זה, היו מתקבלות אינסוף אופציות למיקום הנקניקייה, לגודלה ולזווית שלה, לגובה המים ועוד. אבל הוא נתן למערכת שרטוט מפורט, ובעצם כך העביר את תהליך היצירה אליו. במקביל ביקשנו גם מילדים של עובדים במטא לשחק במייק-א-סין, ויצאו דברים מגניבים לא פחות. כלומר, אפשר לעשות את זה בצורה מאוד פשוטה – ואפשר גם לעשות את זה בצורה מאוד מדויקת, ואז מקבלים דברים עוד יותר מדהימים".
"אנחנו מאוד מאוד רחוקים מכל דבר שדומה אפילו לתודעה אנושית. למה זה דומה? למכוניות של היום, שיודעות לתקן את עצמן ולשמור על נסיעה בתוך הנתיב. אף אחד לא טוען שהן 'מודעות' לתיקון"
מדובר בעצם בז'אנר חדש של אמנות.
"נכון. מייק א-סין לא באה 'לאזן את המגרש' ולהשוות את היכולות של ילדים לאלה של אמנים ומעצבים; היא מגביהה את כולם. נכון שכל אחד יכול לעשות שרטוטים בסיסיים מאוד ולקבל תוצאות יפות, אבל מעצבים ואמנים עדיין יקבלו דברים הרבה יותר מרשימים".
היכולת של הבינה המלאכותית לקשר בין טקסט לתמונה היא התפתחות חדשה יחסית. לפי גפני, "עד לפני שנה-שנתיים עוד לא היו מודלים כאלה, שידעו 'להבין' גם שפה וגם תמונות, ולקשר ביניהן. מי שחקר ראייה ממוחשבת ידע לעשות ראייה ממוחשבת, וכך מי שחקר שפה. עכשיו זה מתחיל להשתלב. במייק א-סין האתגר מורכב עוד יותר: יש גם טקסט, גם תמונה, וגם שרטוט. גם מודלים עם טקסט בלבד הם לא דבר פשוט: המערכת צריכה למצוא קשר בין הטקסט לבין מיליוני תמונות שהוזנו לתוכה יחד עם התיאור המילולי שלהן. צריך להבין: מערכות הבינה המלאכותית לא שומרות את המידע ואז פשוט ניגשות אליו ושולפות אותו; אין להן יכולת 'לשנן' מיליון תמונות. הן לומדות קונספטים — קווים משותפים, קשרים, בין מילים לתמונות ובינן לבין עצמן. הן לומדות ממש ליצור".
עוד שימושים למערכת? יש אין סוף: תחשבו על ארט-דירקטור במשרד פרסום המבקש להציג לעמיתיו רעיונות לקמפיין יצירתי, משפיען מדיה חברתית שיוצר תוכן מותאם אישית, או סתם אדם שמבקש להכין ברכה ייחודית ליום הולדתו של חבר.
צוקרברג קישר בין הטכנולוגיה הזו לבין פרויקט המטאוורס, העולם הווירטואלי הגדול שהחברה עובדת על פיתוחו בימים אלה. מה הקשר?
"במטאוורס הכל יתבצע בתלת-ממד, מה שמסבך את העניינים. אבל אחת הדרכים ליצור סביבות בתלת-ממד היא ליצור אותן קודם בדו-ממד, ואז להמיר לתלת-ממד. ברגע שיש לנו כלי כמו מייק-א-סין, ניתן ליצור בקלות אובייקטים בדו-ממד. זה מקל מאוד על כל התהליך".
האם אפשר יהיה באיזשהו שלב לדלג על השרטוט ולהחליף גם אותו בהוראות ויזואליות? למשל: "שוטרת שחורה עם כובע טבח צהוב מימין למעלה, ורובוט מרחף במרכז הדף, בגובה שני-שלישים עמוד".
"כן. יש שתי דרכים לתקוף את זה. אחת, לדלג על שלב השרטוט, והשנייה — ללמד את המערכת להבין לעומק את כל ההוראות האלה וליצור את השרטוט בעצמה, ומשם זה הולך לתמונה".
אחת הטענות הנוקבות ביותר נגד ביצועי הבינה מלאכותית היא ההטיה שלהם, ה-bias. הטכנולוגיה מתבססת הרי על עיבוד של מאגרי מידע עצומים, ואלה מטבעם כוללים גם דברי שטנה, אלימות ופורנוגרפיה והטיות נגד נשים, אנשים מרקעים אתניים שונים ולהט"בים.
"ברגע שאנחנו משתמשים במקור מידע שהוא פתוח לכל, כמו האינטרנט, אז יש חוקים וכללים שבעזרתם מנתחים מידע פתוח, וניתן לאתר ולנטרל את ההטיות האלה, ולקחת אותן בחשבון; אתה יודע לצפות ולחשב איזו בעיה תהיה לך במודל – ולסנן אותה. אם עושים את זה על 'מידע סגור' שנאסף ונשמר בחברה, קשה יותר לנטרל את ההטיות, כי קשה יותר לאתר ולהגדיר אותן. אצלנו במטא, לפחות, השימוש הוא במידע פתוח ונגיש".
אז איך זה שכל שלוש המערכות ליצירת תמונה שהוצגו באחרונה, כולל שלכם, עדיין לא יצאו לשימוש הציבור. למה מייק-א-סין לא משוחררת כבר לשימוש המוני?
"לכל מחקר לוקח הרבה זמן עד שהוא הופך להיות מוצר. חשוב מאוד לעשות את זה באופן אחראי. יש הרבה מאוד דברים שצריך לקחת בחשבון, וזה לוקח זמן, במיוחד בתחומים מורכבים כאלה. אם היום היינו מוציאים אותה, היינו מגלים מאוחר מדי את הבעיות שיש לפתור. ויש בעיות. למשל, אם המודל 'ראה' פעמים רבות אנשים מפורסמים שתמונותיהם חוזרות שוב ושוב במאגר, הוא יידע לייצר תמונות דיפ-פייק שלהם עושים מעשים שלא עשו. ויש מספיק אנשים עם כוונות זדון שישמחו לנצל את זה לרעה. זה דורש מענה.
"סיבה שנייה היא, שאנחנו צריכים להבין בדיוק מהם המוצרים שאנחנו רוצים להפיק מהיכולת הזו. זה מחייב חשיבה ובדיקה. ויש גם דברים שצריך לשפר — למשל, אנחנו רוצים שהמערכת תעבוד מהר יותר. אנחנו חושבים ועובדים על זה, אבל זה לא יקרה בטווח הזמן המיידי".
ומה לגבי הוראות מילוליות בעברית למערכת?
"ברגע שיש לך מערכת תרגום טובה — ויש לנו — זה פתור. אתה תכתוב בעברית, היא תתרגם לאנגלית והכל יעבוד כרגיל. זו הדרך הקלה להתמודד עם זה. אם היו לנו היום עשרות מיליוני תמונות עם תיאורים מילוליים בעברית, לא היה צריך תרגום. אבל במציאות הקיימת, זו הדרך להתגבר על העניין".
אי-אפשר שלא לשאול מה דעתך בשאלה שהתעוררה מחדש אחרי פיטוריו של מהנדס בגוגל, שטען כי מערכת הבינה המלאכותית של החברה "פיתחה רגשות".
"אנחנו מאוד מאוד רחוקים מכל דבר שדומה אפילו לתודעה אנושית. למה זה דומה? למכוניות של היום, שיודעות 'לתקן' את עצמן בתנועה ולשמור על נסיעה בתוך הנתיב. אף אחד לא טוען שהן 'מודעות' לתיקון. הבינה המלאכותית היא בעצם משימות שלימדו את המכונות לעשות, והן מבצעות אותן בצורה מעולה. עד כדי כך, שבחלקן — כמו ייצור טקסט — נוצרת תחושה כאילו יש כאן 'משהו מעבר'. אבל בסוף זו רשת שיודעת לקבל איזשהו קלט ולהשלים אותו בדרך שהיא למדה מהמידע שהוזן לה. אין כאן שום הבנה תודעתית עצמית של 'אני מערכת שעושה את זה'. יום אחד זה אולי יקרה, אבל לא בטווח הנראה לעין".
פורסם לראשונה: 07:51, 15.07.22