חידוש רודף חידוש, ידיעה רודפת ידיעה. קשה להאמין שרק שנה חלפה מאז נחשפה DALL-E2, הגרסה הבשלה של טכנולוגיית הבינה המלאכותית (AI), המפיקה תמונות מתיאורי טקסט בלבד, וכחודשיים בלבד מאז הושק הצ'אט-בוט המהפכני ChatGPT, שיכול לענות על שאלות, לכתוב מאמרים ואפילו שירים, ולייצר טקסטים הגיוניים, מפורטים ומלאי מידע, לפי בקשה.
כתבות נוספות למנויי +ynet:
המפתחת של שתי האפליקציות הללו, חברת OpenAI מסן פרנסיסקו, פרצה את הסכר, ושטף אדיר של אפליקציות וטכנולוגיות דומות – חלקן בקושי אפויות, חלקן מלכודות האקרים – מציף את הרשת. כל ענקיות הטכנולוגיה, שהבינו מזמן את הפוטנציאל האדיר בבינה המלאכותית ומחזיקות צוותי ענק של חוקרים ומפתחים בתחום, מבינות שלוח הזמנים התקצר, וכולן במרוץ מטורף. הפרסומים אילצו את חוקרי המעבדות הסודיות של מטא וגוגל להוציא לאור מוקדם מן הצפוי פרויקטים שתוכננו במקור להבשיל עוד קצת, הרחק מהכותרות.
לא רוצים לפספס אף כתבה? הצטרפו לערוץ הטלגרם שלנו
אבל ההכרזה הטרייה ביותר הגיעה בשבוע שעבר דווקא מענקית אחרת, מיקרוסופט, שמחזיקה כבר עכשיו בנתח נכבד מחברת OpenAI: יישום שהוא מעין DALL-E לסאונד – חיקוי קולי מושלם של בני אדם, שנוצר בעזרת דגימת קול באורך של שלוש שניות בלבד. הטכנולוגיה החדשה נקראת VALL-E – מחווה ל-DALL-E אבל גם ל-WALL-E - סרט האנימציה של פיקסאר מ-2008 - והיא מאפשרת להשתמש בדגימה קטנה בלבד של קול אנושי כדי להשמיע באותו קול כל טקסט שיעלה על הדעת. התוצאה יכולה להגיע לדיוק מרשים, גם ברמת טון הדיבור או הרגשות שמביע האדם בקולו. המודל מסוגל גם לשחזר את רעשי הסביבה בקטע שנדגם, כמו שיחה המתבצעת בטלפון או בתוך אולם גדול.
הפיתוח הוצג במאמר שפירסמה באתר GitHub קבוצת חוקרים מטעם מיקרוסופט, שהקפידו לציין בהגינות כי הוא מתבסס על מקודד חופשי לשימוש, חדש יחסית, של חברת מטא, שמצליח לדחוס קובצי קול מבלי לפגוע באיכותם. במקביל למאמר העלתה מיקרוסופט לרשת גם אתר שכולל דוגמאות רבות, כולל דגימות הקול המקוריות, הטקסט הכתוב, והתוצאה הסופית. בכמה מהן אפשר אפילו להשוות קובץ שבו נשמע בעל הקול המקורי מקריא את הטקסט לקובץ עם הקול המעובד.
2 צפייה בגלריה
הסייעת הקולית של גוגל
הסייעת הקולית של גוגל
הקול כבר לא רק בראש. בינה מלאכותית קולית
(צילום: Shutterstock)
לפי החוקרים, המודל אומן על 60 אלף שעות של קולות באנגלית. לצורך האימון הראשוני שלו נעשה שימוש במאגר קולות פתוח לציבור - שוב, מאגר ששיחררה מטא - המבוסס על קולותיהם של כ-7,000 בני אדם.
מדובר בלא פחות ממהפכה בתחום העיבוד הקולי ועריכת האודיו, שתספק לעורכים כלי רב-עוצמה. VALL-E תאפשר, למשל, לתקן בקלות קטע קולי שנפלה בו שגיאה – או לחלופין לשלב קטעים חדשים שלא נאמרו כלל במקור, פשוט באמצעות הזנת טקסט, ללא צורך בהקלטה מחדש.
מיקרוסופט מבינה כמובן גם את פוטנציאל הנזק העצום של הטכנולוגיה החדשה, שיכולה לשמש בקלות גם לזיופים ולהטעיות מכוונות, במיוחד בשילוב תוכנות דיפ-פייק וידאו, שיודעות לעבד סרטונים כך שתנועות השפתיים של הדוברים בהם יתאימו לכל טקסט. עד כה נעשה שימוש בחקיינים כדי להקנות אמינות לסרטונים הללו, אבל עכשיו, עם VALL-E, גם הסכר הזה נפרץ: שילוב של וידאו אמין עם קול כמו-מקורי שנוצר בתוכנה, יכול להוליד סרטוני פייק מושלמים.
נכון, ניתן עקרונית לפתח פיצ'רים שיידעו לזהות זיופים כאלה, אבל החשש מונע בינתיים ממיקרוסופט לשחרר לציבור את הקוד החדש, גם לא בתשלום, בדיוק כשם שמטא (ואולי גם חברות אחרות) חוששת עדיין לשחרר את Make a scene, התוכנה שפיתחה ליצירת תמונות באמצעות הוראות טקסטואליות, המתחרה ב-DALL-E2.
מיקרוסופט, צריך להזכיר, היא המשקיעה הגדולה ביותר בחברת OpenAI, המקור לשתי הטכנולוגיות המדוברות, DALL-E2 ו-ChatGPT. ההשקעה שלה בחברה מסתכמת עד כה במיליארד דולר. הידיעה מסוף השבוע שעבר על פיתוחה של VALL-E היא השלישית ברצף, שחושפת את מעורבותה העמוקה של מיקרוסופט בחזית הלוהטת של הבינה המלאכותית. ימים ספורים לפני כן פורסם באתר The Information כי ענקית התוכנה מסיאטל בודקת את שילובה של ChatGPT בחבילת התוכנות הפופולרית שלה, "מיקרוסופט 365" (המוכרת יותר כ"אופיס") - בוורד, בפאוור פוינט, באאוטלוק, וכנראה גם בכל תוכנה אחרת הכוללת הזנת טקסט.
המהלך מסעיר את הדמיון: האם מיקרוסופט תאפשר לנו להכין מצגת אלגנטית באופן אוטומטי, בלחיצת כפתור בפאוור-פוינט, שתתבסס על משפט אחד של טקסט? האם מעבד התמלילים וורד יספק לנו עבודה אקדמית אינסטנט על כל נושא שנבקש, בלחיצת כפתור? האם אאוטלוק תוכל למצוא עבורנו הודעות מייל אבודות גם אם לא הקלדנו את מילות החיפוש המדויקות? המקורות הלא רשמיים במיקרוסופט צנועים בהגדרת המטרה – "לאפשר למשתמשים לבצע משימות מהר יותר ובאופן מדויק יותר כדי לשפר את רמת היעילות והפרודוקטיביות (...) וכן עיבוד טקסטים לפי הנחיות, כמו תקצור של מאמרים, תיקון טעויות כתיב מוצלח יותר, וגם הצעה של חלופות"; אבל קל מאוד להעריך כי השמיים הם הגבול.
וכל זה בא אחרי ידיעה אחרת, שפורסמה מוקדם יותר, לפיה החברה מתכוונת לשלב במנוע החיפוש שלה בינג (Bing) גם תכונות מ-ChatGPT ובחינם. במקום להציג, כמקובל במנועי החיפוש, רשימת קישורים רלוונטיים למילים מבוקשות, יוכלו המשתמשים פשוט לשאול שאלות ולקבל עליהן תשובות בלשון שוטפת וטבעית. בניגוד למנועי החיפוש, ChatGPT לא מחובר לאינטרנט, לא סורק כל הזמן את הרשת ולא מתעדכן בזמן אמת; הוא יכול לענות על שאלות כמו "איך מאריכים את חיי הסוללה בסמארטפון?", אך לא על "מהי הסדרה המובילה כרגע בצפיות בנטפליקס?". לכן, הכוונה היא להיעזר בטכנולוגיה בעיקר לשיפור האופן שבו תוצאות החיפוש מוצגות למשתמשים ולהעשרתן בשפה נגישה.
2 צפייה בגלריה
DALL-E2
DALL-E2
מסעיר את הדמיון. DALL-E2
(צילום: Diego Thomazini/Shutterstock)
המהלך הזה, לשדרוג מנוע החיפוש הכושל של מיקרוסופט, מצטרף להודעה המשותפת שלה ושל OpenAI מאוקטובר האחרון, שבה הכריזו השתיים כי מחולל התמונות האוטומטי DALL-E2 ישולב בתוך בינג כחלק מפיצ'ר חדש ליצירת תמונות, וכן בכלי עיצוב חדש שטרם הושק.
אם התוכנית אכן תצא לפועל, זהו צעד שעשוי לאיים ישירות על גוגל הענקית, אשר הפרסומות במנוע החיפוש שלה מטילות ביצי זהב, שמהוות כמעט 60% מהכנסותיה. בינג, למרות מאמציה של מיקרוסופט לאורך השנים לקדם אותו, תופס כיום נתח זניח לגמרי של 9% בלבד מכלל השימוש במנועי חיפוש בעולם. החיפוש בגוגל הפך עם השנים לסטנדרט, והמינוחים "לגגל" או "לעשות גוגל", הפכו כבר לגנריים. שדרוג דרמטי לבינג עלול להוות מהלומה קשה לגוגל. מיקרוסופט, אם כן, יוצאת למלחמה, ועל פי רשת בלומברג, כבר בחודשים הקרובים היא עשויה לשלב בבינג תכונות ראשונות המבוססות על מודל השפה של OpenAI.
מי שחושב שבגוגל יושבים בחיבוק ידיים מול האיום החמור טועה. לפי הדלפות מהחברה, בחודש שעבר הוכרז בה "קוד אדום" - קריאת חירום לריכוז מאמץ בתחום הבינה המלאכותית ובחינת שינויים באסטרטגיה של החברה בתחום. על פי ה"ניו יורק טיימס", צוותים בתוך החברה הועברו לעבוד על כלי בינה מלאכותית, ומנכ"ל גוגל סונדאר פיצ'אי דרש מאנשיו להציג במהירות מתחרים הולמים למוצרי Open AI, כשהיעד הוא הכנס הצפוי של החברה בחודש מאי. לגוגל, צריך להזכיר, יש כבר מודל בינה מלאכותית משלה בשם LaMDA, שעלה לכותרות הקיץ כאשר עובד בחברה, המהנדס בלייק למואן, הביע חשש מכך שהטכנולוגיה מגלה "תבוניות, רגישות ומודעות" כמו בן אנוש, ופוטר.
לפי דיווחים בארה"ב, OpenAI שהוקמה בכלל ב-2015 כחברה ללא מטרות רווח, נמצאת עכשיו על המדף, והיא אולי חברת ההיי-טק המחוזרת בעולם כיום. לפי רויטרס, החברה צופה רווח של 200 מיליון דולר ב-2023, ויותר ממיליארד דולר ב-2024. עם מייסדיה, אגב, נמנים סם אלטמן ואילון מאסק, שעזב את תפקידיו בחברה שלוש שנים לאחר הקמתה בשל חשש מניגוד עניינים מול עבודתו בטסלה. לפי ההדלפות ב"וול סטריט ג'ורנל", מיקרוסופט מתכוונת להגדיל את ההשקעה בה ל-10 מיליארד דולר בעסקה שתעריך אותה בכ-29 מיליארד דולר (יותר מפי שניים מהערכת השווי שלה ב-2021). על פי הדיווחים, שתי החברות נמצאות במשא ומתן בנושא כבר מספר חודשים.
האם ליישומי הבינה המלאכותית צפויה אותה השפעה מטלטלת על השימוש שלנו בטכנולוגיה, כפי שהשפיעו האייפון, החיפוש בגוגל והסייעת האישית הווירטואלית? מומחי התחום בכל העולם משוכנעים שהתשובה חיובית. במכון "אלן" לבינה מלאכותית בארה"ב מעריכים אפילו ש"קפיצת מדרגה ענקית" ביכולות השיחה של צ'אט-בוטים ועזרים קוליים צפויה בתוך חצי שנה בלבד, בזכות גל של מוצרים, אפליקציות ושירותים חדשים המופעלים על ידי הטכנולוגיה שעומדת מאחורי ChatGPT.
בינתיים, OpenAI כבר הודיעה בפוסט באתר Discord כי היא "מתחילה לחשוב" על דרכים להפיק רווחים מ-ChatGPT. נשיא החברה גרג ברוקמן כתב בציוץ מ-10 בינואר כי גרסה מקצועית בתשלום של ChatGPT, עם ביצועים מהירים יותר, נמצאת כבר בעבודה, ורשימת המתנה לתוכנה נפתחה. יותר ויותר חברות מודיעות מדי יום על שילוב הטכנולוגיה במוצרים שלהן.
במקביל, התעשייה כולה מתחבטת בשאלה איך ניתן להבטיח שהמידע שמספקות אפליקציות הבינה המלאכותית החדשות יהיה אמין. OpenAI עצמה מזהירה באתר האינטרנט שלה כי ChatGPT לפעמים "כותב תשובות שנשמעות סבירות אך הן שגויות או שטותיות", וכי יש לו "ידע מוגבל" בלבד על אירועים לאחר 2021. מחלקת החינוך של עיריית ניו יורק, למשל, הגבילה את הגישה ל-ChatGPT בבתי הספר בעיר על רקע חששות מהטיות וטעויות. רק לפני פחות מחודש צייץ המנכ"ל סם אלטמן כי הצ'אט-בוט "מוגבל להפליא, אבל מספיק טוב בכמה דברים כדי ליצור רושם מטעה שהוא גדול".
כאן התחזיות פחות אופטימיות: מנסיון העבר, התעשייה תתגבר גם על כך, אבל זה ייקח זמן. לפי הערכות, כדי למתן את הבעיה, בשלב הראשון יציגו הצ'אט-בוטים העתידיים את המקורות שבהם השתמשו כדי להכין את התשובה, ולחלופין – במקביל לתוצאה המבוקשת ינפיקו גם רשימת תוצאות, כמו זו שמספקים כיום מנועי החיפוש הרגילים. עד אז, מצד אחד אפשר להתלהב למראה העיניים ולמשמע האוזניים שמספקת הטכנולוגיה החדשה, אבל מצד שני – מעכשיו, כדאי לקחת בעירבון מוגבל לא רק מה שאנחנו קוראים, אלא גם מה שאנחנו שומעים.