לשאול את הסמארטפון מה מזג האוויר בחוץ, לצפות בסרטון עם כתוביות שתומללו באופן אוטומטי או לנהל שיחה מורכבת עם צ'אטבוט באפליקציית קניות - נכון להיום, הפעולות האלה לא אפשריות בשפה העברית. אומנם ישראל היא אומת הסטארט-אפ, אבל בכל מה שקשור לעיבוד שפה טבעית (NLP), נדמה שאנחנו נמצאים שנות דור מאחורי ארה"ב ומדינות אחרות.
עוד כתבות שיעניינו אתכם:
זה לא שאין בישראל מהנדסי תוכנה מוכשרים, להפך. כמה מהמוחות המבריקים בתחום הבינה המלאכותית יושבים באקדמיה ובמרכזי המחקר והפיתוח בארץ. אבל בניית מודל שפה היא פרויקט שאפתני ויקר, עברית היא שפה מורכבת ומאתגרת ובסופו של דבר שוק דוברי העברית הוא קטן למדי, בסך הכל כמה מיליונים. איך נאמר את זה בעדינות? אנחנו לא ממש בראש סדר העדיפויות של ענקיות הטכנולוגיה.
"בעברית אין ניקוד, כל מילה אפשר לקרוא בכל מיני צורות, אין אותיות גדולות", מסבירה את האתגר פרופ' רעות צרפתי מהמעבדה לעיבוד שפות טבעיות באוניברסיטת בר אילן. "המילה דן, למשל, היא גם פועל - השופט דן מישהו - וגם שם פרטי. סדר המילים בעברית יותר חופשי ויש מורכבויות שלא קיימות באנגלית, כמו בניינים. כל הדברים האלה יוצרים איזשהו חסם. אם אני לוקחת מודלים שאומנו לאנגלית ומנסה לאמן אותם באופן ספציפי לעברית, לא תמיד הם עובדים כמו שאנחנו מצפים".
מודלי השפה בעברית שקיימים היום מגיעים לכ-70-80% דיוק בלבד. הסיבה העיקרית לכך היא שהם התאמנו על מעט מדי טקסטים: בשביל לייצר מודל שפה מוצלח, צריך דאטה-סט (מידע לאימון המודל) של כשני מיליון משפטים בעברית, שאת כולם צריך לתרגם לאנגלית ובנוסף לנתח ולתייג כל אחד מהם - להסביר מה התפקיד של כל מילה ומילה, מה הקשר בין המילים, מתי הכוונה למקום ומתי הכוונה לישות מסוימת, האם היחס למילה הוא שלילי או חיובי ועוד. העבודה הזאת לוקחת זמן ודורשת הרבה כוח אדם.
בשנים האחרונות נכנסה לתמונה טכניקה נוספת, למידה בפיקוח עצמי (Self Supervised Learning) שמאפשרת להזין לתוך המודל מאות מיליוני משפטים לא מתויגים ולתת לו ללמוד באופן עצמאי, בין היתר באמצעות הסתרת מילים בטקסט וניחוש שלהן. המודלים המודרניים מבוססים על שילוב בין שתי הטכניקות, המפוקחת והלא-מפוקחת, אבל גם בשיטה הזאת צריך לתייג אלפי או עשרות אלפי משפטים לכל הפחות. "הקושי בלמידה לא מפוקחת הוא שצריך המון דאטה כדי שהמודל יהיה טוב", מסבירה צרפתי, "רוב הכמויות הגדולות של הטקסטים הזמינים בעברית סגורות מאחורי חומות של פרטיות או זכויות יוצרים". הצלחתם להשיג את הדאטה הנחשק? כאן לא נגמרו הבעיות שלכם: כעת תצטרכו לדאוג לכוח מיחשוב חזק מאוד - מאות או אלפי GPU (מעבדים גרפיים המשמשים גם להרצת יישומי בינה מלאכותית) - כדי לאמן את המודל שלכם.
החסמים האלה גרמו לכך שבמשך שנים תחום ה-NLP בעברית לא התקדם לשום מקום: נזכיר שרוב הסייעות הקוליות, ובראשן גוגל אסיסטנט, אינן זמינות נכון להיום בעברית. בזמן שדוברי אנגלית ושפות אחרות יכולים לשוחח עם הסמארטפון או עם הרמקול החכם שלהם כדי לברר מה מזג האוויר, להפעיל את שואב האבק או להזמין מוצרים, בישראל אנחנו נאלצים להמשיך להקליד כאילו השנה היא 2012. אבל סייעות קוליות אינן היישום היחיד של NLP: מודל שפה גדול בעברית יאפשר לבנות כלים מתקדמים לתרגום ותמלול, לפתח צ'אטבוטים מתוחכמים שישפרו את איכות השירות שאנחנו מקבלים, וכן יסייע לארגונים לסדר בצורה יותר טובה את המידע שלהם.
"בסוף זה עסק כלכלי"
נכון לעכשיו, חברות הטכנולוגיה, או לפחות חלק גדול מהן, בוחרות לשבת על הגדר. אופיר זמיר, ארכיטקט בתחום הבינה המלאכותית שמוביל את קבוצת ה-Data Science באנבידיה ישראל, מספר שענקית השבבים נכנסה לתחום ה-NLP לפני כחמש שנים - מהלך טבעי לאור המומחיות של החברה בבינה מלאכותית ומחשבי-על. אבל בעברית לא חלה התקדמות משמעותית. "בסוף זה עסק כלכלי", הוא מסביר, "חברות שמייצרות מודלים של NLP צריכות בסופו של דבר לראות כמה לקוחות יכולים ליהנות מהדבר הזה". מי שצריכה להרים את הכפפה, לדבריו, היא המדינה: "זה לא שמתחילים מכלום, יש פעילות באקדמיה, יש סטארטאפים שעוסקים בתחום, גם אנבידיה וחברות נוספות עושות פעילויות במגוון שפות, כולל עברית, אבל לא בהיקף שמאפשר לפרוץ את תקרת הזכוכית. המדינה - כמו מדינות אחרות - צריכה לתת רוח גבית".
ד"ר אביב זאבי, רשות החדשנות: "יכול להיות שבאיזשהו שלב נגיע למצב שרמות הדיוק הן כל כך דומות בין אנגלית לעברית, שכבר אין משמעות להמשיך לעבוד, אבל זה ייקח לדעתי לפחות 10-5 שנים. כרגע יש תקציב לשנתיים. אנחנו מתחילים בבניית תוכנית עבודה חדשה לשלב השני ומבקשים תקציבי המשך"
ממשלת ישראל, תשמחו לשמוע, מסכימה לחלוטין עם הקביעה הזאת. בסוף שנת 2020 קבעה ועדה בראשות ד"ר ארנה ברי, שבחנה את נושא הבינה המלאכותית בישראל, כי תחום ה-NLP בעברית ובערבית מהווה כשל שוק ויש לתקצב אותו ב-180 מיליון שקלים. "אין מספיק פעילות באקדמיה ובתעשייה הישראלית", פסקה הוועדה, "זהו תחום בעל חשיבות אסטרטגית, אשר מהותי לשימוש ביכולות בינה מלאכותית במשרדי הממשלה ובתעשיות נוספות".
את הפעילות בתחום מרכזים רשות החדשנות, מפא"ת (המינהל למחקר, פיתוח אמצעי לחימה ותשתית טכנולוגית במשרד הביטחון) ומשרד החדשנות, המדע והטכנולוגיה. התקציב משמש בין היתר לאימון מודלי שפה ענקיים, בניית אלגוריתמים של למידה עמוקה, פיתוח יכולות עיבוד במכשירי קצה ועוד.
עוד לפני שוועדת ברי פרסמה את המלצותיה, הקימה רשות החדשנות איגוד חברות NLP - בהשתתפות חברות כמו גוגל, אמזון, רפאל, הראל ועוד - שתוקצב ב-7.5 מיליון שקלים לשלוש שנים ומטרתו לקדם את התחום. לדברי ד"ר אביב זאבי, סמנכ"ל רשות החדשנות, עד כה תויגו כ-50 אלף משפטים בעברית ובעוד שנה המספר צפוי להכפיל את עצמו. כמו כן, יתויגו 10,000 משפטים ראשונים בערבית. בנוסף, מימנה רשות החדשנות מחקרים אקדמיים ופרסמה מכרזים לפעילויות שונות בתחום המ-NLP.
כמה זמן הפעילות הזאת תימשך?
זאבי: "יכול להיות שבאיזשהו שלב נגיע למצב שרמות הדיוק הן כל כך דומות בין אנגלית לעברית, שכבר אין משמעות להמשיך לעבוד, אבל זה ייקח לדעתי לפחות 10-5 שנים. כרגע יש תקציב לשנתיים. אנחנו מתחילים בבניית תוכנית עבודה חדשה לשלב השני ומבקשים תקציבי המשך".
מודל עם 20 מיליארד מילים
הגוף שלקח על עצמו את המשימה המורכבת של פיתוח מודל שפה ענק בעברית הוא מפא"ת. "זה מה שחסר לנו כדי להרכיב את הפאזל של ה-NLP בעולמות העברית", מסביר סגן-אלוף ע', ראש ענף בינה מלאכותית ביחידת המו"פ במפא"ת. "לקחנו את טובי המוחות - מומחים מהאקדמיה, מפתחים שלנו, חברות בעלות שם עולמי - כדי ליצור מודל שמורכב מ-20 מיליארד מילים בעברית. אנחנו הולכים לפתח ארכיטקטורה ייחודית שתתאים לשפות השמיות והמודל הזה יהיה דו-לשוני, לעברית וערבית".
לדברי סגן-אלוף ע', הפעילות הזאת מוגדרת לשנים 2022-2023 וכבר בסוף השנה הנוכחית יהיה מודל שפה ראשוני בעברית, שלמעשה יתחלק לשלושה: מודל למובייל, מודל למחשוב אישי ומודל לחוות שרתים. בהמשך מתכננים במפא"ת לפתח יכולות שיאפשרו לקבוע אם טקסט כלשהו הוא פייק ניוז או שנוצר באופן מלאכותי באמצעות מודל שפה. מה יעשו במערכת הביטחון עם שלל היכולות האלה? אפשר רק לנחש.
בניגוד לחברות הטכנולוגיה, שמשקיעות סכומי עתק בפיתוחים טכנולוגיים ולאחר מכן מסתירות אותם מאחורי חומות, המטרה של מפא"ת היא לפרסם את המודלים במלואם באתר ייעודי בשם GitHeb כדי שישמשו את התעשייה ואת קהילת המפתחים - מחברות ענק כמו גוגל ומטא ועד לסטודנטית שסיימה את הלימודים ורוצה להקים סטארט-אפ. "אפילו החברות הגדולות מאותגרות עם NLP", אומרת צרפתי, "אז אנחנו לא מצפים מסטארטאפים בתחילת דרכם לפתח את זה. והסטארטאפים הם מנוע מאוד חשוב למדינת ישראל ולרשות החדשנות".
פרופ' רעות צרפתי, אוניברסיטת בר אילן: "יש מודלים שיכולים לדווח על דיוק של מעל 90% לטקסט עיתונאי מסודר, אבל כשהם יעברו לטוויטר זה יצנח לסביבות 80% או 70%. כשעוברים משפה לשפה, או מתחום לתחום, תמיד יש איזושהי צניחה ובדרך כלל האנשים שאכפת להם מהתחום הזה עושים איזושהי עבודה כדי לשפר את זה"
צרפתי מעודדת מהפעילות הממשלתית בתחום בשנתיים האחרונות והיא מעריכה שבעוד שנתיים עד חמש נהיה במקום אחר. האופטימיות שלה נובעת גם מההצלחה של מודל שפה בשם AlephBERT (פרפרזה על שמו של מודל שפה ידוע בשם BERT) שפותח במעבדה שלה באוניברסיטת בר אילן ושוחרר לפני שנה לקהילה. לדבריה, "בכל חודש מורידים את המודל עשרות אלפי פעמים והוא נמצא בשימוש במחקר אקדמי, בסטארטאפים, בארגונים וגם בתאגידים".
למה זה לא מספיק בעצם?
צרפתי: "ל-AlephBERT יש 100 מיליון משפטים, אבל הוא עדיין נחשב 'קטן'. הוא אומנם עובד הרבה יותר טוב מהמודל הדי קטן שהיה לעברית עד עכשיו, אבל יש מקום לשיפור - במשימת זיהוי ישויות הצלחנו להגיע לאזור ה-80% דיוק, שזה נהדר, אבל אם אני עכשיו רוצה להשתמש בו בתעשייה, הייתי רוצה שזה יעבוד ברמה של 95%".
מהי רמת הדיוק של המודלים באנגלית היום?
"יש מודלים שיכולים לדווח על דיוק של מעל 90% לטקסט עיתונאי מסודר, אבל כשהם יעברו לטוויטר זה יצנח לסביבות 80% או 70%, או שבמעבר לטקסט רפואי תהיה צניחה. כשעוברים משפה לשפה, או מתחום לתחום, תמיד יש איזושהי צניחה ובדרך כלל האנשים שאכפת להם מהתחום הזה עושים איזושהי עבודה כדי לשפר את זה. באוניברסיטה העברית, למשל, יש חוקרים שהוסיפו למודל AlephBERT המון טקסטים משפטיים והצליחו לשפר את הביצועים שלו בתחום הזה".
צרפתי מעריכה שתוך כשנה ישוחררו מודלים נוספים ומתוחכמים יותר בעברית עם יכולות שאינן קיימות כיום. "בכל פעם זה ישתפר עוד קצת, אבל אני חושבת שזה יהיה מורגש. תחשוב על גוגל טרנסלייט של לפני עשור ועל גוגל טרנסלייט של היום - מרגישים שהייתה התקדמות לא מבוטלת בעברית. הייתה תקופה שגוגל טרנסלייט בעברית היה מקור לבדיחות ולממים והיום זה אולי לא 100%, אבל שימושי לגמרי לחלק גדול מהמשתמשים. זה לא שיום אחד זה פתאום עבד מצוין כי מישהו תיקן את כל הבאגים - זאת היתה התקדמות קונסיסטנטית ומורגשת".
גם זמיר אופטימי: "זה הצליח בכל השפות, אז אין סיבה שזה לא יצליח בעברית. אבל יש עבודה שצריך לעשות. אני חושב שאחרי שתהיה פלטפורמה והפרויקט יוגדר בצורה טובה, תוך חודשים בודדים נוכל לראות תוצאות משמעותיות. בסוף מדובר באבולוציה, כמו שאתה דואג לתחזק שפה בצורה שוטפת, גם פה נכנסות מילים חדשות וסלנג חדש - אתה תמיד יכול לשפר את זה. אז בזמן קצר אפשר לראות כאן קפיצה משמעותית, אחר כך נראה יישומים מעל זה".
בין היישומים האלה עשויים להיות האווטארים מבוססי הבינה המלאכותית של אנבידיה, שהוצגו על ידי החברה בסוף השנה שעברה. האווטארים האלה מסוגלים לראות, לדבר ולנהל שיחה של ממש באמצעות מערכת שמשלבת בינה מלאכותית, ראיית מחשב, הבנת שפה טבעית, מנועי המלצה וטכנולוגיות סימולציה. ניתן לשלב אותם במערכת הבנקאית, בקיוסקים של רשתות מזון מהיר או בחנויות וירטואליות במטאברס. "קיבלתי הרבה טלפונים מכל מיני גופים, כולל גופים ממשלתיים, שאמרו 'תביא לנו את זה'", מספר זמיר, "אווטאר שמדבר עם אזרחים זה נראה לי מגניב בהרבה מקומות, תחשוב על הוראה - אם הילד יכול לשבת מול אווטאר ולתקשר איתו בצורה אינטראקטיבית זה נראה לי מדהים".
הבינה המלאכותית שעוזרת למורה
מי שלא מחכה למדינה ועובדת במרץ על פיתוח יכולות בתחום ה-NLP היא חברת מיקרוסופט. בחודשים האחרונים הוסיפה ענקית הטכנולוגיה תמיכה בעברית לשורה של מוצרים בתחום ה-AI. אחד מהם הוא Azure Video Analyzer for Media, כלי מתקדם לניתוח סרטונים שמאפשר בין היתר לתמלל את האודיו וכן לזהות את הדוברים ואת נושאי השיחה. כלי נוסף הוא Teams for Education, שמסייע בשיפור מיומנויות הקריאה והשפה של תלמידים. "אם פעם מורה היה צריך להקשיב ל-38 תלמידים מקריאים טקסט, כאן יש בינה מלאכותית שעובדת לצידו ומנתחת את כל מיומנויות השפה של התלמידים, מדגישה בפניהם איפה הצליחו ואיפה לא ומסבירה להם מילים", אומר ד"ר תומר סימון, המדען הראשי של מיקרוסופט ישראל מחקר ופיתוח.
ד"ר תומר סימון, מיקרוסופט: "יש ל-NLP פוטנציאל להזניק את כל הטרנספורמציה הדיגיטלית של המשק הישראלי. למה זה כל כך חשוב? תחשוב על תחומי הבריאות, החינוך, המשפט, הבנקאות והפיננסים - באמצעות NLP אתה יכול לתת שירותים מאוד-מאוד מתקדמים לציבור, לאזרחים ולעובדים"
סימון זוקף את הפעילות של מיקרוסופט בתחום ה-NLP בעברית לזכות העובדה שלחברה יש מרכז מחקר ופיתוח גדול בישראל ומסביר כי "למנהלים הישראלים יש מחויבות לעברית". הוא מעריך כי "בשנתיים הקרובות תהיה מהפכה אמיתית בתחום של ה-NLP בעברית. יש ל-NLP פוטנציאל להזניק את כל הטרנספורמציה הדיגיטלית של המשק הישראלי. למה זה כל כך חשוב? תחשוב על תחומי הבריאות, החינוך, המשפט, הבנקאות והפיננסים - באמצעות NLP אתה יכול לתת שירותים מאוד-מאוד מתקדמים לציבור, לאזרחים ולעובדים".
ואולי אודיו הוא העתיד?
עוד חברה שתחום ה-NLP קרוב לליבה היא מטא (פייסבוק לשעבר), שלפני חודש הכריזה על פרויקט שאפתני, No Language Left Behind - מודל בינה מלאכותית שיכול לתרגם את כל השפות הכתובות בעולם, כולל עברית. בנוסף עובדת ענקית הטכנולוגיה על Universal Speech Translator, כלי שיאפשר לתרגם דיבור משפה לשפה בזמן אמת.
ההשקעה של מטא בתחום היא בין היתר תולדה של חזון המטאברס שלה. באינטרנט העתידי, שבו המשתמשים אמורים לבלות בחללים וירטואליים, אנשים ממקומות שונים בעולם יזדקקו לכלים שיאפשרו להם להתגבר על מחסום השפה ולתקשר אחד עם השני בעל פה ובזמן אמת. אתמול הציגה החברה יכולות חדשות במסגרת המאמצים האלה: מודל השפה המדוברת שהיא פיתחה, GSLM, כולל כעת ביטויים קוליים שאי אפשר לתרגם לטקסט - למשל צחוק, בכי ואפילו פיהוקים.
"תחשוב על מצב שאתה דובר צרפתית ואני דובר עברית", מסביר ד"ר יוסי עדי, חוקר במטא AI והנציג הישראלי בפרויקט, "היית שומע אותי, באינטונציה שלי, מדבר איתך בצרפתית. זאת אחת המטרות של הפרויקט". הקשרים הבין-אישיים שלנו, הוא מוסיף, לאו דווקא מבוססים על המסרים המילוליים שלנו, אלא על הצורה שבה אנחנו מעבירים אותם: "מה שאני עושה עם הידיים, אם אני צוחק, אם אני מדבר בטון רך או תקיף - כל אלה משפיעים עלינו הרבה יותר מאשר התוכן של הדברים. אם מישהו יצעק עליך, גם אם התוכן לא כל כך נורא האינטונציה משפיעה. בטקסט, הדברים האלה נעלמים".
אחת הבעיות במודלים של שפה היא כמות הדאטה. באנגלית יש המון דאטה, אבל בעברית יש משמעותית פחות.
עדי: "זה אתגר, אבל המודלים מבוססי האודיו צורכים פחות דאטה ממודלים מבוססי טקסט כמו GPT או BERT. נכון, כל דבר כזה מצריך דאטה, אבל הטכנולוגיה הזאת לא מוגבלת לשום שפה. אנחנו מדגימים אותה באנגלית כי צריך לשכנע את העולם האקדמי בהתחלה, אבל עכשיו אנחנו כבר עובדים על שפות נוספות שאינן כתובות, או כאלה שיש כמה דרכים לכתוב אותן. זאת טכנולוגיה הרבה יותר כללית, וזה אחד היתרונות הגדולים שלה".
מודל שפה מדוברת שמצליח לקלוט את המסרים הלא-מילוליים שאנחנו מעבירים בדיבור הוא בהחלט כלי חשוב כשחושבים על האינטראקציות שיהיו לנו בעתיד באינטרנט, אבל לפני שזה יקרה ישראל חייבת מודל שפה טקסטואלי גדול. אחרי שנים שבהם אומת הסטארט-אפ נשארה מאחור, נראה שסוף-סוף יש התקדמות חיובית בדרך לעתיד שבו הבינה המלאכותית מבינה אותנו בשפה שלנו.