אחת הבעיות הכואבות שלנו כדוברי עברית - היא חוסר היכולת לתקשר עם מחשבים: גם היום, בשנת 2020, אחרי שנים של הבטחות, יוזמות ומוצרים טכנולוגיים, כשהעולם כולו כבר מנהל תקשורת די טובה באנגלית ובשפות אחרות עם אפליקציות ומוצרים טכנולוגיים - עברית היא עדיין שפה קשה. עם האתגר הזה מנסה עכשיו להתמודד רשות החדשנות בשיתוף משרד הדיגיטל הלאומי, שהכריזו השבוע על הקמת "איגוד חברות לטכנולוגיות שפת אנוש" - בעברית ובערבית.
אנחנו מכירים את זה מקרוב: סייעות קוליות דוגמת סירי, אלכסה או גוגל אסיסטנט עדיין לא יודעות להתמודד עם השפה העברית, שירותי Text-to-Speech שנדרשים למשל לצורך הקראת תכנים מהרשת, נשמעים מעוותים לגמרי, ובזמן שברחבי העולם המערבי כבר מבצעים פעולות, קניות, שאילתות ודיאלוגים שלמים עם תוכנות מחשב - דווקא אצלנו בעברית זו עדיין משימה בלתי אפשרית.
באופן פרדוקסלי, על הרבה מהיכולות האלה שפועלות נהדר באנגלית, עובדים מהנדסים ישראלים במרכזי מחקר ופיתוח של ענקיות טכנולוגיה כמו גוגל, אמזון ומיקרוסופט שיושבים בישראל. ולמרות זאת, גודל השוק הקטנטן שלנו לא מהווה תמריץ כלכלי מספק להתקדמות של הכלים האלה גם בשפה העברית.
כדי להתמודד עם הסוגיה החליטו ברשות החדשנות לפנות אל חברות מובילות במשק בסקטורים שונים: בנק הפועלים, רפאל, אינטל, מלינגו, ואתרי חדשות בעברית דוגמת ynet, וואלה והארץ. "12 חברות כבר חתמו, ואני מאמין שבסופו של דבר יהיו לנו כ-30 חברות", אומר אביב זאבי, סמנכ"ל תשתית טכנולוגית ברשות החדשנות. "היו בעבר יוזמות דומות בפורמטים קטנים יותר, אבל אמרנו שאנחנו רוצים לבוא לזה בגישה אחרת הפעם - לעבוד ישירות מול התעשייה, להסתכל גם על החברות עצמן - כאלה שעוסקות בזה ישירות או כאלה שיכולות לקבל כאן ערך מוסף, וגם על משתמשי הקצה".
התחום עצמו, עיבוד שפה טבעית (NLP), עוסק במהותו ביכולת של מחשבים להבין את השפה האנושית. "האיגוד הזה הוא רק צעד קטן בדרך לפתרון כל הבעיות של NLP", אומר זאבי, "לא מדובר בפתרון אחד שמתאים לכולם. זו רק ההתחלה וככל שיהיו לנו יותר חברות ויותר תקציבים נוכל לתת יותר פתרונות מותאמים".
כדי להצליח לייצר מודלים של NLP שעובדים בצורה טובה בעברית, צריך דאטה. "אם הרצתי גוגל טרנסלייט בעברית וקיבלתי תוצאה מצחיקה - זה לא כי יש באג בתוכנה", מסבירה פרופ' רעות צרפתי מאוניברסיטת בר-אילן, המלווה את הפרויקט כחוקרת אקדמיה. "זה קורה כי שפות הן שונות אחת מהשנייה, כי יש חוסר גדול בדאטה, וכי יש צורך לחקור מודלים מתאימים כדי לעבד שפות עם תכונות שונות".
לדבריה, "המחקר בעשור וחצי האחרונים מראה שיש להתייחס אחרת לשפות שמיות בגלל התכונות המיוחדות שלהן: אין ניקוד, יש מורפולוגיה עשירה, מילים בנות 3-4 אותיות יכולות להיקרא בצורות שונות, יש חלוקה של מילים לתתי-מילים. לעומת אנגלית, סדר המילים במשפט בעברית לא ממש משנה את המשמעות, והמודלים הקיימים היום לא מתייחסים לשוני הזה".
היישומים האפשריים הם אינסופיים: החל מקוראי מסך (רלוונטי מאוד לבעלי מוגבלויות) בעברית, שירותי תרגום, דרך סייעות קוליות ופקודות קוליות, צ'אטבוטים, שירות לקוחות, תקצירים אוטומטיים, ועד לזיהוי אוטומטי של פייק ניוז. "עכשיו בזמן הקורונה אנחנו רואים איך נוצר צוואר בקבוק בכל מיני פורומים של שאלות בנושא, זה יכול היה להיות נהדר אם היה לנו מודל שמבין את השאלה ומייצר תשובה אוטומטית", אומרת פרופ' צרפתי.
החברות המשתתפות באיגוד נדרשו לשלם "דמי רצינות", וההשקעה הכוללת לתוכנית של 3 שנים מסתכמת ב-7.5 מיליון שקל. "ישבנו עם נציגי חברות מסביב לשולחן מאוד גדול", מספרת פרופ' צרפתי, "בכל מיני תחומים - פיננסים, רפואה, עיתונות, מדיה חברתית - כמעט כל תחום בתעשייה מיוצג, וגל אחד יודע להגיד איפה הוא צריך יישום של NLP ופשוט אין. כמובן שהערך המוסף שהחברות יביאו הוא היכולת שלהן לשחרר לנו דאטה".
אנחנו עמוק בבעיות האלה כבר שנים. מה קרה עכשיו?
"עכשיו יש התקדמות מטורפת בטכנולוגיה. כשנכנס העניין של למידה עמוקה חשבנו שכל הבעיות ייפתרו. היו כל כך הרבה סיפורי הצלחה שהיה לאנשים ברור שזה יקרה. זה לא עובד. מי שניסו להפעיל את הטכנולוגיות האלה השיגו הצלחה חלקית, כולל חברות ענק כמו גוגל ואפל. יש שם הרבה יכולת טכנולוגית, בחברות האלה יש מודלים עבור כל השפות - ורואים שבעברית זה לא עובד ולכן הן לא משחררות אותם. המודלים שאנחנו פיתחנו באקדמיה, בלמידה חישובית, עובדים יותר טוב מאלה שמבוססים על למידה עמוקה. זה פרדוקס. יש כאן בעיה ואנחנו רואים שסתם לזרוק דאטה על מכונה זה לא מספיק. חלחלה ההבנה שהעולם מתקדם מהר מאוד בבינה מלאכותית - ובעברית לא. זה מתחיל להיות כואב כי אנחנו צריכים להתחרות עם שפות אחרות".