Tech Talk: איך עובדות סייעות קוליות?
בכל שבוע נצלול אל אחד מהמונחים המפוצצים של עולם הטכנולוגיה וננסה להסביר אותו מספיק טוב בשביל שיחת סלון, והפעם: עיבוד שפה טבעית, התחום שאחראי לפיתוחים כמו סירי, קורטנה, אלכסה וגוגל אסיסטנט
מתי בפעם האחרונה דיברתם אל מכשיר הטלפון שלכם? השבוע קיבלנו הצצה לעתיד של תחום הסייעות הקוליות (או סייעות וירטואליות). במהלך כנס המפתחים השנתי של "גוגל", הוצגו היכולות החדשות של גוגל אסיסטנט. הסייעת הקולית של גוגל, מסתבר, כבר יכולה להתקשר עבורכם, מאחורי הקלעים כמובן - כדי להזמין מקומות למסעדה או לקבוע תור למספרה. ככה זה נשמע:
מה שמדהים בהדגמה הזאת הוא האופן שבו גוגל אסיסטנט מנהל שיחה מורכבת יחסית עם הצד השני. מי שלוקחת ממנו את ההזמנה מדברת באנגלית במבטא כבד, ובכל זאת השיחה צולחת והמסר עובר. גם האינטונציה של גוגל אסיסטנט נשמעת כאילו עברה קפיצת מדרגה משמעותית - היא הרבה פחות ממוכנת, והיא מתובלת, למשל ב"אה-הה" שנועד ליידע את הצד השני שמקשיבים לו.
סירי (של אפל), קורטנה (של מיקרוסופט), אלכסה (של אמזון), ביקסבי (של סמסונג) וגם גוגל אסיסטנט - כולם דוגמאות לסייעות קוליות (Voice Assistant) שמוטמעות בשלל מכשירים - טלפונים חכמים, רמקולים ביתיים, מסכים חכמים ומחשבים. הטכנולוגיה הזו הולכת והופכת לפופולרית יותר בשנים האחרונות, ככל שהסייעניות הקוליות הופכות למשמעותיות יותר באינטראקציה שבין אנשים למחשבים. אבל מה קורה מאחורי הקלעים ואיך זה עובד?
התחום שמאפשר אינטראקציה עם מכשירים באמצעות פקודות קוליות מכונה "עיבוד שפה טבעית" (Natural Language Process) או בקצרה NLP. מדובר בתחום שמשלב בלשנות עם מדעי המחשב, המצוי תחת המטריה הרחבה של "בינה מלאכותית" (AI).
סייעות וירטואליות נסמכות על פקודות קוליות, ומסוגלות לבצע עבור המשתמשים מגוון של פעולות - וכפי שאפשר היה לראות השבוע, המגוון הזה הולך ומתרחב לעוד ועוד יישומים. משחר עידן המחשבים, אנחנו מורגלים לתקשר עם מכשירים באמצעות מקלדת, עכבר ואפילו מחוות ידיים (Touch). פקודות קוליות משחררות אותנו מהצורך להשתמש בידיים, אבל הן מציבות סט שלם של אתגרים, שאותם מבקש התחום של עיבוד שפה טבעית לפתור.
אחד האתגרים המהותיים הוא הבנה של שפה אנושית "טבעית". כדי להצליח לייצר תקשורת אפקטיבית, מוכרחים ללמד מחשבים איך להבין שפה אנושית - הרבה מעבר למבנה תחבירי פשוט או אסופה של מילונים, למרות שאלה כמובן הצעדים הראשונים בדרך להבנה. השפה מורכבת מהמון חלקים קטנים, והיא כוללת גם מרכיבים שאינם מילוליים כמו הקשר, מבטא, אינטונציה וסיטואציות חברתיות. תחום הבלשנות הוא מורכב ומסועף בפני עצמו, והופך פי כמה וכמה יותר מורכב כשבצד השני יש מחשב, וכשבתהליך ההבנה שאצלנו מתרחש באופן טבעי - מעורבים מודלים חישוביים והסתברותיים.
מאז שנות החמישים הנושא של עיבוד שפה טבעית או "בלשנות חישובית" הוא תחום מתפתח. אלא שבהתחלה, כדי ללמד מחשבים איך להבין שפה אנושית, חוקרים נסמכו בעיקר על כתיבת קוד עבור כללים לשוניים - גם מורכבים. פריצת הדרך המשמעותית בתחום הגיעה בתחילת שנות ה-90 עם התפתחות של מודלים הסתברותיים ותחום למידת המכונה. בשנים האחרונות, שילוב של רשתות נוירונים אל תוך תהליכי הלמידה הוא שאחראי על הזינוק בהישגים.
>> עוד על בינה מלאכותית, למידת מכונה ורשתות נוירונים
הסייעות הקוליות מסוגלות היום לענות על שאלות (באמצעות חיפוש והצגת התוצאות), להשמיע מוזיקה או להציג סרטונים, לדאוג לטמפרטורה ולתאורה בחדר (בהנחה ויש בו מערכות חכמות כמובן), להפעיל אפליקציות שונות (למשל, להזמין "אובר" או להכניס תזכורת ליומן), ואפילו לספר בדיחות. סייעות חכמות לומדות את ההעדפות של המשתמשים לאורך זמן - וכמו כל פיצ'ר "חכם", ככל שמשתמשים בהן יותר, הן הופכות יעילות יותר. הקפיצות האלה מורגשות בעיקר בשפות בינלאומיות כמו אנגלית. גם בעברית קיימים מיזמים סביב עיבוד שפה טבעית, אולם העובדה שהתאגידים המסחריים הגדולים לא ששים לפתח עבור עברית ועבור ישראלים מטעמים של כדאיות, די מעכבת אותנו בכל מה שקשור לשימוש בפקודות קוליות.
סייעות קוליות הן, כמובן, רק יישום אחד של התחום. למעשה, עיבוד שפה טבעית נמצא במרכזם של מרבית היישומים המחייבים הבנה לשונית כלשהי - החל משירותי תרגום ממוחשבים ותרגומי מכונה, סיווג מידע או סיווג טקסטואלי, השלמות אוטומטיות, בוטים, העברה מטקסט לדיבור וכלה בשירותים טקסטואליים לבדיקת שגיאות כתיב ודקדוק.
ויש גם צדדים פחות חיוביים: הסייעת הקולית שומעת כל מה שנאמר לידה, כעיקרון, ומחכה לרגע שבו המשתמש יפעיל אותה באמצעות מילת קוד מוגדרת - למשל "היי, סירי" או "אוקיי גוגל". הסוגיה הזו עלתה כבר לכותרות, למשל במקרה של הסייעת הקולית "אלכסה" של אמזון, שהפכה, בעל כורחה, לעדה לרצח. מכיוון ומכשיר ה"אקו" שעליו היא מופעלת מתעד הכל, הוא תיעד גם את המתרחש בביתו של חשוד ברצח.
מגמת הזיהוי של סייעות קוליות כנשים (ולא גברים) גם היא מהווה סוגיה חברתית משמעותית, שמקבעת את תפקידן של נשים בחברה כ"עוזרות" בלבד. עדיין, מרבית הסייעות הקוליות מקבלות קול "נשי" כברירת מחדל, על אף שחברות מסוימות מציעות מבחר של קולות - למשל, קולו של ג'ון לג'נד שנוסף לגוגל אסיסטנט ממש לאחרונה.