בשבועות האחרונים, בשרשרת הודאות שבאו בזו אחר זו, נחשף כי חמש ענקיות הטכנולוגיה הגדולות והרווחיות בעולם - גוגל, אמזון, פייסבוק, אפל ומיקרוסופט (לא בהכרח בסדר הזה) - נוהגות להאזין למשתמשים שלהן.
בכל המקרים ההאזנות נעשו על ידי "עובדי קבלן", כלומר בחברה חיצונית, והן הוצדקו כפעולה שגרתית המתחייבת לצורך שיפור היכולות של הטכנולוגיות הקוליות - זיהוי קולי, פקודות קוליות, שירותי תרגום ושימוש ברמקולים חכמים או בסייעות הקוליות המשולבות בטלפונים חכמים.
מגדל הקלפים וקשר השתיקה סביב הנושא הרגיש החל להתמוטט כבר בחודש אפריל: תחקיר של "בלומברג" חשף, כי אמזון מעסיקה בקבלנות עובדים שמנתחים ומתייגים קטעי קול קצרים של משתמשי "אלכסה", הסייעת הקולית המוטמעת ברמקול החכם של החברה. הבאה בתור הייתה גוגל, שנאלצה להתמודד עם חשיפת הקלטות בשפה ההולנדית, ולהודות שגם היא משתמשת באוזניים אנושיות לחלוטין לשיפור "גוגל אסיסטנט" שלה. אפל נחשפה בתחקיר של "הגרדיאן" הבריטי, בתוכנית ה-Grading לשיפור היכולות של הסייעת "סירי". מיקרוסופט האזינה למקטעים של שיחות קוליות בסקייפ, כפי שנחשף ב-Motherboard, אבל גם למשתמשי קונסולת המשחקים Xbox One. ואחרונה חביבה פייסבוק - ששום סקנדל בקנה מידה גלובלי לא פוסח עליה - אשר לפי חשיפה אחרת של "בלומברג" האזינה למקטעי שיחות קוליות במסנג'ר שלה.
איך קרה שכולן, בלי יוצאת מן הכלל, הסתבכו באותו נושא? או, בניסוח אחר - למה הן נזקקו באמת למאזינים אנושיים ולשיחות "חיות", אותנטיות, לצורך פיתוח יכולות זיהוי הקול שלהן?
התשובה הפשוטה היא, שמערכות לומדות זקוקות לערכות נתונים ("דאטה סטס") המבוססות על דוגמאות אמיתיות, שעליהן יוכלו להתאמן, ואת הדוגמאות האלה צריך לתייג על סמך הבנת שפה אנושית אמיתית - דבר שמחשב עוד לא יודע לעשות בעצמו.
הבעיה המרכזית העולה מנוהלי העבודה האלה קשורה כמובן לפגיעה בפרטיות המשתמשים. ברוב המקרים קטעי הקול המוקלטים שעשו דרכם אל העיתונאים הכילו הרבה יותר מבקשות או פקודות טריוויאליות דוגמת "היי גוגל, מה מזג האוויר בפריז?". למעשה, נשמעו בהן שיחות רקע אינטימיות, שיחות עסקיות, מידע רפואי רגיש, ואפילו ביצוע עסקאות סמים וקיום יחסי מין. בכל המקרים התעקשו חמש הענקיות כי קטעי הקול אינם מאפשרים זיהוי של אנשים ספציפיים ואינם מקושרים לחשבונות המשתמשים. לפי התגובות שפירסמו רק אחוז קטנטן מסך התוכן הקולי עובר "סריקה אנושית" (Human review), והודגש ש"אין קדמה טכנולוגית בלי איסוף נתונים".
מצד שני, בכל המקרים תנאי השימוש במוצרים השונים של החברות - שאמנם כללו מידע על אחסון מידע קולי והסברים על דרכי האחסון שלו והשימוש שנעשה בו, לא כללו הבהרה ש"בצד השני" של הסייעת הקולית שזה עתה נרכשה עשויה לשבת עובדת אנושית ולהאזין.
גוגל, פייסבוק, אמזון ואפל מיהרו להודיע כי הן משעות את פרויקטי הסקירה האנושית שלהן, מיקרוסופט הסתפקה בעדכון תנאי השימוש. אפל הגדילה לעשות ואפילו פיטרה מאות עובדים שעליהם הוטלה משימת ההאזנה (בעיה בפני עצמה), ובשבוע שעבר אף שחררה התנצלות פומבית למשתמשיה, שבה הבטיחה כי מעתה תמלולי הפניות של משתמשים ל"סירי" ייעשו באמצעות תוכנות מחשב בלבד.
צריך לומר: עבור מי שמכירים מקרוב את התחום המתפתח של בינה מלאכותית ושל טכנולוגיות קוליות, החשיפות הללו לא היוו הפתעה גדולה מדי. אפשר גם להניח שמי שמחזיקים בבית רמקולים חכמים - מוצרים שהגיעו למדפים כבר לפני שלוש-ארבע שנים, לוקחים בחשבון מראש מידה מסוימת של פגיעה בפרטיות כשהם מציבים בסלון ביתם רמקול, שנמצא תמיד בהאזנה ורק "מחכה" לשמוע את מילות ההפעלה שלו (ולפעמים, כמו שעולה מההקלטות, מופעל גם בטעות ולוכד שיחות שלא מופנות אליו כלל).
אבל אם מניחים לרגע לטיפול התקשורת והרגולטורים בכל מדינה בהפרות הפרטיות - שורת החשיפות האחרונה מציפה בעיה נוספת: מעריצי הקדמה גילו בשבועות האחרונים שטכנולוגיה קולית היא לא בדיוק הקסם הממוכן שהם חשבו שהיא, קצת כמו לגלות את הכבלים הנסתרים במופע אקרובטיקה.
"עוד רחוק היום שבו מערכת ממוחשבת תבין שפה לגמרי", מסבירה שילה אופק קויפמן, מנהלת מחלקת עיבוד שפה טבעית במעבדת המחקר של IBM בחיפה. "הטכנולוגיה אמנם מתקדמת, אבל אין ספק שמי שבקיא בתחום חושש הרבה פחות מאחרים מהיום שבו מכונות יתקשרו במקומנו".
למה צריך עדיין אוזניים אנושיות שיאזינו לפקודות קוליות?
"ראשית, חשוב לדעת שהיום עושים הרבה פחות 'עבודה ידנית' מבעבר. בתחום של למידת מכונה יש סוגים שונים של תהליכי למידה - מבוקרת, בלתי מבוקרת או מבוקרת-למחצה. כשמשתמשים באנשים, שיתייגו למשל סוגים שונים של בקשות מסייעת קולית, זה סוג של למידה מבוקרת, והיא נחוצה כדי שהאלגוריתם יידע להתמודד עם המשימות שמוטלות עליו במסגרת המערכת. האלגוריתם מקבל 'דאטה סט' - מאגר נתונים שמכיל דוגמאות ושעליו הוא מתאמן, ואמור לדעת לייצר הקשרים הרבה יותר רחבים מהדוגמאות הבודדות שאותן הוא קיבל לצורך אימון. במקומות שבהם האלגוריתם מתפקד בצורה פחות טובה - כי יש חוסר בהבנה של סמנטיקה, של הבנת משמעויות - אז יספקו לו עוד נתונים שעברו תיוג. לצערנו עוד לא עבר מן העולם הצורך לספק למחשב דוגמאות מתויגות, ותמיד צריך עוד דאטה".
ותהליך התיוג מוכרח להיעשות על ידי אנשים?
"יש היום שיטות ל'בקרה מוחלשת', שבהן מייצרים סטים של נתונים בלי התערבות אנושית. יש גם עבודה על מערכות שמייצרות בעצמן עוד דאטה כדי לאמן מערכות אחרות. אבל זו אחת הבעיות האקוטיות בתחום הזה, ואנחנו עוד מחכים לפריצת דרך".
אחת הסיבות שבגללן דווקא משתמשים ישראלים לא נרעשו מגל החשיפות והווידויים של ענקיות הטכנולוגיה פשוטה למדי: רמקולים חכמים הם עדיין לא מוצר צריכה פופולרי בישראל, כי הם עוד לא יודעים את השפה העברית. ה"אסיסטנט" של גוגל החל לעשות צעדים ראשונים בכיוון בחודשים האחרונים, אבל הוא עוד רחוק מתפקוד סביר.
כמה עוד נצטרך לחכות עד שטכנולוגיה קולית תעבוד טוב גם בעברית?
"הכול שאלה של השקעה, ושל כמה דאטה זמין יש כבר בשפה מסוימת. המערכות הראשונות שנכנסו לפעולה בתחום תרגום ועיבוד השפה עשו את זה באמצעות ספרים שתורגמו לשפות שונות: אפשר היה לתת למערכת לומדת שני תרגומים של ספר, והיא למדה לעשות את ההיקשים לבד. זה מאוד תלוי הקשר. כלומר, יש דברים בתחום שבאמת יותר פשוט לעשות, כמו שירותי תרגום, שלהם יותר קל לאמן מודל היום, אבל אימון שפה על סמך קול אנושי זו משימה קצת יותר מורכבת, וכדי להגיע לתוצאות טובות מוכרחים המון דוגמאות".
מה צריך לפתור כדי לעשות קפיצה אמיתית קדימה בתחום?
"הבנה אמיתית של שפה. יש כבר הרבה התקדמות בנושא, אבל הבנה עמוקה, כמו של בני אדם - עם כל ההיקשים הנכונים והסקת המסקנות, ועם קישורים - אלה דברים שעוד נמצאים בעבודה. יש הקשרים בסיסיים שמערכות לומדות כבר יודעות לעשות, אבל זה עוד לא מספיק. כבני אדם, עוד יש בנו שימוש".
מתברר שהתקווה (או החשש) שהמכונה תחליף אותנו גם בתחומים שנראו עד כה ייחודיים לבני אנוש הייתה מוקדמת. קחו למשל את שירות הווידיאו בסטרימינג נטפליקס, המתהדר באלגוריתם ההמלצות שלו, שבזכות סקירה של דאטה אינסופית מיטיב לקלוע לטעמם של משתמשיו ולהציע להם סרטים וסדרות שיאהבו: באחרונה החלה החברה לבחון אפשרות חדשה - אזור שיוקדש לתוכן שנבחר, נאגר ומוין על ידי מומחים אנושיים, לא מחשב.
בין אם שלב הבדיקות יבשיל לכדי השקה רשמית ובין אם לאו, בבשורה הזו יש רמז שקשה להתעלם ממנו: יכול להיות שהבינה המלאכותית, למרות כל התקוות שתלינו בה, עדיין לא עושה עבודה מספיק טובה.