לך דבר עם רובוט

זיהוי הדיבור, שנחשב פעם מדע בדיוני, משתלב בהדרגה בכל מקום - אפילו בסלולרי. המפתח להתקדמות בתחום הם מאגרי המידע של גוגל. ד"ר מייק כהן, שעומד מאחורי הקול והאוזניים של החברה, משוכנע: בקרוב נוכל לנהל שיחה עם סיני — ולהבין כל מילה

אילאיל בן צור-לרוןפורסם: 21.06.11 , 10:13

<< היכונו להתנגשות: אייפד 2 מול גלקסי טאב 10.1

מאז ומעולם חלם המין האנושי לדבר עם מכונות. ספרים נכתבו אודות החלום הזה. סרטים הציגו עולמות שבהם בני-אדם, רובוטים ומכשירי חשמל מנהלים אינטראקציות כאילו היו כולם בשר ודם. הפנטזיה הזו קרובה היום להפוך למציאות. פיתוחים חדשים בתחום זיהוי הדיבור - הטכנולוגיה העוסקת בהזנת מידע למחשב באמצעות דיבור אנושי בלבד - מורידים את אחוז הטעויות העצום, שאפיין אותה בעבר.

במקומות רבים בעולם, כולל בישראל, כבר ניתן לתקשר עם מרכזי שירות אוטומטיים באמצעות הקול בלבד. רוצים לצאת לסרט? טלפנו למוקד ההזמנות הממוחשב, אימרו "שני כרטיסים לסרט 'דמדומים' הערב בשבע" - והכרטיסים יחכו לכם בקופה. לסמארטפוני האנדרואיד, גם לחלשים והבסיסיים שבהם (ובקרוב גם באלה של אפל‭,(‬ יש אופציית חיפוש קולי: מחפשים מילה מסויימת? קרבו את המכשיר אל הפה, אימרו אותה בקול (בינתיים, באנגלית בלבד‭,(‬ ובידקו שהמערכת אכן קולטת אותה נכון בתיבת החיפוש. בתוכנות ניווט שונות ניתן פשוט לומר למכשיר את כתובת היעד, והתוכנה "מבינה" ומביאה אתכם ליעד בביטחה.

זיהוי קולי משמש לעתים גם כתחליף, או כתוספת, לטביעת אצבע. יש כבר בנקים ומוסדות בטחוניים בעולם, שבהם לקוחות יכולים להתקשר ולומר את שמם למערכת, וזו מאמתת את זהותם בעזרת דגימת קול שנלקחה מהם מראש. הטכנולוגיה כיום מאפשרת אפילו שיבוץ כתוביות אוטומטי (באנגלית) לסרטי וידאו המועלים לרשת, על בסיס זיהוי דיבור. היתרון: כך ניתן לחפש בקלות בתוך הסרטון אזכור של מילה או שם.

האם מדובר בהצלחה גורפת? לא ממש: גוגל השיקה השבוע את החיפוש הקולי גם במחשבים רגילים (בינתיים רק בארה"ב ורק באנגלית‭.(‬ הביקורות הראשונות חושפות את הפער הקיים עדיין בין ההבטחה למימושה: כתב CNET איתגר את השירות עם חיפושים אחר המדינאי האמריקאי זביגנייב בז'ז'ינסקי, אחר מנהל חטיבת המשחקים בסוני, קזואו היראי, ואחר מתכונים לפאייה עם פירות ים. ההצלחה בחיפוש נעה בין כישלון להצלחה חלקית בלבד.

לעצב את הקול

ד"ר מייק כהן אחראי ללא מעט מהחידושים בתחום הממשק הקולי. כהן, שלא מסתיר את חיבתו העזה לסידרה האלמותית "מסע בין כוכבים‭,"‬ הוא מחלוצי התחום בעולם ועוסק בפיתוחו כבר קרוב לשלושה עשורים. כמי שמנווט את הנושא בגוגל הענקית, כהן ישתתף השבוע בארץ בכנס זיהוי הדיבור השנתי שמקיימת מכללת אפקה.

כהן מאמין, כי הטכנולוגיה כל-כך תתפתח, עד שבעתיד נוכל לנהל שיחה שוטפת עם אדם שאינו דובר את שפתנו באמצעות יישומי תרגום סימולטני ואוזניה קטנה שנחדיר לאוזן: "כל מה שהגיוני שיופעל על-ידי קול - ראוי שיופעל עלידי קול. מדוע שלא נדבר עם כל מכשיר חשמלי שיש בבית? אם בשנות ה‭90-‬ היינו אומרים למישהו שבעוד 20 שנה תהיה לרוב האנשים גישה חופשית לכל המידע שאגרה האנושות, הוא היה צוחק. אבל מה שקרה בעשורים האחרונים מבחינת הטכנולוגיה הוא פשוט יוצא מן הכלל, וסביר להניח שגם בעשורים הקרובים נצליח להתקדם באותו הקצב‭."‬

בתחילת הדרך התבסס תחום זיהוי הדיבור על אימון ספציפי של מחשב ודובר. מחשב היה מסוגל ללמוד מילים בודדות של אדם אחד, שהוזנו לתוכו לאחר אימונים חוזרים ונשנים. אותו דובר, לאחר שאימן שעות ארוכות את המחשב, היה גם צריך לדבר לאט ובמקוטע. "בשנות ה‭80-‬ היו שיפורים דרמטיים בתחום‭,"‬ אומר כהן, אז מרצה בסטנפורד, "ואלה איפשרו למחשב לזהות משפטים רגילים בדיבור רציף ואצל כל דובר‭."‬ המהפך התבטא בפיתוח היכולת של המחשב מלימוד של כל מילה בנפרד ליצירת סט של כללים לשוניים, שניתן ליצור מהם, בתיאוריה לפחות, אינסוף מילים הניתנות לזיהוי.

"הדבר החשוב ביותר שקרה בתחום היה המעבר ל'גישות מוכוונות מידע‭,"'‬ מסביר כהן. "גישות קודמות סמכו על אנשים - בלשנים ומתכנתים, שהזינו כללים מובנים למכונה, כמו הגייה, תחביר ועוד. אבל מכיוון ששפה מדוברת כל-כך מסובכת, וכדי להבין אותה צריך סט אינסופי של כללים והיגיון, אף אחד לא יכול לתכנת את המכונה להבין את כל זה ברמה גבוהה‭."‬

בלית ברירה אימצו החוקרים גישה אחרת: במקום לנסות ול"תכנת" את כל היידע שיש לנו על השפה, הם החליטו להנדס אלגוריתם, ש"יבין" בעצמו את אבני הבניין היסודיות של השפה בעקבות אינספור דוגמאות שיוזנו לתוכו. "הזנו מכונה בהמון מידע - הקלטות של שפה מדוברת שנעשו על-ידי אינספור אנשים וגם אינספור טקסטים - והיא עצמה זיהתה את הכללים ואת המילים‭,"‬ אומר כהן, "הגישה הזו הובילה לפריצת דרך משמעותית בתחום, וכיום כל התעשייה משתמשת במודל הזה‭."‬

המילון האינסופי

ובאיזה מקום נכון היום למצוא כמויות אדירות של מידע אם לא במשרדי גוגל? ד"ר כהן, שהקים ב‭1994-‬ חברת ענק לזיהוי דיבור בשם ‭,Nuance‬ עזב אותה כעבור עשר שנים וב‭2004-‬ עבר לגוגל. "כל מערכות זיהוי הדיבור בעולם משתמשות היום במודל סטטיסטי, אבל כל אחד מפתח את המודל שלו. השאלה היא איך אתה בונה את המודל על בסיס המידע. ככל שיש לך יותר מידע אתה יכול לבנות מודל טוב יותר. בגוגל יש לנו גישה ליותר מידע מכל אחד אחר‭."‬ אימון המודל בכמויות בלתי נתפסות של מידע דורש גם משאבי מיחשוב אדירים - "וכידוע, לנו בגוגל יש אפשרות להפעיל עשרת אלפים מחשבים במקביל בשביל ניסוי בודד‭."‬

מחקרים דומים מתבצעים כיום בהשקעות ענק בחברות טכנולוגיה רבות. מייקרוסופט, למשל, עובדת כבר שנים על פיתוח יישומי זיהוי דיבור, שהנפוץ בהם אפילו מוטמע בחלונות ‭.7‬ ניתן לתת הוראות למחשב (כגון "פתח‭,"‬ "שמור" ועוד) - ולאחר אימון קצר מגיעים לאחוזי הצלחה נאים, כנראה בשל גודל המילון המצומצם-יחסית שנדרש לשימוש כזה. טכנולוגיה דומה מוטמעת גם במנוע החיפוש "בינג" בגרסתו הסלולרית וביישום המפות שלו. אחוז ההצלחה קרוב לזה של גוגל – בחיפושים פשוטים ונפוצים התוצאה מצויינת, במילים יותר איזוטריות יש פספוסים.

כהן סבור, אגב, שהיישום היעיל ביותר לזיהוי דיבור הוא בתחום הסלולרי, שכן השימוש בטלפון נעשה פעמים רבות בסיטואציות שבהן הקלדה היא מסוכנת (נהיגה) או לא נוחה (הליכה‭,(‬ או סתם מסורבלת (הקלדה במכשירים קטנים‭.(‬ מצד שני, האתגר מסובך בשל הסביבה הרועשת: אם איבדתם דרככם ברחוב סואן בפריז וניסיתם לומר שוב ושוב לסלולרי שלכם "איך מגיעים למגדל אייפל" - אל תופתעו אם תקבלו מתכונים לוופל.

ובכל זאת, החיפוש הקולי הוא אחד החידושים המשמעותיים ביותר של גוגל בתחום. כיום, כל משתמש באנדרואיד או בדפדפן כרום של החברה יכול לומר למכשיר בקולו הטבעי את שאילתת החיפוש שלו במקום להקליד אותה. מדובר במשימה מורכבת מאין-כמוה, שכן ישנם אינסוף צירופים אפשריים. המילון של גוגל חייב להיות עשיר ומגוון באופן בלתי נתפס, שכן אנשים מחפשים גם את "הסינגל החדש של בריטני ספירס‭,"‬ גם "תמונות של אנקילוזאורוס" וגם "הוראות הגעה לסינית ברחוב הרצל‭."‬

"גודל המילון בחיפוש של גוגל הוא אכן האתגר המרכזי שלנו‭,"‬ אמר כהן, "וזו הסיבה שבגללה צריך לאמן את המודל באינסוף מידע, מכל הסוגים. בגלל המורכבות שלו, חיפוש קולי הפך ריאלי ממש רק בשנה-שנתיים האחרונות‭."‬ לשם המחשה: בשביל היבט אחד בלבד של המידע - תחביר, הגייה או אפילו סוגי מבטא - מוזנות למודל של גוגל 230 מיליארד מילים. "אין ספק שאנחנו מנסים לפתור בעיות בהיקף אדיר‭,"‬ מסכים כהן. "אם היינו מריצים את המידע הזה על מחשב בודד היה לוקח לו עשרות שנים לנתח אותו‭."‬

בשל כך, הוא מסרב להתחייב על אחוזי ההצלחה של המודל: "ברור שלא נצליח לכסות את כל המילים שאי-פעם יוקלדו, אבל זה מודל סטטיסטי שילמד ויתפתח, כל עוד אגורים אצלו אלמנטים דומים בזיכרון, שהוא יכול ללמוד מהם את העיקרון הבסיסי‭."‬

הפרוייקט הישראלי: כמו ילד בכיתה א'

רובוט כחול-לבן מזהה דיבור הוא לא יציר דמיון: בחודשים הקרובים יוצג רובוט כזה במכללת אפקה להנדסה. "הוא יהיה כמו ילד בכיתה א‭,"'‬ מסביר ראש המרכז לעיבוד שפה במכללה, פרופ' עמי מויאל, "ימשיך ללמוד מהסביבה ויתפתח. במשך הזמן יהיה לו חיבור, כמו בגוגל, למאגרי נתונים. וכך, אם לרובוט לא יהיה מספיק מידע כדי לענות לנו, הוא יוכל לעשות חיפוש בזמן אמת באינטרנט ולהוציא את התשובה‭."‬

המרכז, שפועל כבר שנתיים, כולל בלשנים, אנשי תוכנה, מומחים לדיבור ספונטני, אנשי עיבוד אותות ועוד. הוא הוקם ע"י פרופ' מויאל, ששימש בעבר כמנכ"ל חברת ‭,NSC‬ שעסקה בזיהוי דיבור. לדבריו, כיום מתמקדים חוקרי המרכז בשני מחקרים מובילים: "בשונה מגוגל, שעוסקת בעולם החיפוש, והטכנולוגיה שלה מבוססת על משתמש שמדבר והמערכת מוציאה עבורו מידע מבסיסי נתונים קיימים, הקו שלנו הוא תקשורת אדם-מכונה, או תקשורת אדם-רובוט על-ידי דיבור‭."‬

כיוון מחקרי נוסף במרכז הוא פרויקט של הודעות קוליות בטלפון. "אנשים כבר לא מושכים היום הודעות קוליות‭,"‬ מסביר מויאל, "והרעיון שלנו הוא 'לתרגם' את ההודעות הקוליות הללו לטקסט. הודעה קולית היא דיבור ספונטני. מאוד קשה לזהות דיבור כזה - לעומת, למשל, קריין טלוויזיה, שמדבר באופן תקני ומושלם‭."‬

למרבה האכזבה, כל המחקרים נעשים בינתיים על השפה האנגלית. "באופן טבעי, באנגלית קיימים הרבה מאוד בסיסי נתונים נגישים‭,"‬ מסביר מויאל, "בעברית אין מספיק תשתיות. אבל ממניעים ציוניים לגמרי אנחנו מחפשים עכשיו מימון לפרויקט דומה בעברית‭." ‬

Dead Island: משחק הזומבים עליו חלמתם >>

מצאתם טעות בכתבה? כתבו לנו