פיתוח ישראלי: טכנולוגיית זיהוי דיבור חדשנית
ד"ר אלכסנדר מיטקוב, ולדימיר גצלביץ' ויצחק רון הם שלושה יזמים ישראלים, שטוענים להצלחה בדיוק במקום שבו נכשלו IBM ומיקרוסופט, זאת, בעזרת תוכנת זיהוי דיבור שפיתחו, שתומכת במגוון שפות. אם רק יצליחו לגייס מספיק כסף - הם מתכננים לכבוש את העולם
"IBM, מיקרוסופט, Scansoft ואחרות משקיעות כסף רב במחקר ופיתוח טכנולוגיות לזיהוי קול, אך עדיין לא הגיעו לפתרון איכותי. כדי לבנות מערכת זיהוי דיבור טובה נדרשת תגלית מדעית, פריצת דרך. אנחנו מאמינים שהצלחנו להשיג את אותה פריצת דרך".
את הדברים הללו אמר ל-ynet יצחק רון, יזם ישראלי, המשמש כיועץ עסקי במיזם ASR (או Automatic Speech Recognition). מאחורי פרויקט זיהוי הדיבור עומדים ד"ר אלכסנדר מיטקוב, חוקר ומפתח שעלה
ארצה מאוקראינה לפני כ-10 שנים, והקדיש למעלה מעשור לחקר המוח האנושי, וולדימיר גצלביץ', בוגר תואר ראשון ושני במדעי המחשב בטכניון, שהתמחה בבינה מלאכותית.
"אנשים מנסים ליצור מערכות מחשב שיכולות לזהות דיבור כמו בן אדם כבר שנים רבות", הסביר רון. "למרות השקעה של מאמצים אדירים וכסף רב, עד עכשיו הושגה הצלחה מוגבלת בלבד".
לדבריו, המוצרים הקיימים כיום בשוק מספקים פתרון חלקי בלבד, כשהתוכנות מסתמכות על זיהוי של מילים נפרדות ולא על ההקשר, ולכן סובלות מבעיות מהותיות.
הראשונים בעולם
"למשל, תוכנת הדגל של Scansoft מספקת כ-30% דיוק בלבד", טען (ולא כולם יסכימו איתו). "כדי להקטין את כמות השגיאות, צריך להכתיב באופן לא טבעי: לאט, ברור ובמונוטוניות, ואז אחוז השגיאות קטן בצורה ניכרת. אבל צריך לאמן את המערכת, כדי שתכיר את הקול שלך. את האינטונציה והצלילים, וזה תהליך שיכול לארוך שעות".
"אחת הבעיות של תוכנות זיהוי הדיבור הקיימות היא, שהן לא יודעות לקבל מחרוזת ולפרקה למילים. בעיה נוספת: תוכנות אלה לא יודעת להבדיל בין מילים עם משמעות כפולה, כמו See ו-Sea למשל. אחוז השגיאות הוא פרמטר קרדינלי. בנוסף, אי אפשר לשלב שתי שפות במסמך אחד". גצלביץ' מחרה מחזיק אחריו בחיוך: "אחרי חמש דקות כבר בא לך לשבור את המחשב".
השניים טוענים להיות הראשונים בעולם שהצליחו לפתח במחשב מודל מפורט שמדמה פונקציות של המוח, כגון: זיכרון ולמידה, שמאפשר לבנות מערכות זיהוי מגוונות (זיהוי דיבור, כתב יד, וידאו).
רון מבסס את דבריו על טכנולוגיה שפיתח ד"ר מיטקוב במהלך עבודתו במחלקות מחקר ופיתוח באוקראינה ובישראל, וכן באופן פרטי, ומהווה מעין פרויקט חיים של האיש. "הטכנולוגיה שלנו, בניגוד לכל הפתרונות האחרים, מתבססת על הבנת הדיבור של האדם. הדבר אפשרי תודות לגרעין המערכת שמסוגל - בדומה למוחו של האדם - ללמוד, לשמור ולהשתמש בידע".
"המערכת לא דורשת הפסקות בין המילים, ומסוגלת לפתור רב משמעויות של הגהה בכל הרמות. בשונה ממערכות קיימות, המערכת שלנו מסוגלת לזהות דיבור ללא לימוד מיוחד של המשתמש, ומסוגלת להבין ביטויים המכילים ערבוב של כמה שפות, למשל עברית ואנגלית", אמר.
בגמר של תחרות ביזטק
נפגשנו עם רון וגצלביץ' מספר ימים לאחר שהעפילו לשלב הגמר בתחרות ביזטק של הטכניון, שתסתיים ב-19 ביוני, על מנת לצפות באב טיפוס של תוכנת זיהוי דיבור, שפיתח בוגר הטכניון הצעיר (28) בעזרת הטכנולוגיה של ד"ר מיטקוב.
לדברי גצלביץ', המטרה העיקרית היא לפתח דגם שיעבוד בצורה טובה יותר מ-Dragon NaturallySpeaking,המובילה בשוק (על פי חברת המחקר גרטנר, Scansoft החזיקה בנתח שוק של כ-43% משוק תוכנות זיהוי הדיבור העולמי בשנת 2004 - ר.ש.), יעד שיושג "בתוך כמה שבועות".
תהליך הפיתוח של תוכנת ההדגמה בה צפינו ארך כשנה, כך שהשניים מעריכים כי בתוך כשנה עד שנה וחצי יוכלו להציג גירסה מסחרית ראשונה, זאת, כמובן, אם יצליחו לגייס השקעה כספית מספקת. "אנחנו חושבים שהצלחנו לפתור את הבעיות, ואנחנו צריכים השקעה כספית לא גדולה כדי לעבור משלב הפרוטייפ לשלב המסחרי", אמרו.
תמיכה בכל השפות
הטכנולוגיה עצמה נוגעת לחיקוי פעולות המוח: זכרון וצורת למידה, ציור של מה שנלמד - "זו מערכת שיודעת לשמר את הידע, ומאפשרת לפתח יישומים במספר כיוונים", הסביר רון, וציין כי אחד היישומים האפשריים הוא זיהוי תמונות דינמי, עבור יישומי אבטחה, שמזהה פרצופים בזמן אמת, באמצעות וידאו. "אבל זה פרויקט עתיר כסף, ואנחנו לא עובדים על זה עכשיו", הבהיר. "בחרנו בתחום של Speech To Text כי העולם רעב לפתרון הזה".
ולדימיר: "המערכת שלנו אינה תלויית שפה, כרגע לימדנו אותה כמה אלפי משפטים באנגלית, אבל אפשר גם ברוסית, לעברית עוד לא הגענו, אבל בגלל שהתוכנה מסוגלת לשמור ידע, ולהבין כמה שפות במקביל, כמו בן אדם, זו לא בעיה". עם זאת, הוא מציין כי יתכן ומשיקולים מסחריים, יוחלט בכל זאת להפריד בין גירסאות בשפות שונות.
תוכנה נטולת שם
התוכנה עצמה בנויה משלושה חלונות: Output, בו מתבצעת ההקלדה, Input, בו מוצג המשפט שפוענח, וזיהוי ביניים, בו מתבצעים החישובים. בחלק העליון שלה מוקלד הקלט, שיכול להיות בנוי ממילים נטולות רווחים,
ומאותיות חסרות משמעות, המתפקדות כרעש רקע. בחלון האמצעי מוצג המשפט נקי מ"רעשים", עם מרווח מתאים בין המילים, ובחלון התחתון ניתן לצפות בתהליך האבחון בזמן אמת.
המערכת, כרגע נטולת שם, בדומה למיזם כולו, פועלת באמצעות אלגוריתם שמנתח תבניות קבועות של שפות שונות. התבנית המרכזית, שרלוונטית למרבית השפות, היא Somebody Makes Something (מישהו עושה משהו), כאשר בדוגמה שלנו מדובר היה במשפט small girl goes to school with her mother.
התוכנה כוללת תבניות נוספות, ועד כה הוטענו בה כמה אלפי מילים ומשפטים באנגלית וברוסית, הכוללים משתנים של התבנית, כמו: I like very much to play tennis או Two man and a beautiful woman drink champagne at the bar, כאשר ניתן להציב מילים שונות בתבנית (girl, boy, woman, eat, go, like, chess, chicken ועוד).
לימוד שפה ומילים חדשות הוא תהליך קצר למדי, ונעשה באמצעות קובץ טקסט פשוט, שמאפשר לגצלביץ להכפיל את כמות הידע של המערכת בתוך מספר שעות. בעת ההדגמה למשל, הוסיף לבקשתנו מילים חדשות למאגר, שבאופן מיידי נכנסו למסד הנתונים של המערכת.
"האלגוריתם יודע לזהות משפטים בעזרת דימויים ושבלונות של השפה. התוכנה מסוגלת לספק מספר חלופות מתאימות, יודעת לנתח את המילים על פי ההקשר והמיקום במשפט, ויודעת ללמוד את האפשרויות ואת החלופות למשפט", הסביר גצלביץ'.
מלבד הקלדת מילים שלמות, ניתן גם להקליד משפט במצב דמוי דיבור, למשל: הקלדת המחרוזת i_si_d_e_blek_si הניבה את התוצאה I see the black sea, כאשר ניתן לראות כי התוכנה אכן מסוגלת להבחין בין See (רואה) לבין Sea (ים), למרות ששתיהן נהגות באותה הדרך.
אגב, התוכנה אמורה לתמוך גם בזיהוי של אינטונציה, על מנת להבין הדגשים שונים שמובעים בקול, אולם לדברי גצלביץ', "זה אולי לא יהיה אחד הצעדים הראשוניים מבחינה עסקית, אבל הטכנולוגיה תומכת בזה. כדי להבין את הקשקושים צריך להבין את המשמעות", סיכם.
זיהוי חלקי של הקול
ומה בנוגע לזיהוי דיבור באמצעות מיקרופון? ובכן, גם כאן נכונה לנו הפתעה, יחסית לפחות, כאשר התוכנה הצליחה לזהות את קולו של גצלביץ' (בצורה כמעט מושלמת, ולמרות מבטא רוסי כבד למדי) ואת קולנו (באופן חלקי, כשהאשמה יוחסה לעובדה שהיא טרם למדה לזהות קולות נשיים).
"התוכנה מנתחת את הצליל, מריצה עליו אלגוריתם, ובכל מקום מנתחת קירבה לצלילים של בן אדם, כמו a, o, r, g וכדומה, שהם אוניברסליים למדי, כשיש תוספות בכל שפה", הסביר גצלביץ' בתוך שהוא מכוון את
ספקטרום הצלילים של התוכנה לניחוש הנכון מתוך 3-4 אפשריים.
"כמובן שהפעולות האלו הן רק בגירסת ההדגמה, ובגירסה הסופית לא צריך יהיה לבצע כיוונונים", מרגיע גצלביץ', ומציין שבדיוק לשם כך נדרשת אותה השקעה כספית ששלושתם כה מייחלים לה.
"אנחנו נפגשים עם חברות שעוסקות בזיהוי קול (בניגוד לזיהוי דיבור - ר.ש.), כדי לשתף פעולה, ולחזק את הצד הזה אצלנו, שהוא די חלש. אנחנו מאוד רוצים שיתופי פעולה עם חברות טלפוניה כמו מוטורולה, נוקיה, וכל חברה שיש לה צורך במוצר כזה, למשל לצורך ניווט", מציין רון.
"התועלת בפיתוח מוצלח של טכנולוגית זיהוי דיבור היא עצומה. דיבור זו הדרך המהירה והיעילה ביותר של אנשים לתקשר. זיהוי דיבור יכול להחליף כתיבה, הקלדה, שליטה ידנית במכשירים ועוד. אנחנו סבורים כי המערכת תאפשר לייצר טלפונים סלולריים בלי מקלדת, המסך יגדל. יצטרכו רק כמה מקשים והסלולרים יעברו מהפכה, יהיה כמה שיותר שטח צג".
למה שאתם תצליחו היכן שמיקרוסופט ו-IBM - עם תקציבים של מיליארדים - נכשלו?
ולדימיר: "אני מאמין שאת התגליות הגדולות עושים אנשים פרטיים. זה האופי של התגלית: אנשים מאוד כשרוניים שזו מטרת חייהם, אצל ד"ר מיטקוב זה היה לגלות כיצד המוח עובד. שילוב של הדברים מביא לתגליות. גם אם IBM היתה עושה את זה - זה היה על ידי מישהו ששילמו לו כדי לחקור את זה".
זה לא מלחיץ, להשקיע כל כך הרבה זמן וכסף במשהו שעלול ליפול?
"כרגע הכל במימון עצמי, וצריך אמונה. אני מכיר את זה, עשיתי דברים כאלה בעבר", מפטיר רון, בעוד גצלביץ' מתוודה בחיוך ביישני ש"אני מתעורר חמש פעמים בלילה, אבל מי שמסתכן הכי הרבה - מרוויח הכי הרבה".
"כרגע אנחנו רק מנסים לפרוץ את הדרך. אבל כמו שהמחשבים עשו מהפכה, המערכת שלנו גם תעשה מהפכה. מחשב שמבין אותך זו מהפכה".
"זה דומה למה שקרה עם גוגל", סבור גצלביץ'. "כשהם התחילו, היו הרבה מנועי חיפוש, ואנשים חשבו שבעיית החיפוש נפתרה, ואין מה לשפר בה, למרות שהתוצאות שהתקבלו אז בחיפושים לא היו משביעות רצון".