הקול הממוחשב של IBM יודע להביע רגשות
פרויקט הקול המסונתז הוא פרי פיתוח מעבדת המחקר החיפאית של הענקית הטכנולוגית, שמקווה באמצעותו לקרב בין האדם לבין המכונה
אחד המאפיינים המרכזיים של קולות ממוחשבים, הוא המכאניות שלהם: בין אם אתם רגילים לקבל הוראות דרך מהקולות של ווייז, או לבקש את תחזית מזג האוויר למחר מהסייעת הקולית בטלפון החכם - האינטראקציה עם מכונה נשארת מוגבלת. במעבדת המחקר של IBM בחיפה, מנסים לשנות את זה.
במהלך כנס Think השנתי של IBM שנערך היום (ב') בתל-אביב, הוצג כלי חדש ליצירת קולות מסונתזים באופן חופשי מטקסט כתוב לקול, עם יכולות חדשות של הבעת רגשות. ה-Virtual Voice Creator נוצר במעבדת המחקר והפיתוח של IBM בחיפה, בהובלה של רון חורי, מנהל טכנולוגיות דיבור במעבדה. "הבעיה העיקרית שניסינו לפתור היא העובדה שקול מסונתז הוא בדרך כלל חד ממדי", מסביר חורי, "יש מעט מאוד קולות שאפשר להשתמש בהם, ואם אנחנו מדברים על העברה מטקסט כתוב, הקול תמיד נשמע אותו הדבר - מונוטוני ופורמלי".
כבני-אדם, היכולת לייצר קולות בצורה רב ממדית באה לנו די בקלות. אפשר לשמוע בקול שלנו, האם אנחנו מתרגשים, כועסים או עצובים, אבל כשמתעסקים בקולות ממוחשבים - מדובר באתגר של ממש. "אנחנו משתמשים במערכת של למידה עמוקה שלומדת איך סוגים שונים של רגשות משפיעים על הדיבור", מסביר חורי. "יצרנו מודל של דיבור ופירקנו אותו למרכיבים שונים. כשאנשים מדברים, הדיבור מתחיל ממיתרי הקול שרועדים בתדירות שנקראת פיץ', ואז הקול עובר דרך הגרון ודרך חלל הפה. הפרמטרים שיצרנו מאפשרים בעצם לשנות את הצורה והמימדים של החלל הזה, וכך גם את הקול".
ב-IBM החליטו לשחרר את הכלי החדש באופן חופשי ברשת, כרגע בגרסת בטא, ולאפשר לכל מי שמעוניין לחוות את האופן שבו נוצר קול ממוחשב. הם פנו קודם כל לקהילת מפתחים של משחקי מחשב. "הנושא של משחקי אונליין ואנימציה הוא מקום טוב להתחיל בו", מסביר חורי, "זו נישה שבה לא משתמשים בדיבור מסונתז מפני שהדרישות הן מאוד גבוהות. אם אנחנו מדברים על משחקי תפקידים, על ריבוי של דמויות ועל הצורך לאפיין כל דמות בצורה אחרת באמצעות הקול - זה נעשה היום באמצעות שחקנים שבאים ומקליטים את התפקידים. אז החלטנו לתת כלים למפתחים של משחקים ולאנימוטרים שיוכלו לעצב את הקול של הדמויות ממש כמו שמעצב גרפי דואג לאיך שהן נראות מבחינה ויזואלית".
אבל לצד הפיתוח הטכנולוגי המרשים, יש מי שמוטרדים מהיכולות ההולכות וגוברות של בינה מלאכותית ושל סייעות קוליות. בכנס המפתחים של גוגל שנערך בחודש שעבר, בוצעה הדגמה של שיחת טלפון שבוצעה על ידי העוזרת הקולית, ונשמעה כמעט אנושית. בין התגובות, יש גם מי שטוענים שמחשבים לא אמורים להישמע כמו בני-אדם, ושפיתוחים מהסוג של IBM ושל חברות אחרות תורמים להיטשטשות הגבולות.
"אני בהחלט מודע לזה שיש פה סכנות", עונה חורי, "יש גם שיטות טכנולוגיות לפתור אותן. אפשר למשל לדאוג תמיד לסמן לאנשים כשהם מדברים עם מחשב, עם סייעת קולית או עם בוט, להקפיד על שקיפות במובן הזה. כל עוד אנחנו שומרים על אתיקה ועל כללים, זו התפתחות שאפשר בהחלט לצפות לה. המטרה בסופו של דבר, היא לקרב בין האדם למכונה ולדאוג שיפעלו בצורה הרמונית יותר ביחד".