האיש שניצח את סוזן וגה: על המצאת ה-mp3
פורמט ה-mp3 לדחיסת מוזיקה שינה את דפוסי ההאזנה של העולם כולו. רן לוי מתחקה אחר ההמצאה שמאפשרת לכווץ שיר שלם ל-4 או 5 מגבייט של מידע
אמנים צעירים כבר לא ממש צריכים את חברות התקליטים וחוזיהן הדרקוניים: אתרים כמו Bandcamp מאפשרים להם להגיע אל קהל היעד ללא תיווך- ובעזרתו הנדיבה של ה-mp3, כמובן.
שורשיו של ה-mp3 מצויים בגרמניה, בתחילת שנות השמונים. פרופסור דיטר זייטצר, מומחה לתקשורת מחשבים, ביקש לרשום פטנט על רעיון נועז שהגה: העברה של מוזיקה באיכות גבוהה על גבי קווי ISDN, שיטת תקשורת מחשבים חדשנית באותם הימים.
הבוחן במשרד הפטנטים דחה את הבקשה על הסף. "מה שאתה מציע לעשות", הוא הסביר לפרופ' זייטצר, "הוא בלתי אפשרי בעליל בטכנולוגיה הנוכחית".
הוא צדק, כמובן. שניה אחת בלבד של שיר ממוצע מכילה מידע בנפח 1.5 מגהבייט. זה המון מידע: לשם השוואה, 1.5 מגהבייט הם כמו ספר עב כרס. גם היום, אם נרצה להעביר מוזיקה 'גולמית' שכזו דרך רשת האינטרנט, זה אתגר לא קטן.
זאת ועוד, פרופ' זייטצר ביקש להעביר את המוזיקה בזמן אמת: דהיינו, שניתן יהיה להאזין לה בצידו השני של הקו תוך כדי העברת הנתונים. חמור עוד יותר- הוא רצה להעביר מוזיקה באיכות גבוהה.
ניתן, כמובן, להעביר מוזיקה דרך קווי טלפון למשל, אבל המחיר שצריך לשלם הוא פגיעה חמורה באיכות הצלילים. מערכת הטלפוניה מסננת חלק מהמידע ומעבירה רק תדרים מסויימים, ולכן הקול שבוקע מהאפרכסת הוא באיכות סבירה לדיבור, אבל לא יותר מזה. העברת מוזיקה באיכות גבוהה ובזמן אמת הייתה עדיין חלום רחוק.
פרופ' זייטצר גייס לעזרתו סטודנט מבריק לתואר שני, קרלהיינץ ברנדנבורג. הוא הטיל עליו למצוא את הדרך לכווץ או לדחוס את המידע מבלי לפגוע באופן משמעותי באיכות המוזיקה. הכיוון שאליו החליט קרלהיינץ לפנות היה שימוש בעקרונות הפסיכואקוסטיקה.
פסיכו-מה?
בשנת 1894 דיווח הפיזיקאי אלפרד מארשל מאייר על תגלית מעניינת ומפתיעה. הוא הבחין בכך שאם משמיעים לאדם שני צלילים בתדרים קרובים זה לזה, בעוצמות שונות, הוא ישמע רק צליל אחד, את הצליל החזק יותר. תופעה זו זכתה לשם 'מיסוך' או 'הסתרה' (Masking): הצליל החזק יותר יימסך את הצליל החלש ו'יטביע' אותו- כמו מטוס שחולף על פני השמש, או יובל שטייניץ במסיבת עיתונאים עם ביבי נתניהו.
תגלית זו סימנה את ראשיתו של מדע הפסיכואקוסטיקה, העוסק באופן שבו אנו תופסים ומגיבים לקול. מסתבר שמה שאנחנו שומעים תלוי לא רק במה שמשמיעים לנו, אלא גם במבנה האוזן שלנו, ובאופן שבו המוח שלנו מעבד את המידע שהוא מקבל ממנה.
אחד העקרונות החשובים של הפסיכואקוסטיקה הוא הרגישות לצלילים בתדרים שבתחום הדיבור האנושי: בין 1000 ל-5000 הרץ. בתחום זה, אנחנו נבחין טוב יותר בין שני צלילים קרובים ונשמע גם צלילים בעוצמה נמוכה יחסית.
בתדרים גבוהים מאד או נמוכים מאד, להבדיל, יכולת האבחנה בין צלילים והרגישות לצלילים חלשים היא גרועה בהרבה. למשל, אם מישהו ידבר אלינו- נוכל להפנות אליו את מבטנו במהירות. הרבה יותר קשה, לעומת זאת, לזהות את מקורם של צלילי באס נמוכים למשל.
כבר בשנות השבעים הבינו חוקרי הפסיכואקוסטיקה שניתן להעזר במגבלות התפיסה של מערכת השמיעה האנושית כדי לדחוס מוזיקה בצורה טובה מבלי לפגוע יותר מדי באיכותה.
הטריק הוא להעיף מהמידע את כל אותם התדרים שאנחנו בלאו הכי לא מסוגלים לשמוע: צלילים בתדרים קרובים מאד, למשל, או צלילים חלשים בתדרים גבוהים ונמוכים. התוצאה תהיה קובץ קטן יותר, ללא שינוי ניכר באיכות הקול.
זו הייתה התיאוריה, בכל אופן. בפועל, לא היו אז הידע התיאורטי והטכנולוגיה המתאימה כדי לנתח את המוסיקה ולזהות את כל התדרים והעוצמות השונות.
כאן נכנס קרלהיינץ ברנדנבורג לתמונה. קרלהיינץ היה גם מתמטיקאי וגם מהנדס אלקטרוניקה, ולכן יכל לתקוף את הבעיה משני הכיוונים בו זמנית. במסגרת עבודת הדוקטורט שלו הוא הניח את היסודות לניתוח מתמטי יעיל של הצלילים ולאחר מכן יישם את הפיתרון בפועל, יחד עם עמיתיו במכון המחקר פראונהופר שבגרמניה, באמצעות שבבים שפיתחו במיוחד.
לאורך כל שנות השמונים התקדם תהליך הפיתוח בקצב טוב, וקרלהיינץ חש שבקרוב מאד יוכל להגיש את שיטת הדחיסה החדשה לאישורה של ועדת התקנים הבינלאומית. אבל אז נתקל ביריבה קשוחה ועיקשת במיוחד...סוזן וגה.
הדיינר של טום
השכל הישר אומר שהמוזיקה הקשה ביותר לכיווץ צריכה להיות המוזיקה העשירה והמורכבת ביותר, כמו למשל תזמורת סימפונית בת עשרות נגנים במגוון גדול של כלים. גרסאת האקפלה של Tom’s Diner, עם זאת, היא ההפך הגמור: אין בה אפילו נגן אחד לרפואה...רק סוזן וגה והמיקרופון, וזהו.
הפשטות הבלתי מתפשרת של גרסאת האקפלה של Tom’s Diner היא זו שהפכה את היצירה לאגוז קשה לפיצוח. היזכרו באחד העקרונות הבסיסיים של הפסיכואקוסטיקה: האוזן שלנו רגישה במיוחד לצלילים בתחום תדרי הדיבור האנושי ושם גם נקלוט כל טעות, כל שגיאה וכל עיוות בצליל הדחוס.
סוזן וגה שרה כשהיא עומדת ממש מול המיקרופון, כך שההבדלים בין הצלילים שמגיעים לאוזן ימין ואלו שמגיעים לאוזן שמאל הם זעירים במיוחד. עובדה זו הקשתה מאד על האלגוריתם שפיתח קרלהיינץ, והבליטה את חולשותיו.
נדרשו עוד חודשים ארוכים של עבודה כדי לשפר את שיטת הדחיסה ולהתמודד עם קולה המאתגר של סוזן וגה ועם צלילים בעייתיים נוספים, כמו נקישות הקסטנייטה, למשל. וולפגנג פייזל, שהיה סטודנט במעבדתו של קרלהיינץ, מספר שהאזין לקטע הקסטנייטות כל כך הרבה פעמים בכל יום, עד שהיה שומע אותם גם בלילה מתוך שינה.
לבסוף, בשנת 1992, הצליח הצוות לגבור על כל הקשיים והמחקר הושלם. חשוב לציין שבשלב זה, איש לא חשב להשתמש באלגוריתם החדש כדי ליצור קבצי מוזיקה עבור המחשב: קרלהיינץ קיווה שהדחיסה תהיה שימושית בתעשיית הקולנוע ותאפשר הפצה של סרטים על גבי תקליטורים.
למרבה האכזבה, ועדת התקנים MPEG שהייתה אחראית על התחום הזה העדיפה אלגוריתם דחיסה אחר שהיה נחות מזה של קרלהיינץ, אבל קל יותר למימוש בפועל. אלגוריתם הדחיסה של קרלהיינץ זכה לאישור ועדת התקן וקיבל את השם הרשמי MPEG-2 Audio Layer 3, אבל התעשייה פנתה לכיוון אחר.
כך, אחרי למעלה מעשר שנות מחקר אינטנסיבי הייתה בידי קרלהיינץ שיטת מהפכנית לדחיסת אודיו שהשיגה ביצועים נפלאים וכיווצה את נפח המידע פי עשרה ויותר...אבל אף אחד לא רצה בה. פה ושם היו כמה חברות שנעזרו בדחיסה החדשה במוצרים איזוטריים, אבל שאר העולם היה אדיש לחלוטין.
שניים מעמיתיו של קרלהיינץ, ד"ר פופ וד"ר גריל, נזכרים כיצד הציגו את ההמצאה החדשה שלהם בתערוכה שאירגנה ממשלת בוואריה- ותשעה מכל עשרה מבקרים העדיפו להתמקד בדוכן שעמד לצידם, שם הוצג פיתוח מושך בהרבה: מתקן לקירור בירה.
שילוב קטלני: אינטרנט ומוזיקה
בערך באותו הזמן עלתה על במת ההיסטוריה המצאה אדירה נוספת, שעתידה לשנות את העולם כולו: ה-World Wide Web, רשת האינטרנט.
לאחר התייעצות פנימית החליטו קרלהיינץ ועמיתיו בפראונהופר לנסות את מזלם באינטרנט. מכון פראונהופר הוא מוסד אקדמאי משובח, מהטובים בעולם, אבל הוא אינו עסק ואין לו את הכלים להתמודד עם מיליוני לקוחות בכל העולם.
המודל הכלכלי שנבחר היה סוג של פשרה: חברה שתרצה למכור תוכנה לדחיסת אודיו תתבקש לשלם סכום גדול, אבל מי שירצה לכתוב נגן מוזיקה שיוכל להשמיע את המוזיקה יוכל לעשות זאת בחינם. כדי להקל על זיהוי הקבצים הדחוסים הוחלט ליצור עבורם סיומת חדשה: .mp3
הפתרון היצירתי התגלה כהצלחה גדולה: נגנים כמו winamp החלו לכבוש את השוק במהירות מסחררת, ויותר ויותר חברות רכשו ממכון פראונהופר את הזכויות ל-mp3. נדמה היה שהעניינים מתחילים לפנות לכיוון הנכון, אבל אז, ב-1997...שוב אכזבה.
סטודנט אוסטרלי פרץ לתוכנה ושיחרר אותה לעולם כולו, ובכך הרס במחי יד את כל המודל העסקי של פראונהופר. אלגוריתם הדחיסה היה כעת ידוע לכולם, ולמכון האקדמי הגרמני לא היו את המשאבים ולא את הרצון לרדוף אחר כל פיראט שעשה בו שימוש ברחבי האינטרנט. בלית ברירה, בפראונהופר נאלצו להוריד את המחיר עבור הזכויות לאלגוריתם ולדרוש תשלום רק מחברות גדולות ורציניות.
למרבה האירוניה, אכזבה זו היא הסיבה הישירה להצלחה הנפלאה של mp3 בימינו. כל אחד יכל להרשות לעצמו להמיר את אוסף המוזיקה שברשותו לקבצי mp3, ורשתות שיתוף קבצים כמו נאפסטר ו-emule צברו מיליוני משתמשים: בתוך פחות מעשר שנים mp3 כבש את העולם באופן מוחלט.
התפוצה האדירה הזו היא הסיבה לכך שלמרות שרק חלק זעום מהתמלוגים על ההמצאה אכן מגיעים בסופו של דבר למכון פראונהופר - עדיין מדובר במאות מיליוני דולרים בשנה, כך שכולם יצאו מרוצים.
כן, אפילו קרלהיינץ: הוא וכשלושים מעמיתיו למכון נהנים מחלק נאה מהתמלוגים, בהתאם לחוק הגרמני. כיום, קרלהיינץ הוא בכיר במכון פראונהופר ומשקיע בחברות סטראט-אפ מבטיחות..מי יודע, אולי הוא מבשל לנו מהפכה מוזיקלית נוספת.
רן לוי הוא סופר מדע, ומגיש את הפודקאסט 'עושים היסטוריה!'- תוכנית על מדע, טכנולוגיה והיסטוריה. www.ranlevi.co.il