מטא חשפה היום (רביעי) מודל בינה מלאכותית בקוד פתוח המכונה AudioCraft ומיועד ליצירה של מוזיקה, צלילים ורעשים תוך שימוש בתיאור מילולי שלהם. אודיוקראפט מבוסס על שלושה מודלים שמספקים את היכולות האלה. MusicGen משמש ליצירת מוזיקה; AudioGen משמש ליצירה של רעשים כגון נביחות של כלבים או צפירות של מכוניות; המודל השלישי EnCodec משמש להפקת התוצרים הסופיים וניקוי רעשי הרקע.
עוד בנושא:
בניגוד לטקסטים או לתמונות, במוזיקה נושא זכויות היוצרים הרבה יותר אקוטי. לכן מטא ציינה בפירוש שאימון המודל ליצירה מוזיקלית עושה שימוש ב-20 אלף שעות של מוזיקה "השייכת למטא או שנרכשה במיוחד לאימון המודל", כך ציינו בחברה. אכן, אם מישהו ינסה לייצר מוזיקה מבוססת AI עם מודל שאומן על מוזיקה מסחרית, הוא ימצא בה ספיחים או קטעים של יצירות מפורסמות, ואנחנו יודעים שחברות המוזיקה והאמנים מאוד לא אוהבים שמעתיקים מהם חומרים.
בשלב הנוכחי ניתן להתנסות במודלים בצורה חופשית, כאן למוזיקה, כאן לסאונד וכאן במודל הפקת הסאונד. יש לציין שבשלב הנוכחי המודלים האלה יותר מיועדים למחקר ופיתוח מאשר לשימוש על ידי הציבור הרחב. אבל אפשר בקלות לייצר שירותי בינה מלאכותית ליצירת מוזיקה על בסיס המודלים האלה. אגב, חלק המחקר שהביא ליצירת המודלים ערכה מטא ביחד עם האוניברסיטה העברית בירושלים וחלק גדול מצוות החוקרים שחתום על הפיתוחים הוא ישראלי.
החברה הציגה קצת צלילים שנוצרו בסיוע המודלים ובעוד רובם אכן מצליחים לחקות היטב סגנונות שונים של מוזיקה פופולרית או קלאסית, אבל אם תבקשו סגנונות שאינם מערביים תמצאו את עצמכם בבעיה. בכל מקרה, המוזיקה עדיין הרגישה קצת מכנית, עם זאת הצלילים והרעשים הרגישו בדיוק כפי שהייתם מדמיינים רחוב סואן או כלבייה עירונית. כלומר, בינתיים העתיד של הכלי הזה הוא לא ביצירת להיטים או יצירות מוזיקליות מורכבות - אלא יותר להפקה של מוזיקת מעליות או רינגטונים להפצה בכמויות גדולות.
מוזיקה היא תחום קשוח, גם (ובעיקר) לבינה מלאכותית
מטא הרשימה מאוד עם הכלי הזה, אבל היא לא הראשונה להשיק מודל כזה. גוגל היתה כאן קודם עם SingSong, מודל ליצירת קטעי מוזיקה לליווי שירה. בנוסף החברה מפתחת את MusicLM שכמו המודל של מטא יכול ייצר מוזיקה על בסיס תיאור מילולי. עם זאת ובניגוד למטא, גוגל שומרת על המודל שלה לחוקרים בלבד. כנראה כדי לא להיכנס לפינה הזו של זכויות יוצרים. אגב, משתמשי AI לא המתינו לחברות הגדולות כדי ליצור מוזיקה מובססת בינה מלאכותית. למשל שיר שנוצר על ידי AI והכיל קולות של זמרים שהזכירו מאוד את דרייק ודה וויקאנד. גם המוזיקאית גריימס דירבנה לאחרונה יוצרי מוזיקה מבוססת בינה מלאכותית להשתמש בקול שלה בקטעים שלהם. בישראל אפשר לציין את הניסוי של תאגיד השידור הציבורי כאן להחיות את זוהר ארגוב ועופרה חזה.
בכל מקרה, מוזיקאים הם קהל מצוין עבור בינה מלאכותית יוצרת. בניגוד לכותבים או לאמנים ויזואליים, מוזיקאים רגילים כבר שנים להשתמש במניפולציות צלילים תוך שימוש בטכנולוגיות כגון סמפלינג (דגימות צלילים) בהיפ הופ ודאנס או סינתוז צלילים במוזיקה אלקטרונית. במטא מקווים להפוך את אודיוקראפט לסוג של כלי מוזיקלי חדש כמו הסינתסייזר בזמנו או הסמפלר ומכונת התופים. עם זאת בחברה מודים שיצירה של מוזיקה וצלילים דורשת הרבה יותר נתונים מיצירה של טקסט למשל. כלומר מדובר במהלך הרבה יותר מסובך להרצה - אם כדי ליצור טקסט נדרשות "רק" אלפי נקודות דאטה, יצירה של מוזיקה דורשת מיליונים מהן.
וכאן הבעיה העיקרית. כפי שהזכרנו לעיל, חברות המוזיקה והאמנים הן חבורה של תובעים סדרתיים שלא מהססים לתבוע אחד את השני על משהו שנשמע אולי כמו העתקה. זה כמעט סוג של ספורט בתעשייה הזו. לד זפלין למשל נתבעו עשרות פעמים ובחלק מהמקרים גם הפסידו, פרשת נאפסטר הזכורה לרעה החלה מתביעה של מטאליקה, אפילו ספוטיפיי ספגה תביעת מיליארדים על בסיס חוק שנחקק לפני כמעט מאה שנה. לקינוח אפילו כוכב עולמי כמו אד שירן עמד לאחרונה בפני שופט שהיה צריך להחליט אם הוא העתיק שיר של מרווין גיי. בקיצור, לא לחינם חברות הטכנולוגיה מתנהלות בזהירות, הן יכולות בקלות למצוא את עצמן טרף לעו"ד של תעשיית המוזיקה ובדרך לתקוע את הפיתוח של מודלים ליצירת מוזיקה לשנים ארוכות.