אם לכם קשה לעקוב אחרי כל הפיתוחים והחידושים בתחום של בינה מלאכותית - שנחשב בשנים האחרונות לביטוי החם ביותר בעולמות הטכנולוגיה (וממש לא רק בהם), דמיינו כמה קשה לחוקרים, למפתחים ולסטודנטים שעוסקים בתחום: בכל יום מתפרסמים מאות מחקרים ומאמרים שרלוונטיים לתחומים כמו עיבוד שפה, ניתוח וידיאו ותמונה, זיהוי פנים ועוד - כולם שוהים תחת המטרייה הרחבה של בינה מלאכותית. כתוצאה, העוסקים בתחום צריכים לעמוד בשטף בלתי אפשרי של מידע, לעקוב אחרי כל פיתוח חדש ולהישאר מעודכנים. מה עושים? משתמשים בבינה מלאכותית, כמובן.
במעבדת המחקר של IBM בחיפה, החליטו לנסות ולהתמודד עם עומסי המחקר בנושא בינה מלאכותית - באמצעות בינה מלאכותית. "אם אני כחוקר עובד על איזושהי משימה בתחום, אני מוכרח לדעת מי כבר התנסה בה ואולי עושה אותה יותר טוב ממני", מסביר ד"ר דוד קונופניקי, מנהל קבוצת מחקר בחטיבת הבינה המלאכותית של המעבדה. "לכן אנחנו כל הזמן מוכרחים לסקור את המקורות האלה. בפלטפורמה כמו Arxive למשל מתפרסמים 150-200 מאמרים חדשים בכל יום. זו הפכה להיות משימה בלתי אפשרית".
ה-Science Summarizer של IBM הוא מעין מאגר חופשי לשימוש, שבו ניתן כבר עכשיו לאתר גרסאות מסוכמות ומקוצרות של כ-300 אלף מאמרים בתחום. תהליך הסיכום נעשה כמובן על-ידי בינה מלאכותית, שהופכת פרקים שלמים לפסקאות קצרות בעלות מספר משפטי מפתח. "הוצאנו גרסת בטא בשקט כבר בחודש אוגוסט", מסביר קונופניקי, "והספקנו לקבל בינתיים פידבק מכל מיני גורמים. בחודש הבא נחשוף את הכלי הזה לציבור הרחב".
איזה פידבק קיבלתם? מפרסמי מאמרים מרוצים מעבודת העריכה והסיכום?
"אנשים די מתלהבים מהיכולת לקרוא במהירות מאמרים ולהבין מיד את העיקר שלהם. כמובן שעדיין יש בעיות טכניות. התחום של סיכום טקסטים הוא בעיה מורכבת בעולם של בינה מלאכותית, ורוב המחקר שנעשה עד עכשיו התמקד במאמרים חדשותיים. בהם, לרוב, יש כותרת אחת, יש רצף פסקאות מסודרות, וכל מה שחשוב, חדש ומעניין נמצא לרוב בפסקה הראשונה. לעומת זאת, למאמר מדעי יש מבנה מסובך יותר, יש שימוש בטבלאות, בגרפים, בכותרות, והמידע החשוב פרוש לכל אורך המאמר. במאמר מדעי יש גם את מה שנקרא 'אבסטרקט' - פסקה שאמורה להביא תמצית של המאמר כולו, אבל בפועל משתמשים בה כמו מעין קדימון לסרט, וגם אחרי שקוראים אותה לא מבינים הרבה ממה שקורה בטקסט. זה חלק מהסיבות שבגינן החלטנו לפתח את הכלי הזה".
ואיך מוודאים שהסיכום באמת הולם את המאמר המקורי? שלא הושמט מידע חשוב?
"כדי לבדוק תוצאות של כל כלי מבוסס בינה מלאכותית - הדרך הטובה ביותר היא להשתמש בבני-אדם. במקרה של סיכום טקסטואלי זה קצת יותר מורכב, כי צריך אנשים שישבו ויסכמו מאמרים ואז להשוות את התוצאות שלהם ולוודא שהאלגוריתם עובד לפחות טוב כמו בני-האדם. כדי לעקוף את זה, אנחנו עושים שלושה דברים: מבצעים סקרים בקרב כותבי המאמרים, כדי להבין מהם האם הסיכום שהכלי שלנו מציע מספיק טוב; אנחנו גם סורקים את הרשת ומאתרים בלוגים שעושים בעצמם סיכומי מאמרים ומשווים מולם; והדבר השלישי הוא שבנינו מערכת שאוספת הרצאות מצולמות - כי הרי כשמציגים מאמר בכנס מציגים איזה תקציר של 15 דקות, ואז אפשר להשוות למה שנאמר בהרצאה".
כרגע מדובר בכלי שרלוונטי בעיקר למחקרים ומאמרים בנושא בינה מלאכותית, אבל קונופניקי אומר שאין מניעה מלפתח אותו הלאה גם לתחומים מדעיים אחרים, כמו כימיה למשל. ומה לגבי טקסטים בעלי מימד פרשני יותר? נניח בתחומים של מדעי הרוח? "זו הצעה מעניינת", אומר קונופניקי, אבל כנראה שהדרך לשם עוד ארוכה.