שתף קטע נבחר

 

גנזים: מחברים פיסות של היסטוריה

פיסות היסטוריה יהודית מגניזת קהיר נמצאות בספריות שונות בעולם. האם המחשב יכול לזהות ולצרף קרע אל קרע? זה אחד האתגרים שעומד בפני פרויקט גנזים

<< סוני: אנונימוס אשמים בפריצה ל-PSN

 

פרויקט גנזים, בראשותו של פרופ' יעקב שויקה, אינו פרויקט היי-טק רגיל. מועסקים בו אנשי מחשבים מוכשרים, שהצליחו להגיע להישגים טכנולוגיים מרשימים, אבל כל זה לא נועד למטרות רווח. מטרת הפרויקט היא להשתמש בטכנולוגיה העדכנית ביותר כדי לקדם את חקר "הגניזה הקהירית" - עשרות אלפי כתבי יד יהודיים עתיקים שהתגלו בבת אחת לפני קצת יותר ממאה שנה. במשרדי הפרויקט בירושלים, מסדרון צבוע לבן בוהק מוביל לחדרים שבהם יושבות מתכנתות חרדיות. מתכנתים אין בנמצא.

 

"רק מתכנתות חרדיות. אין אידיאולוגיה מאחורי זה", אומר שויקה, "זה אמנם יכול היה להתאים לרוחו של המממן של הפרויקט (המיליונר הקנדי החרדי דב פרידברג. ה"ג), אבל מבחינתו לא היה משנה לו את מי אנחנו מעסיקים. פשוט הקמתי את הצוות מאפס, והזמנתי מתכנתת אחת שהכרתי, והיא משכה אחריה את כל היתר.

 

"יש לזה פלוסים ומינוסים. מדובר בבחורות מוכשרות, עם מוסר עבודה גבוה מאוד, עם נכונות לעבוד, נעים לנהל אתן דו-שיח. מצד שני, מדובר באמהות, על כל המשתמע מזה. הן אמנם מתחילות לעבוד מוקדם מאוד בבוקר, אבל בשלוש בצהריים המשרדים כבר ריקים. זה לא דבר רגיל בהיי-טק, אבל זה מה שיש לנו כאן".

 

ויקיליקס של תרבות היסטורית

מהי בדיוק הגניזה הקהירית? תוכלו לחשוב על זה כעל ויקיליקס של ההיסטוריה והתרבות היהודית. חדרון קטן בבית כנסת עתיק בקהיר, ששימש כ"גניזה" - "פח זבל קדוש", אם תרצו - ושאליו נהגו להשליך כתבי קודש בלים שונים ואפילו סתם מכתבים כתובים בעברית, החל במאה ה-8 ובמהלך מאות השנים שלאחר מכן. עם גילוי הגניזה בשלהי המאה ה-19, נחשפו לפתע החוקרים למכתבים אישיים ורשמיים (בין השאר מסמכים בכתב ידו של הרמב"ם עצמו), לחיבורים שנחשבו עד אז לאבודים, או שנודעו רק כתוצאה מחשיפת הגניזה, לעותקים מהימנים יותר של חיבורים ידועים, ועוד ועוד.

  

במשך יותר ממאה שנים עמלים המומחים לחלץ כמה שיותר מידע ותובנות מאותה תגלית מרעישה, אך המלאכה עוד רחוקה מסיום. החומר מפוזר בין עשרות ספריות ברחבי העולם, אין קטלוג מלא ואמין שלו, והוא עשוי ברובו מדפים בודדים או מקרעי דפים (סוף סוף מדובר בדפים שהושלכו כי לא היה בהם חפץ!), כשלעתים קרעים שונים של דף אחד מפוזרים בכמה וכמה ספריות.

 

בנקודה זו נכנס לתמונה המיליונר החרדי דב פרידברג מקנדה, שיזם פרויקט עתיר-תקציבים לקידום חקר הגניזה, כשאחד מגולות הכותרת שלו הוא האתר genizah.org, המכיל כיום יותר מרבע מיליון תצלומים של דפי גניזה באיכות מעולה - הנגישים חינם אין כסף לכל חוקר ולומד.

 

חצי מיליון חתיכות של היסטוריה

פרויקט המחשוב יצא לדרך בשנת 2005, אז מונה לעמוד בראשו פרופ' יעקב שויקה, אחד מהאבות המייסדים של "פרויקט השו"ת" המצליח, פרויקט שאף זכה בפרס ישראל לספרות תורנית לשנת תשס"ז. שויקה וצוותו עמלו רבות כדי למפות את כל קטעי הגניזה הידועים בעולם (מעל 320 אלף קטעים וקרעי דפים), ולהעלות צילומים באיכות גבוהה מאוד (600 DPI), של כל הקטעים של הספריות שהסכימו, לאחר משא ומתן ארוך, להעלות את צילומי הקטעים שברשותן לאתר.

 

הצילומים מוצגים יחד עם כלים מתקדמים שמטרתם לאפשר לחוקרים לפענח את הטקסטים העתיקים, שרבים מהם קרועים ומטושטשים: מלבד הגדלה והקטנה, גם שליטה על הבהירות, הניגוד והתאורה, וכן כלי מדידה מדויקים המאפשרים לשער את מספר האותיות החסרות בתוך קרע בדף, וכך לנסות לשחזר את הכתוב בו. מדי יום מצולמים עוד ועוד קטעי גניזה ומועלים לאתר, כך שבתוך חודשים מועטים יהיו באתר כחצי מיליון צילומים (של כרבע מיליון קטעים, כל דף מצולם משני עבריו).

 

קרע אל קרע

אך זה לא הכול. צוות המחשוב בראשות פרופ' שויקה יצא לפתור את אחת הבעיות הקשות של הגניזה: היותה קרעים קרעים, המפוזרים בספריות שונות בעולם. האם המחשב יכול לזהות ולצרף קרע אל קרע, ולהצביע על כך שהם שייכים לאותו דף, או לאותה כתיבת יד?

 

מתברר שכן. בתוך חודשים בודדים הצליחו אנשי המחשוב לפתח טכנולוגיה שאפשרה להם לזהות כבר בניסוי מדגמי מאות צירופים חדשים של קטעים, שאף חוקר לא זיהה לפניהם. פרופ' שויקה סיפר ל-ynet על הטכנולוגיה:

 

"לפני כשנה וחצי הצלחנו לפתח, יחד עם חוקרים מאוניברסיטת תל אביב ומהאוניברסיטה העברית, שני סוגים של מגנונים: מנגנון אחד מסתכל בתמונה וגוזר ממנה את כל המידע הרלוונטי על האספקטים הפיזיים של הקטע (אורך, רוחב, כמה שורות, רוחב ממוצע בין שורות, גודל שוליים, מיקום וגודל של חורים בדף, צורת החיתוך שלו, וכו'). זהו דבר פשוט יחסית, אך הוא לא נעשה מעולם. כך מתקבלת עבור כל תמונה קבוצת נתונים, שניתן להשוות אותה לכל תמונה אחרת, עד לקבלת התאמה.

 

"זה מצריך לצלם את הקטעים מראש כך שיקל על המחשב לזהות את כל המאפיינים האלה. אם למשל אינך מצלם את הקטע יחד עם סרגל, המחשב לא ידע מה המידות שלו. אם אתה מצלם על רקע שהוא קרוב בצבעו לרקע של הקטע עצמו, המחשב עלול להתבלבל בקביעת גבולות הגזרה שלו. זו הייתה החלטה מודעת וחדשנית: ההבנה שאיננו מצלמים את התמונות עבור בני אדם בלבד, אלא גם עבור המחשב.

 

"המנגנון השני שפיתחנו הולך בכיוון אחר: המחשב מקבל שתי תמונות וללא כל מידע נוסף עליו לזהות אם מדובר באותה כתיבת יד או לא. כך הצלחנו לזהות בתוך זמן קצר מאוד מאות צירופים שלא היו ידועים לחוקרים עד כה. בשונה מעבודה אנושית, המחשב אינו מנתח קליגרפית אות אות, אלא משתמש בטכניקות רבות אחרות, ביניהן טכניקות לזיהוי פרצוף. עד כמה שידוע לי, זו עבודה ראשונה מסוגה בעולם.

 

"כמובן, אותה כתיבה אינה מעידה שמדובר באותו ספר; הרי אותו סופר יכול להעתיק פעם אחת ספר הלכה ובפעם אחרת ספר פרשנות. ועדיין זה מצמצם אפשרויות, מלבד מה שעצם השאלה אילו ספרים שונים העתיק אותו סופר מעניינת כשלעצמה".

 

עד כה עשיתם זאת בצורה מדגמית. מתי תפעילו את המערכת באופן מלא?

"אנחנו מקווים בחודשים הקרובים להפעיל את המערכת הזאת על כל חצי המיליון התמונות שיהיו אז במאגר. מדובר בכמה אלפי מיליארדי השוואות (תמונה מול תמונה), אבל זו לא בעיה: לוקחים עשרה מחשבים וקושרים אותם אחד לשני, ונותנים להם לעבוד. בתוך זמן קצר יחסית, כל הצירופים נעשים והתוצאות מתקבלות".

 

פרויקט השו"ת, התבסס דווקא על טקסטים מוקלדים ויכולות אחזור מתקדמות מהם. כאן מדובר דווקא על תמונות. האם אתם עובדים גם על אפשרות להפוך את התמונות לטקסט של ממש, כגון על ידי OCR (זיהוי תווים ממוחשב)?  

"יש קבוצת מתכנתים באוניברסיטה העברית שעוסקת בדבר הזה בדיוק. זה נושא מורכב ביותר, שהרי אנחנו מדברים על כתב יד ולא על דפוס, ועל סוגים שונים של כתיבות יד, חלקן רהוטות מאוד. בנוסף יש עוד קושי, אפילו בכתב מרובע: הרבה פעמים האותיות מחוברות אחת לשנייה, והמחשב צריך להחליט איך לפרק אותן לאותיות שונות ונפרדות. לגבי אותיות מרובעות ונפרדות, הצוות נמצא כבר בשלב מתקדם.

 

"יש עוד רעיונות שנבחנים, כגון לתת למחשב לנסות לנחש באופן כללי מהו נושא הקטע - האם זה קטע מקרא, או קטע תלמודי, או שירה, או מכתב, וכדומה. זה יכול לתת פתרון ארעי וראשוני לנושא הקטלוג של הגניזה, שעד כה אף אחד לא עשה באופן ממצה.

 

"מבחינת קִטלוג אנו מנסים גם דרך אחרת, בסגנון ויקיפדיה: הוספנו לאחרונה לאתר אפשרות שהמשתמשים באתר יעלו זיהויי קטעים משל עצמם. בינתיים לא כל כך עושים את זה, אבל אנחנו מקווים שבחודשים הקרובים הדבר יצבור תאוצה, ושקהילת החוקרים תפנים ותממש את היכולת הזו לבנות קטלוג 'מלמטה למעלה'".

 

ומה בעתיד?

לאתר רשומים כ-1300 משתמשים, על פי שויקה, ביניהם יש כאלה שיושבים על האתר מן הבוקר עד הערב. אחד החוקרים העושים שימוש באתר הוא פרופ' רוברט ברודי מהחוג לתלמוד באוניברסיטה העברית, שמשמש גם כעורך כתב העת "גנזי קדם" השייך לפרויקט.

 

"בינתיים התועלת העיקרית וכמעט היחידה שאני מפיק היא באפשרות לבדוק תצלומים דיגיטליים און-ליין", אומר ברודי, "סביר להניח שבעתיד אשתמש בפיתוח האחרון של תוכנה לזיהוי קטעים נפרדים כשייכים לכתב יד מקורי אחד".

 

אילו אלמנטים חשובים עדיין חסרים או חלקיים בפרויקט?

"על פי הבנתי הפרויקט אמור להשיג שתי מטרות: הנגשה מקוונת של אוספי הגניזה, וקטלוג מקיף ואמין. נעשים צעדים מרשימים לקראת המטרה הראשונה, ונראה שתוך שנה או שנתיים הרוב המכריע של הקטעים יהיה נגיש בתצלומים דיגיטליים (למעט כמה ספריות שמסרבות מסיבות שונות לשתף פעולה). את המטרה השנייה קשה הרבה יותר להשיג, וכאן עד כמה שידוע לי נעשו צעדים צנועים למדי. יש צורך בכוח אדם מוכשר ומיומן שמוכן להקדיש זמן רב לעבודה שאיננה מן המרתקות, ואת זה אי אפשר להחליף במחשוב".

 

אנשי הפרויקט עסוקים כיום בשלבים אחרונים של ייצוב המערכת, וכבר מסתכלים הלאה להמשך הדרך. פרופ' שויקה נאות לספר לנו על שני פרויקטים גדולים מתוך כמה שמתכוננים: מסד נתונים אינטרנטי חכם שיכלול שינויי נוסחאות מקיפים לכל התלמוד הבבלי, וכן אתר שיכיל תמונות דיגיטליות איכותיות של כל כתבי היד העבריים מכל העולם. הנה כי כן, יחד עם פרויקטים אחרים כמו אתר Hebrew Books שמעלה לרשת סריקות של ספרי יהדות מודפסים, ופרויקט "הספריה הדיגיטלית של מגילות מדבר יהודה" שבו רשות העתיקות תעלה בשיתוף עם גוגל צילומים איכותיים של המגילות הגנוזות, עולם מדעי היהדות הולך ועושה את צעדיו אל תוך המאה ה-21. 

 

השבוע ברשת: מי אמר סקייפ ולא מכר? >>

 

 תגובה חדשה
הצג:
אזהרה:
פעולה זו תמחק את התגובה שהתחלת להקליד
קטע אבוד מתלמוד ירושלמי
צילום: Biblioteque de Geneve
מומלצים