משמרים את האינטרנט בספריה הלאומית
בפרויקט טכנולוגי ענק של הספריה הלאומית מוקם בימים אלה "ארכיונט", ארכיון מלא של כ-240 אלף אתרי האינטרנט הישראלי על כל רכיביהם. איך עושים את זה ולמה
להיסטריונים של שנת 2050 שירצו ללמוד לעומק את התרבות הישראלית של סוף שנת 2013 לא תהיה משימה קשה במיוחד. הם יוכלו להיכנס למעין מכונת זמן וירטואלית־אינטרנטית, ולגלוש באתרי אינטרנט בדיוק כפי שנראו בעבר הרחוק. הם יוכלו לקרוא את דעותיהם של בלוגרים בני זמננו, לחטט בידיעות החמות של אתרי החדשות, ללמוד על הרגלי האכילה בארץ מאתרי המתכונים, וגם להבין מהו הגאדג'ט המדובר ביותר באתרי הטכנולוגיה הישראליים של שנת 2013.
כל זה יתאפשר בזכות מיזם חדש ושאפתני של הספרייה הלאומית, שיוצא לדרך בימים אלה: "ארכיונט", ארכיון מלא של אתרי האינטרנט הישראלים, בכתובות שמסתיימות ב-il.
ספרים, פשקווילים ואתרים
הספרייה הלאומית, החוגגת השנה 120 שנים להיווסדה וממוקמת בקמפוס גבעת רם של האוניברסיטה העברית (בדרך למיקום חדש בסמוך לכנסת), היא הגוף הלאומי המרכזי המופקד, על פי חוק, על שימור המורשת התרבותית ועל שמירת האוצרות הכתובים של מדינת ישראל ושל העם היהודי. יש בה יותר משבעה מיליון פריטי דפוס וארכיון שנאספו בה מאז הקמתה, והיא שומרת עותק מכל יצירה המודפסת במדינה ישראל (וגם חומרים מהעולם הקשורים ליהדות ולישראל). זה כולל הכל: ספרים, כתבי עת, מפות, כתבי יד, חומרי אודיו, כרזות, פליירים, פשקווילים ועוד.
אבל חלק משמעותי היה חסר עד כה בפאזל הזה. אם המטרה היא לאסוף כל חומר כתוב שהתפרסם בתולדות המדינה, כיצד ניתן להתעלם מכמויות הטקסט העצומות שעולות מדי יום באינטרנט? זו בדיוק מטרתו של המיזם החדש שיאסוף, ישמר וינגיש טקסטים מהאינטרנט.
"בתקופה זו שבה האינטרנט הפך למדיה העיקרית ועיקר פרסומי החדשות, הכתבות והחומרים החזותיים, נעשים במרחב הווירטואלי, יש צורך ממשי בשימור ובתיעוד של החומרים האלו", מסביר מנהל הספרייה הלאומית, אורן ויינברג. "אנחנו רואים בארכוב האינטרנט הישראלי משימה חשובה במיוחד למען חוקרים, לומדים ומתעניינים היום ובעתיד".
חדשות, בלוגים ואפילו פורנו
על המיזם הופקד צוות מצומצם של עובדים בספרייה הלאומית בראשות מנהל אגף טכנולוגיות מידע, אלון שטרסמן. משימתם תהיה "להעתיק" את האינטרנט הישראלי (כלומר אתרים בסיומת il) בכל פרק זמן מסוים, ולאחסנו בארכיון וירטואלי. סדרי הגודל מרשימים, ובגלל שהאינטרנט כל הזמן מתרחב, הם רק ילכו ויגדלו. באיגוד האינטרנט רשומים כיום כ־240 אלף שמות מתחם עם הסיומת הישראלית il. לפי הערכתו של שטרסמן, בשלבים הראשונים האיסוף יהיה של כ־200 אלף אתרים — וזה רק ילך ויגדל.
איזה סוג של אתרים? בספרייה, כך נראה, לא ממש בררנים. כל אתר שאינו חסום: החל מאתרי חדשות, ספורט, טכנולוגיה וכלכלה, דרך בלוגים אישיים, אתרי אוכל, קולנוע, אופנה ובריאות, וכלה באתרים פוליטיים, מפלגתיים, ממשלתיים וגם של חברות ובתי עסק. וכן, אומר שטרסמן, זה כולל גם אתרי סקס ופורנו. "אנחנו לא עושים סלקציה", הוא צוחק.
למרבה הצער, פרסומים ברשתות חברתיות לא יאורכבו בשלב זה כי פייסבוק, יוטיוב וטוויטר אינם אתרים ישראליים. חשוב גם לזכור כי הפרסומים באתרים אלו לא מקושרים מעמוד הבית באופן שבו מחשב יכול להכנס ולסרוק אותם, אלא תלויים ברשימת החברים של כל אחד מאיתנו. ייתכן שבהמשך ייאספו ספציפית תכנים ישראליים העולים לרשתות החברתיות הללו.
הזחלן של הספריה
מבחינה טכנית, פעולת ה"קציר" נעשית באמצעות טכנולוגיות קיימות והיא לא דורשת שיתוף פעולה של האתרים עצמם. מפעילים תוכנה הסורקת אתרי אינטרנט, המכונה "זחלן רשת" (Crawler), המשמשת גם מנועי חיפוש כמו גוגל. הזחלן מגיע לאתר, בודק שאינו חסום לגישה, מעתיק את דף הבית ומתחיל לעבור בצורה סדרתית על כל "מפת האתר" — קישורים, תפריטים, תתי קישורים, היסטוריה ועוד — ומעתיק גם אותם. זה כולל אובייקטים כמו תמונות, קטעי וידיאו ומסמכים.
בספרייה הלאומית מבהירים, כי זחלן כזה לא מסוגל להיכנס לעמודים הדורשים הזדהות והקשת סיסמה — כך שלא ייאספו תיבות מייל, דפים אישיים באתרי בנקים, קופות חולים ועוד. לפיכך, ההבטחה היא, כי הפרויקט לא יפגע בפרטיות משתמשים.
כשתבוצע פעולת ההעברה — "קצירת האתר", כפי שמכנים זאת בארכיון — למעשה יועתק האתר כולו, כולל כתבות, סרטוני וידיאו, תמונות, ארכיון ועוד. ובדיוק אותו דבר יקרה שוב ושוב, לאורך שנים. אינטרנט הישראלי כולו, אם כן, יועתק לארכיון פעם או פעמיים בשנה (אתרים חשובים ומרכזיים — בתדירות גבוהה יותר). אולם באתר הספריה מסבירים כי "הסריקה האוטומטית תעתיק דפי בית ודפים שמקושרים לדפי הבית וכך ברמות עומק נוספות, אך מוגבלות".
האינטרנט משמר את עצמו
המשמעות היא שבעוד 20 שנה ניתן יהיה למצוא עשרות העתקים של כל אתר באינטרנט, כפי שנראה בדיוק לאורך השנים. שטרסמן מודה, שמטבע הדברים, ההעתקים האלה יהיו דומים מאוד אחד לשני. האם לא היה עדיף לחסוך בזמן ובנפח אחסון, ולהעתיק רק את השינויים שהתבצעו באתרים בין כל פעולת קציר?
שטרסמן מסביר, כי אין אפשרות לבצע "דיפרנציאציה" כזו. "הבעיה היא, שצריך להבין מה בדיוק השתנה מהפעם הקודמת שקצרנו את האתר. זה קשה לביצוע — כי השינויים הם לא רק טקסטואליים, הם יכולים להיות גם שינויים בעיצוב. למשל, אם האתר היה פעם אדום והיום כחול — קשה למנגנון לדעת את זה".
אם בכל שנה "ייקצר" מחדש האינטרנט הישראלי כולו, ברור שיידרשו לארכיון נפחי אחסון עצומים. מדובר בעשרות טרה־בייט בכל קציר כזה, מסביר שטרסמן, שיאוחסנו בחוות שרתים של הספרייה הלאומית. עלות הפרויקט השנתית, אגב, מוערכת בכמה מיליוני שקלים בשנה הראשונה — והיא תעלה עם השנים בהתאם.
לא מוזר? הרי יש לנו כבר "ארכיון" ענק ששומר את כל אתרי האינטרנט: קוראים לזה, ובכן, האינטרנט. וכדי לחפש בארכיון הענק הזה יש לנו כלי רב־עוצמה במיוחד; קוראים לו גוגל.
שטרסמן מבהיר, כי מטרתו של המיזם היא לתעד עבור גולשים בעתיד איך נראה היה האינטרנט הישראלי בראי הזמן. "השאלה מה יקרה בעוד 20 שנה. האם אז יהיה אפשר לראות איך נראו אתרים של חברות, ארגונים, אתרים ציבוריים, מפלגתיים וחדשות, לפני כך וכך שנים? כולל אתרים שכבר נסגרו והוסרו מהאינטרנט, או השתנו לחלוטין? המטרה היא להתחיל לייצר את ממד הזמן באינטרנט".
מיזם "ארכיונט" יאפשר בעתיד לגלוש באתרי אינטרנט כפי שנראו 10, 20 ו־30 שנה לפני כן. אך הוא יאפשר לעשות זאת רק בעתיד, שכן האירכוב המלא החל רק בשבועות האחרונים, לאחר פיילוט וניסויים של כמה שנים, שבמהלכם "נקצרו" בעיקר אתרי מפלגות. בשלב הראשון גם ניתן יהיה לצפות בארכיון רק מבניין הספרייה הלאומית, אך בהמשך, בהתאם לאישורים ולתקנות, נתן יהיה לצפייה גם מחוץ לספרייה.
כיכר השוק
גולשים מנוסים יודעים, שכבר קיים ארכיון אינטרנט שמאפשר לראות כיצד נראו אתרים אינטרנט לפני שנים רבות. קוראים לזה Wayback machine, מיזם שהקים איגוד ללא מטרות רווח בשם internet archive. "הם עושים את זה הרבה שנים ואנחנו עובדים עימם בשיתוף פעולה גם מבחינת הטכנולוגיה", מגלה שטרסמן. בכל מקרה, מיזם ארכיון אינטרנט דומה כבר נעשה במספר מדינות כמו בריטניה, שווייץ צרפת וניו־זילנד.
ארכיון האינטרנט מעלה גם לא מעט בעיות. למשל — מה יקרה עם פרסומים משמיצים או שקרים המתפרסמים באינטרנט אודות אנשים וארגונים? גם אם אלה יימחקו מאתר, הם יישמרו לדיראון עולם בארכיון. בספרייה הלאומית מבהירים, כי אם החוק או פסיקת בית משפט מחייבות הסרה של חומרים מהאתר המקורי, הספרייה הלאומית תנהג בהתאם ותמנע גישה אליו.
בעיה נוספת שעלולה להיווצר היא של זכויות יוצרים — אך יש לזכור שמדובר בפרויקט ממשלתי המעוגן בחוק, שכבר אוסף חומרים כתובים שנים רבות. חוק הספרייה הלאומית משנת 2007 מאפשר לספרייה הלאומית לבצע העתקה של אתרי אינטרנט או יצירות המצויות בהם, לצורכי שימור.
ומה קורה אם בעל אתר כלל לא רוצה שהאתר שלו יישמר בארכיון? אין לו ברירה. לפי חוק, פרסום באינטרנט מאפשר לספרייה הלאומית לכלול את האתר בארכיון. "המטרה היא לאפשר מחקר היסטורי לשוני תרבותי", מסביר שטרסמן. "האינטרנט זה כיכר השוק שמשקפת מצב רוח, סגנונות כתיבה, שיטות מיתוג ופרסום ועוד. אפשר ללמוד מזה הרבה דברים".