חיפוש בעולם הבלתי נראה
הידעתם, שחיפוש באמצעות Google חולש רק על חלקיק מהרשת? הכירו את המחפשים האמיתיים
החיפוש באינטרנט באמצעות מנועי החיפוש הגדולים דומה לפרישת רשת דייגים על פני ים שמימיו שוצפים וגובהים ללא הפסקה. הרשת, גדולה ככל שתהיה, תלכוד רק דגים שמרחב המחיה שלהם סמוך לפני הים. דגים שמנים, שנמצאים מחוץ לטווח הרשת ואוצרות הטמונים על הקרקעית, יישארו חבויים. התחום באינטרנט שאינו נגיש באמצעות מנועי החיפוש הרגילים קרוי "הרשת הבלתי נראית".
מדובר במאגר אדיר מימדים. הרשת הבלתי נראית כוללת מסדי נתונים בנושאים רפואיים, חוק ומשפט, ספורט, מחקרים, דואר אלקטרוני, צ'טים, מאגרי פטנטים, ספריות, מחשבונים, מילונים, מודעות דרושים, אנציקלופדיות, דפי זהב, אתרי קניות, פורומים, הודעות לעיתונות של ארגונים ודפים נוספים רבים המופקים על ידי מסדי נתונים באופן דינמי.
מנועי החיפוש המסורתיים אינם יכולים "לקרוא" את הדפים האלו או להציג תוצאות מהם, למרות שדפים דינמיים המוצגים על פי שאילתא כוללים כתובת אינטרנט (URL) ייחודית וקבועה, הנגישה באמצעות דפדפן.
מנועי החיפוש הרגילים: 16% מהרשת בלבד
מנועי חיפוש רגילים אוגרים את המידע שלהם בשתי דרכים. הראשונה, בה ווב-מאסטרים שולחים למנועי החיפוש את כתובות האתרים שלהם, תהליך שמתארך ככל שמנוע החיפוש גדול יותר. באתרים כמו אלטה ויסטה מדובר לעיתים בחודשים ארוכים בטרם יוכנס אתר למנוע החיפוש.
בדרך השניה, שולחים מנועי חיפוש סוכנים חכמים הקרויים ספיידרים, שסורקים אתרי אינטרנט אחר דפים ועוברים מדף לדף באמצעות קישורים. כאשר ספיידר מאתר קישור בדף הוא שומר אותו בזיכרון כדי לגלוש אליו מאוחר יותר. כך מרחיבים מנועי החיפוש את המאגרים שלהם. הסיכוי שאתר מסוים יאותר בידי הספיידרים יגדל ככל שכמות הקישורים שיובילו אליהם מאתרים אחרים רבה יותר.
הצרה היא, שקצב ההתרחבות של המידע באינטרנט מהיר הרבה יותר מאותם ספיידרים. על פי מחקר של NEC, הכיסוי של מנועי החיפוש הרגילים של הרשת הנראית ירד מ-32 אחוז בשנת 1998 ל-16 אחוז ב-99.
מנועי חיפוש "על", כמו MetaCrawler, שמריצים שאילתות בכמה מנועי חיפוש בו זמנית יכולים לשפר את כיסוי האחזור פי 3.5, כלומר 56 אחוזים בלבד מהרשת הנראית היו זמינים לחיפוש ב-99.
נוסף על כך, מנועי החיפוש הרגילים מאחזרים מידע בלי להבחין בהקשרו. למשל, חיפוש המלה Window במנוע החיפוש Fast העלה כחמישה מיליון דפי תוצאות, בנושאי מחשבים, אביזרים לבית, פילוסופיה ועוד.
Google מוביל עם מיליארד דפים
מנוע החיפוש Google שיכלל את שיטות החיפוש. מנוע זה מדרג דף אינטרנט על פי כמות הקישורים אליו מדפים אחרים. ככל שדף מקושר יותר, הדף מוערך כ"חשוב" יותר ועתיד לעלות בראש רשימת התוצאות. חשיבות הדף תעלה ככל שיותר דפים שמקושרים אליו הם "חשובים" בעצמם.
הטכנולוגיה של Google לא מסתפקת בבדיקה כמותית של קישורים אלא גם בוחנת מה הדפים שמקושרים לדף "אומרים" עליו וכיצד הם מעריכים אותו. נוסף על כך, Google משתמש בטכנולוגיה שמוודאת את הרלוונטיות של התוצאות לשאילתא שהוזנה.
למרות התוצאות האיכותיות ש-Google מציג, הטכנולוגיה של מנוע חיפוש זה חושפת את הגולש לרשת "הפופולרית" בלבד. דפים מקושרים פחות ומסמכים חבויים ורבי ערך שכמעט ואינם מקושרים, אינם עולים בתוצאות של Google.
כיום, שלושת מנועי החיפוש הגדולים במונחים של דפי אינטרנט הם Google עם למעלה ממיליארד דפי אינטרנט, Fast עם 340 מיליון דפי אינטרנט וNorthern Light עם 218 מיליון דפי רשת.
עם זאת, מנועי החיפוש מכסים את הרשת הנראית באופן חלקי בלבד. על פי מחקר של NEC שפורסם ב Nature, מנועי החיפוש הגדולים כוללים 16 אחוזים בלבד לכל היותר מהרשת הנראית. מאחר שמנועי החיפוש אינם מכסים את הרשת הבלתי נראית, המחפשים בהם מחפשים רק בכ-0.03 אחוזים של התוכן הזמין היום ברשת.
הרשת הבלתי נראית: פי 40 מהנראית
על פי מחקר של חברת BrightPlanet, הרשת הבלתי נראית כוללת 7,500 טרה בייטים של מידע, לעומת 19 טרה בייטים ברשת הנראית. 550 מיליארד מסמכים לעומת 1 מיליארד ברשת הנראית. 60 אתרי הרשת הבלתי נראית הגדולים כוללים 750 טרה בייטים של מידע, פי 40 מכל הרשת הנראית.
על פי המחקר, הרשת הבלתי הנראית גדלה במהירות, יותר מכל חלק אחר באינטרנט. המידע בה איכותי יותר, ממוקד יותר ורלוונטי יותר בתחומים שונים. כ-95 אחוזים מרשת זו נגיש לציבור ללא תשלום או דמי מנוי.
כיצד ניתן לדוג את אותם אוצרות חבויים? דרך אחת להשיג מידע מאותם מסדי נתונים היא דרך שאילתא ישירה במסדי נתונים. אך פירוש הדבר הוא שכדי להשיג את מלוא המידע בנושא מסוים יש להציג שאילתות במאות ואולי אלפי אתרים.
כדי לנהל חיפוש מועיל, שיציג תוצאות רלוונטיות מכל האינטרנט, דרוש מנוע חיפוש שיבצע חיפושים מרובים במגוון מקורות הרשת הנראית והבלתי נראית, יסנן את התוצאות המתקבלות ויציג מידע רלוונטי בלבד.
כיום, עדיין לא ברור אם פתרון אחד כולל לחיפוש בכל הרשת הוא אפשרי, אך מוצרים ראשונים שמציעים טכנולוגיות חיפוש חדשניות כבר קיימים בשוק:
Zapper
חברת "זאפר טכנולוגיות" הישראלית מציעה את "Zapper", תוכנה חופשית להורדה, המאפשרת למשתמש לחפש מידע רלוונטי מכל תוכנה של Windows או דף אינטרנט. החיפוש מתבצע באמצעות הקלקה על מלה או כמה מלים מסומנות בדואר אלקטרוני, בצ'ט, בדפדפן או ב-Word. לאחר ההקלקה השאילתה תועבר לתוכנה, שהיא יישום קטן דמוי ICQ.
התוכנה מזהה את ההקשר של הדף בו נתונה המלה ותציג תוצאות רלוונטיות לאותה מלה מהרשת הנראית והבלתי נראית. למשל, חיפוש המלה "רשת" באתר תקשורת יניב תוצאות שונות מחיפוש אותה מלה באתר של חברה המייצרת רשתות לחלונות נגד זבובים.
לחילופין, אפשר לבחור בתוכנה תחום חיפוש מבוקש (למשל, ספרות, סרטים, קבצי MP3 או מכירות פומביות ב-ebay). ניתן להתאים אישית את מקורות החיפוש בתוכנה ולייבא אליה את המועדפים מהדפדפן, כדי לבצע בהם חיפוש. החיפוש אפשרי באנגלית בלבד.
Lexibot
Lexibot הוא תוכנה שמחפשת ב-600 מסדי נתונים בו זמנית וגם ברשת הנראית. בתהליך החיפוש נפסלים קישורים לא רלוונטיים והתוצאות המתקבלות מדורגות, ומוצגות, על פי גודל הדף, כותרת הדף, הקישור והערות.
ניתן להקליק על קישור כדי להציג את הדף שלו, או לעבור למסך התכונות המתקדמות בתוכנה כדי להמשיך לחפש בתוך התוצאות על פי מלות מפתח. נוסף על כך, ניתן לצמצם את תוצאות החיפוש על ידי צמצום מקורות המידע של התוצאות. ניתן לשמור את תוצאות החיפוש במחשב ולהציגן שוב במועד אחר. השימוש בתוכנה הוא חינם ל-30 יום בלבד לאחר ההתקנה. לאחר מכן נדרש תשלום.
The Invisible Web
אינדקס של יותר מ-10,000 מסדי נתונים, ארכיונים, מחשבונים ומילונים.
מנועי חיפוש כלליים ומתמחים - ב"אתרים נוספים" מצד ימין