שתף קטע נבחר

 

לא על ה-Google לבדו

לקחנו את 12 מנועי החיפוש הטובים ביותר למבחן דרך. המסקנות מפתיעות

כולם יודעים מכירים את שוקי? איפה השיר שלי? והשיר הנשכח שלי? 
אופס, טעינו והפעם, כמו שצריך מסקנות 

בערב אחד, באביב של 1995, העלתה חברת דיגיטל לרשת את AltaVista. המטרה שהציבו לעצמם החוקרים שמאחורי מנוע החיפוש החדש, היתה ליצור מסד נתונים טקסטואלי שלם אחד, עם כל ה-HTML שנכתב מעולם. לשם כך הם העמידו 18 שרתים אימתניים ופיתחו עכבישי חיפוש, שגלשו בחשכת הלילה מאתר לאתר, מנתב לנתב וצדו כל עמוד תועה. זה היה מדהים - הקלדנו מילה, או כמה מילים, לחצנו על כפתור, וכהרף עין הופיעה שורה ארוכה של לינקים. זה אכן נראה כאילו אפשר למצוא עכשיו באינטרנט הכל, כולל הכל - אם רק תדע לחפש.
מעבר לנוסטלגיה, דיגיטל עליה השלום באמת עשתה היסטוריה. AltaVista העמיד דור חדש של חפשנים, ששיננו את תחביר ה-Advanced Search שלו (שהפך בסופו של דבר לתקן דה-פקטו). בימי השיא של נאסד"ק הוא גם קבע את השיא של כל הזמנים בתשלום עבור Domain - לא פחות מ-7.5 מיליון דולר. העיקר שאנשים יגיעו, העיקר שיחפשו - כי הרי אפשר למצוא פשוט הכל.
AltaVista נותר, עד היום, אחד ממנועי החיפוש החזקים והפופולריים, אבל הוא כבר מזמן לא היחיד מסוגו וגם לא הטוב ביותר. היום הטוב ביותר - כמעט מיותר להגיד - הוא Google. אבל עד כמה טוב הוא בעצם? מה Google לא מראה לנו מהרשת?

הדברים שעושים מנוע

מדי זמן חולף בשמי הרשת כוכב חדש בתחום החיפוש. אחרי ההצלחה הפנומנלית של AltaVista, היתה תקופה שבה HotBot גנב לו את ההצגה. מאוחר יותר, בתקופת הזוהר של הפורטלים, הצליח השילוב בין האינדקס, השירותים המקוונים ומנוע החיפוש החזק, להפוך את Lycos לחביב הקהל. בתקופה מסוימת היו מנועי ה-Meta פופולריים מאד, בזכות היכולת לשגר את השאילתה למנועי חיפוש רבים בו זמנית.
בסופו של דבר מיצב עצמו Google כמנוע החיפוש החזק והפופולרי ביותר. קפיצת הדרך הכמותית והאיכותית שהציע, כבר מההתחלה, מזכירה את זו של AltaVista, ולא במקרה. קודם כל, Google היה הראשון לבצע דירוג סטטיסטי של האינדקס שלו, על בסיס המשוב שקיבל מהגולשים. אבל מעבר לזה, יש לו יתרון מובהק על מנועי חיפוש אחרים (או לפחות כך זה נראה), מבחינת רמת הכיסוי שהוא מציע.
בואו נסביר את שני הדברים. חיפוש מוצלח מסתיים בהשגת מספר אופטימלי של תוצאות רלוונטיות. "אופטימלי" אומר לא יותר מדי ולא פחות מדי. יותר מדי תוצאות מתקבלות, למשל, כאשר השאילתה שהגולש משגר למנוע החיפוש אינה מוצלחת. אם נחפש את המילה "sting" במנוע החיפוש Google, למשל, נקבל 557,000 לינקים. אם נבצע אותו חיפוש ב-AltaVista, נקבל 214,516 תוצאות. ייתכן ש-Google נתן לנו יותר תוצאות, משום שהוא מכסה חלק גדול יותר מהרשת, או משום שהוא מציג מופעים שונים של המילה "sting" מאותו עמוד, כתוצאות נפרדות (אגב, הוא לא). בכל אופן, זה לא ממש משנה אם קיבלנו רבע מיליון או חצי מיליון תוצאות - בשני המקרים אין סיכוי שנצליח לבדוק את כולן.
הדרך של מנועי החיפוש לספק לנו תוצאות רלוונטיות, היא לדרג אותן, ולהציג לפי מידת הרלוונטיות המשוערת. השאילתה בדוגמא שלנו לא היתה מוצלחת, גם משום שישנם כמאתיים אלף אתרים שמוקדשים למוזיקאי גורדון מתיו סאמנר, המכונה "סטינג" (שאליו התכוונו, אבל איך מנוע החיפוש אמור לדעת את זה?), וגם משום ש"sting" (עוקץ) היא מילה בשפה האנגלית. רשימה לא מדורגת של תוצאות היתה מפנה אותנו לאתרי טבע (שעוסקים בדבורים), לאתרי קולנוע (ישנם שני סרטים בשם זה), וכיוצא בזה.
מכיוון ששני המנועים שניסינו משתמשים כיום בשיטות שונות לדירוג התוצאות לפי העדפות הגולשים, ומכיוון שהרבה יותר אנשים מתעניינים בסטינג מאשר בדבורים, עשר התוצאות הראשונות בשני המקרים היו קשורות למיודענו גורדון.

ההבטחה והכיסוי

מה יקרה כשנחפש מוזיקאי פחות פופולרי מסטינג? כתשובה לחיפוש "shlomi shaban", קיבלנו מ-AltaVista ארבע תוצאות בלבד, לעומת 28 תוצאות מ-Google. הפעם זה עניין שונה לגמרי. דירוג תוצאות נועד לסנן את המידע הרלוונטי כשיש הרבה מידע. אבל כשמנוע מעלה, במובהק, מעט מדי תוצאות בהשוואה למנוע אחר, זה בדרך כלל אומר שהכיסוי שלו קטן יותר.
זה כבר לא סוד שמנועי החיפוש הטובים ביותר מצליחים לכסות, במקרה הטוב, בין רבע לשליש מדפי הרשת. הפופולריות של Google קשורה, קודם כל, לרמת הכיסוי שלו, שמבטיחה שתמצאו בו את מה שאתם רוצים בהרבה יותר מקרים.
ישנן מספר סיבות לכיסוי החלקי של מנועי החיפוש. ראשית, תהליך הסריקה והעדכון של מסדי הנתונים העומדים מאחורי אותם מנועים אורך זמן לא מועט. לא כל דף אינטרנט מתגלה ונרשם ברגע שהוא מופיע, ולא תמיד יהיה שם כשתחפשו אותו. אבל הסיבה הטובה יותר לכיסוי החלקי, היא שה"עכבישים", התוכנות שזוחלות ברשת ומחפשות את הדפים, לעולם לא מספיק יעילים כדי להתמודד עם כל המכשולים הפיזיים והלוגיים שעומדים בדרכם לכל נקודה נידחת ברשת. בעצם, אפשר לומר שבלתי אפשרי כיום להקיף את כל הרשת במנוע אחד. השאלה המתבקשת היא איזה מנוע חיפוש - או אילו מנועי חיפוש - מציעים כיסוי טוב יותר. האם יש מנוע חיפוש אחד שמציע כיסוי "מספיק"? האם ואיזה צירוף בין מספר מנועים ייתן תוצאה אופטימלית? אולי, שימוש במנוע Meta, למשל, שמשלב חיפוש מקביל במספר מנועי חיפוש, ייתן תוצאות טובות בהרבה?
כדי לענות על השאלות הללו ערכנו בדיקה של 12 מנועי החיפוש הפופולריים ו/או הטובים ביותר לדעתנו. לבחירה במנועי החיפוש הללו קדמה בדיקה של 28 מנועים שונים - ביניהם כמה מנועים פופולריים שהחלטנו לא לכלול במבחן הסופי. ויתרנו על Excite, למשל. מנוע החיפוש הזה עשה מאמצים עיקשים מאד למצוא דפים שיתאימו לשאילתות שלנו, אבל הציף אותנו ביותר מדי תוצאות לא רלוונטיות. DirectHit, מנוע פופולרי אחר, נתגלה כמאד לא נוח ומוגבל באפשרויות החיפוש המתקדם. מבין 12 המנועים שעברו את שלב הסינון, ישנם שבעה מנועים רגילים, וחמישה מנועי Meta. חלקם מוכרים יותר, ואחרים פחות. נתאר כאן את השאילתות שערכנו, את התוצאות ואת המשמעויות שלהן. לבסוף, נבחר את המנועים הטובים ביותר לפי תוצאות המבחן. המטרה העיקרית שלנו, היא לנסות להעריך את מידת הכיסוי של כל מנוע חיפוש, אבל נתעכב על כמה ממצאים נוספים, ונתייחס לכמה תכונות ייחודיות של המנועים השונים.


כולם יודעים
אחרי ההצלחה הנאה של Google באיתור עמודים בהם שלומי שבן מוזכר, ניסינו לבדוק האם גם מנועי החיפוש האחרים מכירים את שלומי. חיפשנו ובדקנו את התוצאות.

החיפוש

"shlomi shaban"

התוצאות

Google: 28

AltaVista: 4

HotBot: 9

All the Web: 26

Northern Light: 8

Lycos: 26

Vivisimo: 24

MetaCrawler: 5

Dog Pile: 4

Mamma: 10

Ixquick: 14

RedeSearch: 31

RedeSearch, מנוע Meta צעיר יחסית, שמכריז על עצמו כ"דור הבא של מנועי החיפוש", נראה במבט ראשון כמנצח. אבל בדיקה יסודית יותר גילתה אצלו כפילויות. בפועל, הוא מצא רק 21 עמודים שונים. 10 מתוכם, אגב, בעזרתו האדיבה של Yahoo! (את האחרון, לא כללנו בבדיקה, משום שזהו אינו מנוע חיפוש אלא אינדקס. אבל ההצלחה שלו בהחלט מעוררת מחשבה). Mamma, מנוע Meta נוסף, בעל מימשק חביב והכרזה יומרנית שהוא "האמא של כל המנועים", השיג תוצאה סבירה. לא יותר.

שאר התוצאות צפויות ברובן: Lycos הוותיק, הוכיח שוב שהוא מנוע מצויין. All The Web, מנוע פופולרי בארה"ב ולא מאד מוכר אצלנו השיג תוצאה מרשימה לכל הדיעות. Google השיג את התוצאה הטובה ביותר. ההפתעה הגדולה בחיפוש הזה: Vivisimo, מנוע אלמוני יחסית, שמשך את תשומת הלב שלנו כבר במהלך הסינון המקדים. הוא הוכיח את עצמו יותר מרוב המנועים הוותיקים. אבל אולי בעצם שלומי שבן הוא מטרה קלה מדי? החלטנו לחפש מישהו מוכר קצת פחות.

חזור למעלה
מכירים את שוקי?

החיפוש

"Shooky Galili"

התוצאות

Google: 1

AltaVista: 3

HotBot: 0

All the Web: 3

Northern Light: 2

Lycos: 3

Vivismo: 4

MetaCrawler: 2

Dog Pile: 2

Mamma: 0

Ixquick: 2

RedeSearch: 3

Google, המנצח מהסיבוב הקודם, הצליח הפעם פחות. All The Web, אלטא ויסטה, Lycos ו-RedeSearch מצאו כולם את שלושת העמודים שבהם הופיע השם שחיפשנו עד ליום המבחן. Vivismo היה היחיד שמצא את המספר הנוסף: עמוד חדש שהוספנו ביום המבחן, ושאותו אף אחד מהמנועים לא הספיק לעדכן (אגב, גם שבוע אחר כך הוא היה היחיד שגילה את העמוד הזה).

עובדה ברורה אחת שעולה משתי השאילתות שערכנו בשלב זה, היא החולשה של רוב מנועי ה-Meta. דוגמא מעניינת: המנוע MetaCrawler מתבסס על Meta Catalog ,Excite ,AltaVista ,LookSmart ו-Internet Keywords. אבל חלק מהנ"ל הצליחו, בנפרד, למצוא דפים שאותם הוא לא הצליח למצוא. המסקנה המתבקשת, והלא מפתיעה, היא שאין ארוחות חינם. בדיקות נוספות אימתו את ההשערה: אף מנוע Meta לא מצליח להחזיר את כל התוצאות שהיו מחזירים בנפרד המנועים עליהם הוא מבוסס.

חזור למעלה
איפה השיר שלי?
אחד מסוגי החיפושים המאתגרים ביותר, הוא של מילות שירים. המלחמה של איגודי זכויות היוצרים באתרים כמו Lyrics.com הפכה את מילות השירים למצרך נדיר, שריח סכנה נודף ממנו. הדרך הפשוטה ביותר לחפש מילים של שיר, היא להקליד את שמו - או שורה ייחודית שכלולה בו - לתוך שאילתת חיפוש של מנוע Full Text כמו אלו שאנחנו בודקים. כדי לבדוק איזה מהמנועים יקצר את דרכנו, לשיר Deacon Blues של להקת סטילי דן, למשל, הקלדנו כשאילתה משפט מהפזמון שלו.

החיפוש

"Call me Deacon Blues"

התוצאות

Google: 49

AltaVista: 21

HotBot: 33

All the Web: 61

Northern Light: 41

Lycos: 61

Vivismo: 101

MetaCrawler: 14

Dog Pile: 66

Mamma: 31

Ixquick: 29

RedeSearch: 66

במציאות, ישנם ככל הנראה קצת יותר מ-50 מופעים מלאים של השיר. ישנם עוד כמה וכמה אזכורים וציטוטים שלו, ו-Google מצא כמעט את כולם. All The Web ו-Lycos השיגו תוצאות טובות קצת יותר. RedeSearch ו-Dog Pile מצאו פחות דפים והציגו יותר כפילויות.

את ההפתעה העיקרית הציג Northern Light. למרות שבעיקרון הוא מתמחה בעיקר במציאת חומרים אקדמיים, הוא הגיש לנו במקרה זה מספר יפה של תוצאות רלוונטיות.

החיפוש הספציפי הזה הדגיש את החשיבות של דירוג ומיון התוצאות. Dog Pile מחפש ב-15 מנועי חיפוש שונים, אבל אינו עושה הצלבה של תוצאות, ולכן קשה להתמצא בתוך ערימת הקישורים שהוא מספק. RedeSearch פועל בצורה דומה, אבל עושה הצלבה יעילה בדרך כלל של התוצאות - כשהוא מצליח. Vivismo, נחשף בקלקלתו, כשניסה לפרק את השאילתה כדי למצוא יותר דפים. אבל הוא פיצה על כך במיון נוח להתמצאות. Vivismo מקבץ את התוצאות בקבוצות לפי נושאים ומשתמש במסגרות כדי לאפשר גישה נוחה לקישורים.

חזור למעלה
והשיר הנשכח שלי?
סטילי דן זה קל מדי. זו להקה ותיקה עם הרבה מעריצים. ניסינו לחפש את מילות "No More Talk", שיר נשכח של להקת Dubstar מלפני מספר שנים. זה מה שמצאנו:

החיפוש

"Please no more talk today"

התוצאות

Google: 4

AltaVista: 2

HotBot: 2

All the Web: 2

Northern Light: 3

Lycos: 2

Vivismo: 2

MetaCrawler: 15

Dog Pile: 16

Mamma: 33

Ixquick: 1595

RedeSearch: 2

קשה להניח שיש דף נוסף מלבד ארבעת הדפים שמצא Google, בהם מילות השיר הזה מופיעות. הקרוב ביותר אליו מבחינת ההצלחה היה Northern Light. האחרים הצליחו למצוא רק חלק מהעמודים, או שהציפו אותנו בתוצאות לא רלוונטיות. הגדיל לעשות Ixquick, מנוע מוצלח בדרך כלל, שמצא 1,595 עמודים שונים. כמובן, התוצאות הללו התקבלו מחיפוש של חלק מהמילים, משום ש-Ixquick לא הצליח למצוא את הדפים האמיתיים - או שאולי כן, ופשוט אי אפשר למצוא אותם בתוך כל הזבל. Vivisimo עשה כמעט אותו הדבר, אבל בתוצאות הממויינות שלו לא התקשינו לגלות את השתיים הרלוונטיות. מנועי ה-Meta הציגו תוצאות דומות למנועים הרגילים, עם הרבה כפילויות. היחיד שהצליח לבצע סינון יעיל היה RedeSearch.

חזור למעלה
אופס, טעינו
לקראת סיום, כמחווה לחפשנים הגדולים בהיסטוריה, החלטנו לחפש את המשפט הנצחי מתוך הסדרה "מסע בין כוכבים". מכיוון שיש לנו זיכרון גרוע ואנגלית קלוקלת, טעינו במשפט:

החיפוש

"this is the voyages of the starship enterprise"

התוצאות

Google: 970

AltaVista: 1

HotBot: 1000

All the Web: 0

Northern Light: 268

Lycos: 0

Vivismo: 59

MetaCrawler: 18

Dog Pile: 26

Mamma: 11

Ixquick: 100

RedeSearch: 79

ל-Google אין ממש בעיה עם אנשים שלא יודעים דקדוק אנגלי. הוא ניסה ווריאציות על השאילתה שלנו והעלה מספר יפה של תוצאות. HotBot עשה דבר דומה, והעלה מספר נאה לא פחות של תוצאות, שמתוכן ניכר האחוז הגדול בהרבה של תוצאות לא רלוונטיות. Northern Light הצליח לאתר חלק מהעמודים. שאר המנועים, כולל AltaVista למשל, פשוט לא ידעו מה לעשות עם זה.

חזור למעלה
והפעם, כמו שצריך
חזרנו על החיפוש, הפעם כמו שצריך:

החיפוש

"these are the voyages of the starship enterprise"

התוצאות

Google: 779

AltaVista: 441

HotBot: 1000

All the Web: 504

Northern Light: 441

Lycos: 505

Vivismo: 189

MetaCrawler: 22

Dog Pile: 467

Mamma: 15

Ixquick: 441

RedeSearch: 89

כפי שאפשר לראות, ל-HotBot ממש לא משנה מה אנחנו מחפשים. הוא תמיד מחזיר תוצאות, בלי יותר מדי קשר לשאילתה. איך נפלו גיבורים. MetaCrawler, מראשוני מנועי ה-Meta, השיג תוצאה מביכה, אבל בדרך אחרת. Google עדיין בראש הטבלה, ועיון ברשימה שלו גילה כמה תוצאות מפתיעות לטובה, שקשורות לנושא ולא מכילות את המשפט.

חזור למעלה
מסקנות
מה שאנחנו יכולים ללמוד באופן ספציפי מההבדל בין התוצאות של שני החיפושים האחרונים, הוא קודם כל ש-Google הוא המנוע העמיד ביותר בפני טעויות. זה חשוב כשאתה ישראלי.

דבר שני שנוכחנו בו, הוא שמנועי ה-Meta תלויים לחלוטין במנועים הרגילים, לא מציעים יתרון משמעותי עליהם ובאופן כללי הם מבזבזי זמן. אם כבר להשתמש במנועים הללו, כדאי לבחור בין Ixquick לבין RedeSearch. הראשון מדרג בצורה טובה יחסית את התוצאות. השני מבצע הצלבה וסינון יעילים יותר של התוצאות שהתקבלו מהמנועים האחרים. הוא גם שמרן יחסית, ומפיק פחות תוצאות לא רלוונטיות.

עוד דבר שלמדנו, הוא שגם כשהכיסוי שמציע מנוע מסוים גבוה יחסית, אין זה אומר שקל להשתמש בתוצאות שהוא מספק. בהרבה מקרים זה אומר שכדאי לנטוש את Google, שרמת הכיסוי שלו היא בדרך כלל הגבוהה ביותר, לטובת מנוע חיפוש שעושה עבודה טובה יותר בסינון ומיון התוצאות.

אפשרות אחת היא להשתמש ב-Northen Light, שממיין את תוצאות החיפוש לפי מקורות, כך שאם לאתר אחד יש מאה מופעים לא תבזבז עליו פי מאה זמן. אפשרות שנייה היא להשתמש ב-Vivisimo, שהקטגוריות שלו הן אוצר אמיתי.

ומה קורה כש-Google לא מוצא משהו? All The Web ,Northen Light ו-Lycos הוכיחו עצמם כבעלי הכיסוי הטוב ביותר אחרי Google. מכיוון שהחפיפה לא מושלמת, כדאי לחפש באחד מהם. כשרוצים לחפש במספר מנועים במקביל, ולקבל את התוצאות בצורה נוחה בחלונות נפרדים, המנוע האידיאלי לשם כך הוא Go Get Them. הוא עושה דבר דומה לשאר מנועי ה-Meta, רק שזה גם עובד, וגם אפשר לבחור במה לחפש.

חזור למעלה
לפנייה לכתב/ת
 תגובה חדשה
הצג:
אזהרה:
פעולה זו תמחק את התגובה שהתחלת להקליד
איזה מנוע עושה את זה הכי טוב?
מומלצים