איך זה עובד: המוח הסודי של גוגל
עשרות אלפי מחשבים המוסתרים באתרים חשאיים ברחבי תבל, נפחי אחסון עצומים ומערכת הפעלה מסתורית, כל אלו מאפשרים לגוגל לשרת מאות מיליוני גולשים מדי יום. הצצה אל מאחורי הקלעים של מנוע החיפוש הגדול בעולם
עם מאות מיליוני שאילתות שזורמות אליו מדי יום מרחבי העולם ומיליארדי דפי אינטרנט שהוא מכסה, גוגל הוא השליט הבלתי מעורער של מנועי החיפוש הרשת.
באופן מפתיע, את העוצמה הזאת לא מנהלים מחשבי-על ממרכז ראשי אחד בגוגלפלקס, מטה החברה בקליפורניה. המוח של גוגל מורכב מעשרות אלפי מחשבים פשוטים המפוזרים במרכזים סודיים ברחבי העולם. ביחד מספקים המחשבים הללו תשובות לכל שאלה של הגולשים.
ראשי גוגל מרבים להתפאר בזמינות התמידית של האתר ומציגים לראווה שלל נתונים על פעילותו. רק את סוד ההצלחה הם לא מוכנים לגלות: כיצד פועל מנוע החיפוש ואיך גוגל מצליחה לספק את הסחורה למאות מיליוני גולשים ביום בלי תקלות ובלי נפילות.
בגוגל יודעים טוב מאוד למה הם מסתירים את המידע הזה. במלחמת ענקי החיפוש, שבה מתמודדת גוגל מול מייקרוסופט ויאהו, המנגנון הזה הוא הנשק הסודי שלה. נשק שסיפק לגוגל רווחי עתק של יותר ממיליארד דולר ברבעון האחרון לבדו.
סריג עולמי
האתגר העיקרי שעומד בפני גוגל הוא אחסון כמות עצומה של נתונים, ושליפה מהירה שלהם כאשר גולש מבצע חיפוש מסויים. בתוצאות החיפוש מופיע הקטע מדף האינטרנט שבו מופיעות המילים שחיפשתם, אך כדי להציג את הקטע הזה גוגל נאלצת לשמור את הדף עצמו במאגר הנתונים שלה.
למעשה, גוגל מאחסנת בכל רגע נתון מספר עותקים של רשת האינטרנט כולה במחשבים שלה, ושולפת מהם את
המידע הנדרש. הדרך המקובלת להתמודד עם האתגר של גוגל היתה לחבר מספר מחשבי-על ביחד, שאליהם מצורף
מערך יקר ומשוכלל של דיסקים עם נפח אחסון גבוה.
אך בגוגל הגיעו למסקנה שמערכת המבוססת על מחשבי-על היתה עולה לה עשרות מיליוני דולרים, נזקקת לתחזוקה מסובכת ורגישה מאוד לתקלות: מספיק שמחשב-על אחד נופל כדי לשתק חלק גדול מפעילות האתר.
לפיכך, העדיפה גוגל לבנות מערכת שתתבסס על מחשבים אישיים, פשוטים וזולים. כ-60,000 מחשבים כאלו ליתר דיוק. כל שאילתה שמקיש הגולש מתפצלת מיידית לעשרות מחשבים, והנתונים שנשלפים מרוכזים מייד ומוצגים לגולש.
נפח של 40 טרהבייט
לא מדובר במחשבים אישיים במארז ביתי רגיל: גוגל פיזרה ברחבי העולם יותר מ-30 אשכולות מחשבים, שכל אחד מהם מאגד עד 2,000 מחשבים. העבודה עם מערך מחשבים אישיים שאפשר להגדיל בקלות מאפשרת גם להתמודד עם בעיית אחסון הנתונים.
מנוע החיפוש מאחסן מידע מארבעה מיליארד דפים. מכל דף מאוחסנים אמנם רק 10 קילובייט בממוצע, אך כדי לאחסן מידע ממיליארדי הדפים נדרש נפח אחסון עצום של 40 טרהבייט (כל טרהבייט הוא 1,024 גיגהבייט). לשם השוואה, נפח אחסון של דיסק קשיח ביתי ממוצע הוא 80 גיגהבייט בלבד.
חישוב פשוט מעלה, אם כך, שנפח האחסון של גוגל משתווה לזה של מעט יותר מ-500 מחשבים אישיים רגילים. אבל לעבודה על בסיס מחשבים אישיים יש גם חסרונות. מחשבים שכאלה אינם אמורים לספק אמינות גבוהה לאורך זמן כפי שנדרש במקרה של גוגל.
למעשה, מדי יום מתמודדת החברה עם מחשבים שנופלים בגלל תקלות שונות. כדי להתמודד עם חוסר האמינות של המחשבים האישיים, החליטו בגוגל לגבות כל שרת וכל פיסת אינפורמציה - כך שלכל שרת שמאחסן מידע יש 50 שרתים זהים נוספים ברחבי המנגנון הגוגלי.
עדיף היחס בין עלות לביצועים
הדבר הגדיל את מספר המחשבים הנדרש בעשרות מונים, אך מכיוון שמדובר בחומרה זולה - המהלך הזה עדיין משתלם לגוגל. כדי להתמודד עם מחשבים שמושבתים תוך כדי עבודה,
דאגו בגוגל ללמד את התוכנה להתמודד עם הנפילות התכופות הללו, לעקוף את המחשבים שקרסו ולתעל את השאילתות למחשבים הפועלים.
והנה טיפ שרוכשי המחשבים בישראל, שתמיד דורשים מחשב יותר חזק משל השכן, יכולים לקחת לתשומת לבם. כאשר גוגל קונה מחשבים חדשים היא מקפידה לבחור מחשבים המבוססים על מעבד שנותן את היחס הטוב ביותר בין עלות לביצועים - ולאו דווקא את המעבד החזק והמהיר ביותר באותו הזמן.
כך, למשל, אפשר למצוא בחברה גם מעבדי פנטיום 3 לצד מעבדי Xeon המהירים יותר של אינטל.
גוגל XP
ההתמודדות עם נפח המידע העצום חייבה מערכת הפעלה מסוג חדש. כזו שיכולה להתמודד עם אשכול שרתים שמסוגל להגיע גם לנפח אחסון של פטהבייט ומעלה, יותר מ-1,024 טרהבייט של מידע (שווה ערך לכ-13,000 מחשבים ביתיים).
גוגל פיתחה מערכת ניהול קבצים משלה, מעין מיני מערכת הפעלה בשם GFS (כלומר Google File System). המערכת של גוגל מסוגלת להעביר תאי מידע בגודל של פי 16,000 לעומת מחשב אישי ממוצע. מערכת ההפעלה מסוגלת לשלוט על עשרות אלפי המחשבים, לנהל את הזיכרון שלהם בצורה משותפת ולגרום להם לתפקד כמחשב גדול אחד.
בעזרת המערכת הזו, מצליחים אשכולות המחשבים להגיע למהירות כתיבה וקריאה של 2 גיגהביט לשנייה - דבר שעוזר למנוע לספק תשובות לשאילתות במהירות מסחררת. גוגל לא מתנדבת לספק מידע נוסף על מערכת ההפעלה שלה, אבל גולשים עירניים הבחינו בכך שהחברה מעסיקה גם מפתחי מערכות הפעלה ידועים.
ההערכה היא שגוגל פיתחה מערכת הפעלה בסיסית משלה וש-GFS היא רק חלק ממנה. לא מדובר במשהו שמתחרה בחלונות או בלינוקס, אלא במערכת בסיסית שמסוגלת לספק נפח אחסון ואחזור נתונים מהיר במיוחד.
כך פועל החיפוש
לא על מערכת ההפעלה לבדה יתבצע החיפוש: כל אחד מעשרות-אלפי המחשבים שמפעילה החברה ממלא תפקיד קטן במשימה. כאשר משתמש מקיש שאילתה בגוגל, היא מנותבת לאשכול המחשבים
הקרוב אליו גיאוגרפית. מערכת הניתוב יודעת להפנות את השאילתה לאשכול המחשבים המתאים, תוך התחשבות בעומס על כל אחד ממרכזי האשכולות.
כאשר השאילתה מגיעה אל המרכזים, היא נקלטת בשרת מרכזי מבוסס חומרה המנתב אותה אל אחד השרתים המשניים הנקראים GWS (קיצור של: Google Web Server). השרתים הללו אחראים להחזיר את התשובות למשתמשים בסוף התהליך.
כדי לעשות זאת הם פונים אל שרתי האינדקס שמנתחים כל מילה מהשאילתה ושולפים את התוצאות הרלוונטיות שלה מתוך המאגר. את החיפוש בהררי המידע מבצעים מספר מחשבים יחד שמנותבים על-ידי שרתי האינדקס. אחרי שכל התוצאות מאוחדות יחדיו, מחליטים שרתי האינדקס מה הרלוונטיות של כל תוצאה לשאלה הכללית ומסדרים את תוצאות החיפוש על-פי מידת הרלוונטיות שלהן.
התוצאות מועברות לשרתי המסמכים, ואלו שולפים מהדיסקים את הכותרת של כל עמוד אינטרנט שכלול בתוצאות ואת הקטע שבו המילה מאוחסנת. שרתי המסמכים מפוצלים לשרתים שונים שמבצעים את המשימה בו-זמנית.
כאן למעשה מתגלה אחד הסודות של גוגל. כיוון שמיליארדי דפים מאוחסנים, ומכיוון שהשרתים עצמם מוכפלים, יוצא שגוגל מחזיקה בכל רגע נתון מספר עותקים של כל רשת האינטרנט.
לאחר שנשלפו המסמכים המתאימים, חוזרת השאילתה לשרת ה-GWS שבינתיים גם שלף מודעות מתאימות לעמוד ושלח את הטקסט לבדיקת איות. Kקינוח, הופך השרת הזה את כל הנתונים ל-HTML ומציג אותן על המסך.
כוח בלתי מוגבל
לנו, הגולשים, כל העסק נראה פשוט: הצגנו שאלה ובתוך כמה עשיריות שנייה
התקבלו התשובות. אך כדי להבטיח שהעסק יעבוד חלק, מעסיקה גוגל 600 מדעני מחשב שמחפשים ללא הרף דרכים לשפר את מנגנון החיפוש ואת ההתאמה שלו לחומרה כך שהתוצאות יגיעו מהר יותר.
כוח המחשוב הבלתי מוגבל מאלפי מחשבים המחוברים יחדיו מאפשר לגוגל לפתח שירותים שלא היו אפשריים בשום דרך אחרת. זאת הסיבה שגוגל יכולה כיום להציע כמעט כל שירות אפשרי. כך, למשל, שירות הדואר שמעניק גיגה אחסון לכל גולש מתאפשר רק בזכות יכולות האחסון של מערך המחשבים.
כוח המחשוב גם איפשר לגוגל ללמד את מנוע החיפוש לזהות קשרים בין מילים כמו כנסת, ישראל וירושלים. עם הזמן יוכל המנוע להבין יותר ויותר את הטקסט שהוא נתקל בו במהלך הסריקה באינטרנט, ולהציע למשתמשים תוצאות שבנויות יותר על תוכן ולא על התאמות מילים בודדות.