זהו את הקשקוש בתמונה - הכל על Captcha
אם נתקלתם בדרישה לזהות טקסט בתמונה קטנה, נתקלתם ב-Captcha. אז איך מבדילים בין אנשים לרובוטים ברשת?
העלילה הבדיונית הזו היא אמנם הרקע לספר "האם אנדרואידים חולמים על כבשים חשמליות?" שעל בסיסו הופק הסרט "בלייד ראנר", אבל רבים מאיתנו ממצמצים, מאמצים את העיניים ועוברים מבחנים בהם אנו מתבקשים להוכיח שאנחנו בני אדם - ברשת. כמעט כל אתר שדורש הרשמה מבקש הוכחה כלשהי שהנרשם אינו רובוט, תוכנה שמטרתה להשתמש באתר כדי לשלוח דואר זבל פרסומי, והדרך הפשוטה היא מבחן CAPTCHA, בו הגולש מתבקש לזהות את המלל המופיע בתמונה שעוותה. המבחנים האלו יכולים להיות פשוטים, אך לעתים קרובות יכול אדם להיכשל בהם רפטטיבית עד שיתהה אולי הוא באמת רובוט.
פשר השם CAPTCHA הוא Completely Automated Public Turing test to tell Computers and Humans Apart – מבחן טיורינג אוטומטי לחלוטין שמבדיל בין מחשב לאדם. אלן טיורינג, מתמטיקאי בריטי, היה הראשון ששם את האצבע על הצורך במבחן שיבחין בין אדם לאינטיליגנציה מלאכותית, כבר בשנות ה-50 - הרבה לפני שפותחו מכונות שיציבו אתגר של ממש מסוג זה. CAPTCHA נחשבת למבחן טיורינג הפוך, מכיוון שמי שמבצע את המבחן בפועל הוא מכונה.
בשנת 2000 פותח מבחן ה-CAPTCHA הראשון על ידי החוקרים לואיס וון אן, מנואל בלום, ניקולס הופר וג'ון לנדפורד מאוניברסיטת קרנגי מלון שבפנסילבניה, ארה"ב. Yahoo הייתה הראשונה ליישמו בשירות המייל שלה, ומאז השתקע היטב באינטרנט.
למה זה טוב?
עם חדירת האינטרנט והדואר האלטרוני לכל בית מודרני נולד הספאם. מדובר בעסק רווחי למדי – עלות שליחת כמויות ענק של דואר אלקטרוני תמיד תהיה זולה ממשלוח פקס, פרסומת מודפסת בדואר רגיל או שיחת טלמרקטינג (גם אם אוטומטית), וגם אחוזי מכירות זעירים עד כדי אפסיים משתלמים לספאמרים.
אבל כדי לשלוח את כל הפרסומות האלו זקוקים הזבלנים להרבה מאוד תיבות דואר, או חשבונות בשירותי מסרים מידיים, מאחר והם נתפסים ונחסמים לעתים קרובות. אין צורך בעובד אמיתי שילחץ על הכפתור ה"שלח" - תוכנות מסוגלות לפתוח הרבה מאוד תיבות מייל ולזבל ולזבל.
לא רק דואר אלקטרוני הוא זירת כריית מידע לוהטת – ללא מבחן האנושיות, חברת תעופה, למשל, יכולה ליצור כלי שבודק באתר המתחרה מה המחיר שהיא גובה עבור כל טיסה ולהוזיל את מחיריה בהתאם. קחו את מנוע החיפוש למספרי טלפון של בזק - אם ניתן היה לסרוק אותו אוטומטית (לא ניתן - יש CAPTCHA), ניתן היה ליצור מנוע החיפוש ההפוך שהתאים שם לכל מספר טלפון שהוקלד בו, שירות שבזק לא מספקת.
CAPTCHA פותר את הבעיה באמצעות בדיקה קלה מאוד, וטכנולוגיה הזו מזכירה לנו שיש מצבים בהם קליפת המוח היא עדיין מכונת חישוב יעילה יותר ממעבד של אינטל.
יש כמה דרכים מסורתיות לעוות תמונות כדי לבלבל רובוטים ותוכנות OCR (ראשי תיבות של Optical Character Recognition, תוכנות המסוגלות לזהות גופן טקסט בתמונה). לרוב מעוותים את האותיות כמו שעונים בציור של סלוודור דאלי, לעתים הן מטפסות אחת על גבי השנייה, בפעמים אחרות מוסיפים קווים קטנים על גביהן, או תמונת רקע רעשנית.
איך לא להבריח את הגולש
כפי שיודע כל מי שנרשם אי פעם לאתר אינטרנט, מבחני CAPTCHA קשים לא רק לרובוטים, אלא גם לבני אדם. האינטרס של כל חברה או אדם המפעילים אתר אינטרנט עם בסיס מנויים, שמרוויח מפרסומות, היא לגרום לגולש להירשם לאתר ולגלוש בו מה שיותר. אבל לא אחת קורה שהמשתמש נתקע בעמוד ההרשמה אחרי שכשל במילוי ה-CAPTCHA, ולעתים הוא מבקש גם מילוי של פרטים נוספים בטופס ההרשמה מחדש, לרוב הסיסמה. לעתים הטקסט מעוות מאוד במידה שמקשה על קריאתו, האותיות דומות מדי זו לזו (L קטנה ו-I גדולה), או שהמספרים נראים כאותיות (האות O והמספר 0).
הפתרון הוא כללים מנחים לכתיבת CAPTCHA ראוי, מה שהביא ליצירת כללים מנחים בלתי כתובים ל-CAPTCHA מוצלחת: לא יותר משש אותיות, ללא שימוש ב-O או 0 כדי למנוע בלבול, אי הבדלה בין אותיות רישיות לקטנות ועוד. אתרי האינטרנט הגדולים מיישמים כללים כאלו כיום, אך באתרים קטנים יותר, שמן הסתם לא מעסיקים מומחי שימושיות במשרה מלאה, עדיין יש מבחני CAPTCHA כמעט בלתי עבירים.
משתמשים לקויי ראייה, עיוורים שנעזרים בציוד מיוחד כדי לגלוש ודיסלקטים מועדים להיכשל במבחנים האלו. לשם כך אתרים רבים מציעים חלופה – מבחן קולי בו מאזינים לטקסט ומקלידים את תוכנו, אך אתרים רבים עדיין לא הטמיעו עדיין מערכת כזו, ביניהם דווקא אתר התשלומים של הביטוח הלאומי הישראלי, הפונה לאוכלוסיות אלה.
בנוסף, אפילו CAPTCHA לא עמידה לחלוטין. המערכת בה השתמשה Yahoo בראשית דרכה, שנקראה Gimpy, פוצחה על-ידי חוקרים מאוניברסיטת סיימון פרייזר שבקנדה, שפיתחו תוכנה שמזהה את המלל בתמונה ב-92 אחוז מהמקרים. אותו האלגוריתם משמש לאיתור פנים של אנשים בתמונות וזיהוי מדוייק של כתבי יד. מאז נפרצו גם מבחנים של המתחרות של Yahoo, מיקרוסופט וגוגל, אך בשיעורי הצלחה נמוכים יותר.
לספאמרים יש דרכים נוספות לדלג על המכשולים הניצבים בפניהם. לפי דו"ח של חברת האבטחה טרנד מיקרו, חברה העוסקת בספאם הקימה אתר בו שובץ משחק פורנו, בו התבקשו הגולשים למלא תמונות CAPTCHA. תמונות לא מפוענחות אלו נלקחו מאתר אליו רצתה חברת הספאם להירשם בכמויות גדולות ובאופן אוטומטי. כל תמונה שהגולש תירגם זיכתה אותו בתמונת פורנו, והחברה המפעילה את האתר קיבלה פענוח חינם להרבה מאוד מבחני CAPTCHA.
יש לא מעט הצעות תחליף ל-CAPTCHA. מבחנים מילוליים קלילים (למשל, אילו צבעים יש ברמזור?) יכולים לעבוד, אבל דורשים השקעה של לא מעט זמן וכסף בחיבור מגוון עצום של שאלות.
אתר מחאה מעניין בשם PWNtcha עוסק במיון סוגי מערכות ה-CAPTCHA הנפוצים בהם משתמשים האתרים והצבעה על החולשות שלהם – זה אמנם עשוי להקל על ספאמרים, אבל מפעיל האתר מאמין כי זה מה שיוכיח שהטכנולוגיה הזו מיותרת.
אולי הפתרון נמצא בדור העתיד של CAPTCHA, פרוייקט בשם reCAPCTCHA, שמייעל את הפטנט בכמה דרכים: ראשית כל, התמונות יעוותו באופן שיקשה עוד יותר על תוכנות ה-OCR, כולל נקודות מסביב לאותיות. בכל תמונה יוצגו שתי מילים - אחת מהן פוענחה כבר ויש להקלידה כדי לעבור את המבחן. השנייה נסרקה מארכיון האינטרנט ופירושה לא ידוע, והגולש בעצם עוזר לפיענוחה. כשפותרים CAPTCHA כזו מקבלים ציון עובר או נכשל, רובוט או אדם - וגם עוזרים לזיהוי מילים חדשות ולקידום הפרוייקט.
הומור CAPTCHA
ספורט אינטרנטי חביב עוסק בחיפוש תמונות CAPTCHA מצחיקות (לדוגמה כאן) באתרים רציניים לחלוטין, לרוב צירופי מקרים שמניבים קללות, עיוותים מופרזים של תמונות ועוד.
יש אתרים שמנסים לבדר את הנרשמים באמצעות מבחני CAPTCHA שהנושא שלהם רלוונטי לתוכן האתר. בסיס הנתונים הקולנועי הוותיק IMDB, למשל, בוחן את הנרשמים באמצעות תמונות מטושטשות ומעוותות הכוללות שמות של סרטים. לעתים קל יותר לזהות מילה אמיתית בתמונה מגבב רנדומלי של טקסט, מה שהופך את השיטה ליעילה.
פתרון יצירתי לסוגיית הקושי בזיהוי האותיות טמון בשימוש ב-CAPTCHA מבוססת תמונות. הנה, לדוגמה, פרוייקט של מיקרוסופט שבודק האם הגולש הוא אדם או רובוט באמצעות מבחן זיהוי חתולים פשוט.
באתר HotCapthca, שילוב בין המבחן המוכר לאתר Hot Or Not, מבקשים מהגולש לבחור שלוש תמונות של אנשים יפים מתוך רשימה. אם בוחרים באנשים המכוערים, מקבלים את הודעת השגיאה – "die, bot, die!"
אחד ממבחני ה-CAPTCHA המשעשעים ביותר בו נתקלנו נמצא דווקא בבלוג של בנימין נתניהו. הסיבה לכך היא באג חלמאי למדי - הטקסט שבתמונה הופיע גם בשם קובץ התמונה (לדוגמה, תמונה בה מופיע הטקסט המעוות a123b נקראה a123b.jpg), מה שעיקר חלוטין את התועלת מהבדיקה ומזמן ספאמרים. הבאג, אגב, תוקן.