איך פייסבוק, גוגל ומיקרוסופט מפענחות את התמונות שלנו?
תיוג אוטומטי בתמונות פייסבוק היא תופעה שהחלה לאחרונה ברשת החברתית, אך מהווה ניצנים ראשונים של הנגשת המחשוב הלומד ופענוח מידע מתמונות בכל רחבי הרשת. ביצענו סקירה היכן ניתן להפיק את מירב התובנות מהתמונות שנעלה לרשת ולכבוד חג הפסח בדקנו היכן תצליחו לזהות חמץ בעזרת צילום פשוט
התופעה ה"חמה" בעולם ה-Big Data וה-Machine Learning (בקיצור ML) היא הפקת תובנות ממידע בלתי מובנה. הכוונה למאגר נתונים שאין לו מבנה ותוכן מוגדרים, למשל, קבצי אודיו, סרטונים ותמונות. הדבר משפיע עלינו כגולשים כי כעת תהליך הפקת התובנות מהמידע שנעלה לרשת יותר פשוט מבעבר ולא חייב להכיל טקסטים או תיאורים מילוליים על מנת שהמחשב יבין מה רצינו.
ענקיות האינטרנט משקיעות משאבים רבים באלגוריתמים שתפקידם לחלץ כמה שיותר תובנות מאותם בסיסי מידע עצומים. הפקת תובנות בצורה נכונה תוביל לשיפור חוויית המשתמש ולרוב גם על הפרסום שיופיע לצד התוכן. גוגל עושים את זה על כל האינטרנט, פייסבוק מבצעים את זה על תכני הגולשים. מיקרוסופט היו מהראשונים שעשו שימוש מסחרי בהפקת תובנות ממידע ויזואלי עם קונסולת Xbox ובקר המשחקים Kinect עוד משנת 2009.
בכתבה נדגים איך אפשר לדלות פענוח מהתמונות שלנו בפייסבוק, גוגל ומיקרוסופט ונסקור איפה קיים אלגוריתם ה-ML עם הפענוח הקולע ביותר לסיטואציה.
פייסבוק:
בדיקה פשוטה בפייסבוק מציגה איך הם מזהים אובייקטים ומתארים תמונות שגולשים מעלים לרשת החברתית - ההסבר המלא של הבדיקה מופיע בסרטון המצורף. התיאור שמוצמד לכל תמונה נע מזיהוי של כמות אנשים במסיבה ועד לרזולוציה של זיהוי ילד מחייך בגינה ציבורית. התיאורים הפשוטים המלווים את התמונות משפיעים בין היתר על סוגי התכנים שנראה ברשת החברתית ועוזרים להעשיר את אלגוריתם הפיד. ניתן לראות את התיאור לכל תמונה שאנחנו נחשפים אליה בפייסבוק בין אם היא שלנו, של חברים, מתוך עמודי אוהדים וקבוצות.
גוגל:
בגוגל לקחו את העניין כמה שלבים קדימה ומעניקים את שירות ה-ML לכל מי שחפץ ליישם זאת באתרים ואפליקציות משלו, כלומר, האלגוריתם יעבוד גם מחוץ לרשת האתרים של ענקית החיפוש. השירות שגוגל חשפו לאחרונה, Cloud Vision, מעניק הצצה ליכולות הפענוח עם הדגמה פשוטה, אתם מעלים תמונה ומקבלים פרשנות במספר מישורים: זיהוי מצב רוח, טקסטים, לוגואים, אזכורים ברשת ותמונות דומות.
הקישור לשירות פענוח התמונות של גוגל: cloud.google.com/vision
כך למשל בגוגל זיהו שהתמונה הבאה צולמה במגרש ספורט עם קהל ושהמצולמים מרכיבים משקפיים.
מיקרוסופט:
השירות של מיקרוסופט בשם Computer Vision, בדומה לשירות שגוגל מציעים, ניתן ליישום באתרים ואפליקציות חיצוניות. באתר שהוקם לשירות תוכלו להעלות תמונה שלכם או לבחור תמונה מתוך מאגר מוכן מראש ולבחון את האלגוריתם.
הפרשנות שקיבלנו לתמונות הייתה לרוב מלווה בתיאורים כלליים לסיטואציה המצולמת (כפי שמובא בדוגמה בהמשך), אך בשונה מגוגל ופייסבוק, בשירות של מיקרוסופט קיים פענוח מגדר וגיל של האנשים המצולמים.
כאן הקישור לשירות במיקרוסופט: microsoft.com/cognitive-services/en-us/computer-vision-api
במיקרוסופט הפרשנות לתמונה הייתה כללית מידי - תיאור בסיסי מאוד: "אדם עומד לפני קהל". גם בשערוך הגילאים הייתה סטייה יחסית גדולה, אך פענוח המגדר עבר בהצלחה.
לסיכום:
מהבדיקה שעשינו עולה שפייסבוק עם התיאור הקולע ביותר לסיטואציה של תמונות אישיות. גוגל ומיקרוסופט מזהים לרוב תמונות שלקוחות מרחבי הרשת וצילומים של מפורסמים. לגוגל קיים יתרון נוסף בזיהוי טקסטים ועצמים מתוך תמונות.
לקראת פסח ביצענו בדיקת חמץ ומצה בכל אחת מהמערכות שסקרנו. הבדיקה היחידה שעברה בהצלחה הייתה בגוגל, עם זיהוי מלא של האובייקטים המצולמים.
בפייסבוק הזיהוי הגיע לרזולוציה נמוכה של "מוצרי מזון" ומיקרוסופט זיהו רק את פרוסת הלחם.
בעקבות פתיחת יכולות הפענוח למפתחי צד שלישי, אולי עד פסח הבא תהיה אפליקציית זיהוי חמץ יהודית ייעודית. עד שזה יקרה - להלן ההשוואה המלאה: