שתף קטע נבחר

 

פותחה תוכנה שמזהה את מין הכותב

תוכנה חדשה לניתוח טקסטים מתיימרת לקבוע האם הכותב הוא גבר או אשה. בקרוב תדע התוכנה לנתח ציוצים בטוויטר וסטטוסים בפייסבוק

<< ניסיון להביא לסיום המשבר

 

כעת אנו כבר יודעים שמאחורי הבלוג "נערה לסבית מדמשק" מסתתר גבר, וכי גם הלסבית המפעילה את האתר בו התפרסמו הדברים - היא גבר. תוכנה חדשה לזיהוי מגדרי שפותחה במכון הטכנולוגי ע"ש סטיבנס בהובוקן, ניו ג'רזי, יכולה היתה אולי למנוע את המבוכה.

 

ה-New Scientist מדווח כי התוכנה תוכל לחשוף את זהותם המינית של בלוגרים, מחברי מיילים, משתמשי פייסבוק או טוויטר. כתבי האתר מדווחים כי כאשר הזינו אל התוכנה את הפוסט האחרון שפורסם בבלוג "נערה לסבית מדמשק", התוכנה קבעה כי קיימים 63.2 אחוזים שהכותב הוא גבר.

 

התוכנה, שפותחה על-ידי נה צ'נג ועל ידי ראג'ראטנאם צ'נדראמולי וקודובאיור סאבאלאקשמי, מאפשרת למשתמשים להזין אותה בקובץ טקסט או להדביק לתוך תיבה פסקה בת 50 מילים או יותר. לאחר מספר רגעים, התוכנה מבשרת את פסיקתה: גבר, אישה או נייטרלי. האופצייה הנייטרלית מצביעה על כך שהטקסט הופשט מסממנים מגדריים.

 

לצורך בניית התוכנה הצוות חקר בתחילה מספר רב של כותרות משנה מתוך ארכיון החדשות של רויטרס ושל מאגר הדואר האלקטרוני של חברת האנרגיה פושטת הרגל אנרון. החוקרים תרו אחר גורמים "פסיכו-לינגוויסטים" שזוהו בעבר על ידי קבוצות מחקר אחרות, כמו למשל שימוש במילים או צורות פיסוק ספציפיות.

 

צ'נדראמולי מספר כי הם מצאו בסך הכל 545 גורמים כאלה, אותם הם צמצמו לאחר מכן ל-157 גורמים מגדריים. בין הגורמים ניתן למצוא את ההבדלים בסגנון הפיסוק או שוני באורכן של פסקאות.

 

גורמים מגדריים נוספים שנמצאו, כוללים, למשל, שימוש במילים מסיימות על מנת להביע רגש או הלך רוח, והיקף השימוש שהכותב עושה בהם. לדוגמה, נמצא כי נשים משתמשות באופן נרחב יותר ב"שמות תואר שמביעים רגש חזק כמו 'מקסים או נפלא'". גברים, לעומת זאת, משתמשים יותר מנשים במילה "אני" ונשים מעדיפות יותר מגברים שימוש בסימני שאלה.

 

לבסוף, התכונה שילבה את הרמזים האלו באלגוריתם בייסיני, אשר מנחש את מינו של הכותב בהתבסס על מאזן ההסתברויות המוצע על ידי הגורמים שנמצאו.

 

אך התוכנה לא תמיד צודקת. לאחר שמוזן אליה טקסט, שיפוטה של התוכנה מדויק ב-85 אחוז מהמקרים, נתון שצפוי להשתפר ככל שיותר אנשים ישתמשו בה וידווחו למערכת מתי ניחושה היה שגוי, ובכך יעזרו לחדד את האלגוריתם. גרסתה הבאה של התוכנה תוכל לנתח ציוצי טוויטר ועדכוני פייסבוק.

 

בבדיקה שערך ה-New Scientist לתוכנה, נמצא כי כשהוזנו טקסטים של זוכה פרס הנובל לספרות, ו.ס. נאיפול, שהשמיץ לאחרונה סופרות נשים, התוכנה פסקה כי ישנם 88.4 אחוזים שהכותב הוא גבר. בבדיקה נוספת בה הוזנו הפסקאות הראשונות של הספר "מידלמארץ'" שנכתב על ידי הסופרת מרי אוונס תחת שם העט הגברי ג'ורג' אליוט, מצאה התוכנה כי קיימים 94.6 אחוזי סיכוי שהכותבת היא אישה. אך כשהוזן אל התוכנה אחד מ-14,000 האימיילים של שרה פיילין שנחשפו על ידי ממשלת אלסקה בשבוע שעבר, התוכנה טעתה וקבעה כי קיים סיכוי של 70.77 אחוזים שהטקסט נכתב על ידי גבר.

 

לעמוד הפייסבוק של העין השביעית

 

 

 תגובה חדשה
הצג:
אזהרה:
פעולה זו תמחק את התגובה שהתחלת להקליד
אלגוריתם, נחש מין
צילום: ויז'ואל/פוטוס
מומלצים