בינה מלאכותית: רשתות עצביות נגד פושעים

כיצד ניתן להשוות תיק שנפתח זה עתה לעשרות-אלפי תיקים קשורים קיימים, שכל אחד מהם עשוי להכיל כמות עצומה של מידע? ייתכן שהפתרון לבעיה זו, ולקשיים דומים לה המציבים אתגר של ממש לטכנולוגיה המשטרתית, נעוץ ברשתות עצביות

ישראל בנימיני, גלילאופורסם: 24.05.05 , 13:16

בימיו של שרלוק הולמס - ובני-דמותו האמיתיים - כמות המידע שנאספה על ידי המשטרה על כל פשע היתה קטנה יחסית: הם אספו בעיקר עדויות ראייה ורישומים (של בתי מלון, חנויות, ספינות וכו'). יוצרו של הולמס, ארתור קונאן דויל (Doyle), היה בין הראשונים שהבינו כי גם עובדות חסרות-משמעות לכאורה, כמו קצת טבק של מקטרת שנמצא באתר הפשע, עשויות להיות המפתח לפענוח הפשע ולהגנה על הציבור מפני הפושע. דויל הראה בסיפוריו גם כיצד ידע רחב - כימי, ביולוגי, גיאוגרפי וכו' - יכול לקשר פיסות מידע שונות ובכך להצביע על כיווני חקירה מבטיחים.

בזמן שעבר מאז, משטרות העולם מצאו את עצמן מתמודדות עם עבריינים בעלי אמצעים שמעבר לדמיונו של דויל, כמו תחבורה מהירה להסתלקות מזירת הפשע, נשק זמין, ופעולות מרחוק דרך תקשורת אנונימית (טלפון, אינטרנט). גם עבירות חדשות נוספו לספר החוקים ולעומס על המשטרה - לדוגמה, שרלוק הולמס נהג להשתמש בקוקאין, כמו דמויות מפורסמות אמיתיות בתקופתו, ובאותה תקופה לא נחשב הדבר כנוגד את המוסר או החוק. התפתחויות מדעיות עזרו למשטרות העולם לעמוד מול השינויים בפשעים ובפשיעה: טביעות אצבעות, ניתוח כימי של ממצאים, זיהוי גנטי של שאריות ועוד. אך התפתחויות אלו עצמן העלו מאוד את כמות הממצאים הנאספים תוך כדי כל חקירה.

פענוח פשעים

בלשית בשירות המשטרה: התוכנה "קרימינה"

עמיר בן-דוד

"קרימינה" היא תוכנה משטרתית שעזרה לחוקרים ללכוד את "אנס המדרגות", שפעל בחיפה. התוכנה ניתחה נתונים שנאספו בזירות הפשע ויצרה פרופיל של הפושע הישראלי: גבר יהודי, רווק, יליד הארץ, סביב גיל 30

בלשית בשירות המשטרה: התוכנה "קרימינה"

לפי ג'ון קינגסטון (Kingston), מהמרכז לסטטיסטיקה משטרתית והסקה חוקית באוניברסיטת אדינבורג שבסקוטלנד, כמות המידע המתויק עבור כל פשע הולכת וגדלה. כמות זו מקשה על החוקרים. באחד מסוגי הקשיים נתקלים אותם בלשים המנסים לקשר פשע חדש לפשעים לא-מפוענחים שנרשמו בתיקי המשטרה: איך אפשר להשוות את התיק החדש לעשרות-אלפי תיקים קיימים, שבכל אחד מהם כמות גדולה של מידע?

רשתות עצביות בשיקגו

באוניברסיטת דה-פול (DePaul) בשיקגו, מדעני המחשב טום מוסקרלו וקאמקל דהבור (Muscarello and Dahbur) פיתחו מערכת תוכנה המבוססת על בינה מלאכותית, שמטרתה לגלות דמיון בין תיקי חקירה של פשעים. תוכנה זו מנתחת מידע שנאסף על ידי צוותים משטרתיים שונים, באזורים גיאוגרפיים רחוקים זה מזה. התהליכים המשטרתיים הרגילים מתקשים מאוד בהצלבת מידע כזה ובמציאת פשעים שייתכן כי בוצעו על ידי אותם אנשים. התוכנה שפותחה באוניברסיטת דה-פול נקראת CSSCP - Classification System for Serial Criminal Patterns - "מערכת סיווג לתבניות פשע סדרתיות".

התוכנה סורקת את המידע שנאגר עבור כל תיק חקירה, ומקודדת כל פריט מידע בצורה מספרית, כמו למשל: סוג העבירה, מידע על העבריין (מין, גיל, גובה), סוג הנשק, סוג הרכב וכו'. צירוף מספרים אלה מוגדר כ"פרופיל הפשע". כמובן, לא כל המספרים ידועים לכל תיק חקירה, ולכן רבים מהפרופילים הם חלקיים. עתה, האתגר הוא לזהות פרופילים דומים שסביר כי הם קשורים לאותם פושעים, כך שהקישור והצלבת המידע יכולים לסייע בפענוח הפשעים.

בבינה מלאכותית, אתגר כזה נקרא "זיהוי תבניות". אחד מהכלים המקובלים ביותר לזיהוי תבניות נקרא "רשתות עצביות" (Neural Networks), שפותח בהשראת מודלים של פעולת המוח. תוכנה הפועלת בשיטה זו עבור סיווג פרופילים של תאי חקירה מבוססת על דימוי (סימולציה) של אוסף של תאי עצב והקשרים ביניהם, כאשר חלק מתאי העצב מופעל על ידי מידע מהפרופיל של המידע הנסקר באותו רגע, ותאים אלה מקושרים לתאים נוספים המחוברים ברשת מסועפת של קישורים. החיבורים בין "תאי עצב" אלה קובעים באיזה מידה הפעלת "תא עצב" מסוים תגרום לעירור, או דיכוי, פעולת "תא עצב" המחובר אליו. רשת בעלת חיבורים נכונים תגיב בהפעלת מספר קטן של תאי עצב, המייצגים את תבניות הפשע המתאימות ביותר לפרופיל הנסקר.

למידה ללא פיקוח

בשימושים המקובלים של רשתות נוירונים, מוגדרות מראש התבניות המעניינות, והמערכת מופעלת בתחילה במצב "למידה", שבו מוזנים לרשת פרופילים שסיווגם ידוע. אם הסימולציה של פעילות הרשת מראה כי הרשת הגיבה לא נכון לפרופיל מסוים, הרשת "תלמד" זאת על ידי שינוי תבנית החיבורים בין תאי העצב. אם בנינו היטב את הרשת ואת תהליכי עדכון תבניות החיבורים, אזי לאחר מספיק ניסיונות כאלה הרשת תתפקד יפה ברוב המצבים האפשריים, כולל כאלה שלא התרחשו בתהליך הלמידה.

מפאת הצורך בשלב של למידה, שבו ידועה התוצאה המבוקשת, תהליך זה מוגדר כ"למידה תחת פיקוח" (supervised learning). הבעיה בכך היא הצורך בהגדרה מראש של התבניות שאנו מחפשים: אם אנו יודעים כי כל שודד, למשל, חוזר על צירוף ייחודי של זמן הפשע עם כלי הנשק וסוג האתר הנשדד, נוכל להגדיר תבנית כזו. דרישה זו נראית מוגזמת עבור העולם האמיתי, שבו אנו מקווים למצוא תבניות חוזרות על עצמן אך איננו יודעים לצפות מראש מה יהיה המשותף לכל התבניןת.

למצבים כאלה נועדו שיטות של "למידה שאינה נתונה לפיקוח" (unsupervised learning). השיטה שנבחרה עבור תוכנת CSSCP נקראת "רשת קוהונן" (Kohonen network) והיא סוג של "מפה בעלת ארגון-עצמי" (self-organizing map). רשתות אלו נקראות על שמו של ממציאן, פרופסור טאובו קוהונן מפינלנד, שתרם רבות לתחום הרשתות העצביות. רשת קוהונן אופיינית מכילה טבלה דו-ממדית של תאים עצביים המשמשים כתאי הפלט: השאיפה היא כי כל תא פלט כזה יובא לרמת פעילות גבוהה רק על ידי קבוצת פרופילים דומים זה לזה, כך שכל קבוצת פרופילים דומים תהיה משויכת לתא פלט ספציפי עבור אותה קבוצה. תהליך הלמידה מתחיל בבחירה שרירותית של משקל עבור הקישורים בין תאי הקלט (המייצגים את הקידוד המספרי של כל פרופיל) לבין תאי הפלט.

כאמור, משקל גבוה לקישור בין תאים גורם להפעלה חזקה של תא הפלט על ידי תא הקלט הקשור אליו. עוצמת ההפעלה עבור כל תא מחושבת על ידי סימולציה של הפעילות העצבית. תהליך הלמידה משנה את משקלותי הקשרים במטרה לחזק קשרים המביאים להפעלה של תאים הקרובים זה לזה בטבלת תאי הפלט. אחרי מספר מחזורי עדכון כאלה, נוצרת "מפה" על טבלת הפלט: כל אזור בטבלה זו מושך אליו חלק מתוך סך הפרופילים. כדי לזהות קבוצה של פרופילים דומים, יש לבחור תא בטבלה ולמצוא אותם פרופילים המפעילים תא זה או תאים שכנים.

תוכנת CSSCP משלבת בתוכה לא רק את הרעיונות של רשתות קוהונן, אלא גם שיטות של ניהול החיפוש שנלקחו מתחום מערכות המומחה (expert systems) ומתוך צפייה בשיטות הפעולה של בלשים אנושיים. מפתחי התוכנה מצאו כי בצוות חקירה, מתמקדים בדרך כלל חברים שונים בצוות באספקטים שונים של התיק: למשל, אחד עשוי להתמקד בדיווחי עדי ראייה בעוד אחר ינסה למצוא את רכב המילוט ששימש את הפושעים. CSSCP מחקה את התהליך על ידי כך שהיא מפעילה רשתות סיווג שונות עבור כל הֶבט של החקירה. חלוקת העבודה הופכת את תוצאות הניתוח מובנות יותר לבלשים, וייתכן שהיא גם מאיצה את זיהוי המקרים הדומים ומפחיתה זיהוי של קישורים הנוגדים את ההיגיון.

הממצאים הראשונים נוטים לאשר את עקרונות התכנון של CSSCP: בניסוי ראשוני, סופקו לתוכנה נתונים שנאספו בשלוש שנים על מקרים של שוד מזוין. התוכנה הצליחה לזהות מספר גדול פי עשרה של קשרים בין מקרים שונים, בהשוואה לצוות של בלשים שלהם הוצגו אותם נתונים.

אבולוציה של פרצופים

בעיה אחרת המוכרת לחוקרי משטרה היא יצירת קלסתרונים דרך ראיונות עם עדי ראייה לפשע. בשיטה המקובלת, מציגים לעד הראייה קטלוגים גדולים של חלקי הפנים השונים: כמאה וחמישים סוגי עיניים, למשל. התמונה מורכבת על ידי בחירת הצורה המתאימה ביותר לכל חלק בפנים. לעתים קרובות, התוצאות אינן משביעות רצון: התמונות אינן מספיק קרובות למציאות. חלק מהסיבה לכך היא כי הבינה האנושית היא חלשה בתיאור פנים לפי הזיכרון. לעומת זאת, כידוע, אנו הרבה יותר מוכשרים בזיהוי פנים המוצגים לנו.

באנגליה פועלות במקביל שתי קבוצות פיתוח המציעות פתרונות דומים לבעיה זו: תוכנות EvoFit ו- EigenFit. כל תמונה המיוצרת על ידי התוכנה מוגדרת על ידי כחמישים פרמטרים שונים. שינוי בפרמטר גורם בדרך כלל לשינוי קטן בתמונה המוצגת: למשל, צבע עור, מיקום האף, או כמות הקמטים. התוכנה מציגה לעד הראייה כעשרה פרצופים שונים הנוצרים בצורה אקראית על ידי בחירת ערכים לפרמטרים אלה.

עד הראייה בוחר מתוכם את התמונה הדומה ביותר לפנים שאותם ראה. בשלב הבא, התוכנה מייצרת כעשרה פרצופים חדשים על ידי שכפול התמונה שבחר העד והכנסת שינויים קטנים בפרמטרים המגדירים תמונה זו. כמו-כן, אם העד סובר כי תכונה מסוימת של הפנים - הפה, למשל - כבר נכונה, התוכנה תפסיק לשנות פרמטרים הקשורים לתכונה זו, "תנעל" את ערכיהם, ותתמקד בשינויים אחרים.

שיטה זו היא למעשה סוג של אלגוריתם גנטי - חיקוי של מנגנוני הברירה הטבעית כדי לייצר פתרונות בתהליך של שיפור מתמיד בדוגמה של הקלסתרונים, העד הוא המפעיל את הברירה, כאשר ה"הישארות בחיים" של כל פרצוף, וההזדמנות ליצור צאצאים לדור הבא, תלויה בשיפוט של העד לגבי עד כמה מדויקת התמונה. הפרמטרים של כל פרצוף הם האנלוגיה למטען הגנטי המועבר מדור לדור, והשינויים של פרמטרים אלה מקבילים למוטציות המניעות את האבולוציה.

לטענת יוצרי התוכנה, מספיקים בין עשרה לעשרים "דורות" עד לקבלת תמונה שהיא מדויקת הרבה יותר מאשר התמונות המושגות על ידי שיטת הקלסתרונים הרגילה. טענה זו נתמכה בכמה ניסויים בהם הושוו השיטות. התהליך החדש הוא גם מהיר יחסית: העד נדרש לראות כעשרה פרצופים ולבחור אחד מהם בכל דור, בהשוואה למאה וחמישים האפשרויות רק עבור בחירת העיניים בשיטה הרגילה.

הכוח ומגבלותיו

רשתות עצביות אינן כלי הבינה המלאכותית היחיד המשמש ללחימה בפשע. שיטות נוספות לזיהוי תבניות משמשות לניבוי גלי פשע. כלים של "כריית מידע" (data mining) עוזרים לחברות ביטוח לגלות הונאות.

למידע על כלי בינה מלאכותית נוספים שפותחו לעזרת המשטרה, לחצו כאן.

כלים אלה מעלים את השאלה אם כוח כזה בידי השלטון אינו יכול להיות מופנה גם נגד פעולות אזרחיות לגיטימיות, ובכך לפגוע בחירויות הפרט ובדמוקרטיה. שאלה זו אינה חדשה: לכל טכנולוגיה משטרתית יש פוטנציאל כזה, גם בכאלו שהופיעו הרבה לפני עידן המחשוב - למשל, זיהוי טביעות אצבעות. חברה דמוקרטית צריכה מצד אחד להגן על עצמה מאלה המתעלמים מחוקיה, ומצד שני לפקח על אותם גופים המגינים עליה.

לטכנולוגיות ממוחשבות כמו אלו שתוארו כאן יש דווקא יתרון מבחינה זו: ככל שגדל כוח המחשוב הזמין לכל אזרח, כך יכול כל אדם - ולאו דווקא אלה החברים ברשויות השלטוניות - לגלות תבניות בכמויות העצומות של מידע הזמין לציבור. גילויים כאלה עשויים להאיר ולחשוף פעולות חריגות.

מצאתם טעות בכתבה? כתבו לנו