הבוטים ששומרים על העברית בוויקיפדיה
מאות אלפי הערכים בוויקיפדיה העברית זוכים לסיוע מסביב לשעון מבוטים שתפקידם לשפר את האיכות הלשונית. איך הם מתמודדים עם "שתי שקל", שגיאות הקלדה ומתי מתערבים העורכים האנושיים?
מערכת הבחירות האחרונה הוציאה שם רע לבוטים – תוכנות הפועלות ברשת חברתית ומחקות התנהגות של אדם, ובכך מטעות את הגולשים האנושיים ברשת. לטיהור שם רע זה אציג את הבוטים הלשוניים של ויקיפדיה העברית – בוטים שהתנהגותם חיובית ביותר (אם כי לעיתים יש לרסן אותם).
הצורך בבוטים לשם תחזוקה של ויקיפדיה נובע מהיקפה העצום. בוויקיפדיה העברית יש יותר מ-240 אלף ערכים, כך שכל פעולת תחזוקה המצריכה מעבר על כל הערכים, למשל לשם שיפור איכותם הלשונית, מוגבלת ביותר: מגיהּ אנושי יכול לשפר ערכים מעטים ביום, אבל שום פתרון אנושי לא יתמודד עם רבע מיליון ערכים.
הגהה מסביב לשעון
בשביל בוט, שאינו אוכל, אינו שותה ואינו ישן, וזקוק רק לזמן מחשב, זו משימה פשוטה. בוויקיפדיה העברית פועלים בוטים למטרות שונות, בהן תיקונים חד-פעמיים בעקבות אירוע מסוים (למשל: תיקון קישורים לאתר ששינה את הכתובות של כל הדפים שבו) ותיקונים שיש לבצע בהתמדה, משום שהם מטפלים בבעיות שחוזרות שוב ושוב.
חלק מהבוטים יובאו לוויקיפדיה העברית מוויקיפדיות אחרות, ואחרים הם פרי פיתוח מקומי של מתכנתי ויקיפדיה העברית. לא להיבהל! עיקר הפעילות בוויקיפדיה היא יצירה של טקסטים ותמונות, שאינה מצריכה כל ידע בתכנות.
להלן נתמקד רק בבוטים הלשוניים, שהם בוטים הפועלים באופן מתמיד ועוסקים בבעיות ייחודיות לשפה העברית. המטרה הראשונה שלשמה גויס בוט בוויקיפדיה העברית היא יצירת אחידות לשונית. ויקיפדיה נכתבת על ידי אלפי כותבים, כל אחד עם צורת הכתיב החביבה עליו, אבל לקורא יש להגיש אנציקלופדיה הכתובה בכתיב אחיד ונכון.
הבוט העברי ואתגר ההחלפות הגדול
מרביתנו כותבים "מוזיקה" ו"פיזיקה" (וכך מורה האקדמיה ללשון העברית), אך יש הרגילים לכתוב "מוסיקה" ופיסיקה". לטיפול בחריגים אלה משמש בוט ההחלפות, המחליף כל מופע של "מוסיקה" (והטיותיה השונות, כגון "מוסיקאי" ו"מוסיקלי") ל"מוזיקה".
זהירות! תחנת הרדיו "קול המוסיקה" קרויה כך כבר שנים רבות, ואל לנו לכפות עליה את השם "קול המוזיקה" – בוט ההחלפות יודע זאת, והוא אינו נוגע בצירוף "קול המוסיקה".
איך הוא יודע? רשימת ההחלפות, שכוללת יותר מאלף החלפות, היא יצירה מובהקת של חוכמת ההמונים. בוויקיפדיה פועל אולם דיונים וירטואלי לנושא זה, שבו עולות הצעות להחלפות, כאלה שמטרתן להביא לאחידות לשונית וכאלה שנועדו לתקן שגיאות כתיב נפוצות.
כל הצעה נבחנת על ידי הוויקיפדים (עורכי ויקיפדיה), שמוודאים שזו החלפה מועילה, והחלפה שאושרה הופכת להוראה לבוט, העובר מדי תחילת חודש על כל ערכי ויקיפדיה ומתקן את הטעון תיקון.
בשונה מבוט זה, הפועל באופן אוטונומי ומשנה ערכים בדומה לעורך אנושי, פועלים גם בוטים שאינם משנים ערכים, אלא מציגים המלצה לשינוי ערכים, וזו נבחנת וממומשת בידי עורך אנושי. ההבדל בין שני סוגי הבוטים נובע מההבדל ברמת האמינות של החלטותיהם.
הצירופים החשודים והעורך האנושי
בוט "שתי שקל" מטפל, כפי שמרמז שמו, בבעיה לשונית נפוצה של חוסר התאמה בין מספר למין דקדוקי. הבוט מתבסס על מילון עברי הכולל מידע ביחס לכל שם עצם האם הוא זכר או נקבה, ובהתאם לכך מוציא רשימת צירופים חשודים, לבדיקתו של עורך בשר ודם.
הבוט יציג את "שלושה קבוצות" השגוי, אך לא יציג את שלושה ארונות" התקין. בניגוד לבוט ההחלפות, המתקן באופן אוטומטי, בוט "שתי שקל" מוציא המלצות לטיפולו של אדם, עקב קיומם של צירופים כמו "שתיים דובים" שאין לתקנם. עם צבירת הניסיון בהפעלת הבוט תתאפשר "העלאתו בדרגה", כך שגם הוא יתקן באופן אוטונומי.
הצירוף השגוי "שתי שקל" כל כך נפוץ באינטרנט העברי, שמנוע החיפוש "גוגל" לא שואל לגביו "האם התכוונת ל: 'שני שקל'", כפי שהוא נוהג במקרים רבים אחרים (כולל מקרים שכלל אינם טעויות).
בדומה לפעולה זו של "גוגל", גם בוויקיפדיה העברית החל לפעול לאחרונה הבוט "תיקון תקלדות בקליק" (תקלדה, בלשון הוויקיפדים, היא שגיאת הקלדה), הסורק את ערכי ויקיפדיה ומאתר בהם מילים החשודות בעיניו כשגיאות כתיב, ומציג אותן עם המלצה לתיקונן (למילה "דוגאמות", למשל, תינתן המלצה להחליפה ב"דוגמאות").
עורך אנושי עובר על המלצות אלה, ובקליק מאשר המלצה (שמתבצעת מיד) או מבטל המלצה, כאשר זו מתגלה כמיותרת או כדורשת תיקון אחר מזה שהומלץ. עם כל הכבוד לבוטים, יש לזכור שמאחורי כל בוט יש מפעיל אנושי המפקח על פעולתו, כך שעדיין רחוק הרגע שבו בוטים ישתלטו על ויקיפדיה.
דוד שי הוא מוותיקי העורכים בוויקיפדיה העברית ושיאן העריכות האנושי בה (לבוטים אחדים יש יותר עריכות מאשר לו)