הגדרת הבעיה
אחת הבעיות הגדולות ביותר בחיפוש מידע במנועי חיפוש ובמאגרי מידע היא בעיית "הרעש", כלומר, קבלת מספר רב של תוצאות לא רלבנטיות.
עודף מסמכים לא רלבנטיים נגרם כתוצאה מכך שמנועי החיפוש מאנדקסים כמעט כל מילה בטקסט ולכן לא נוצרת אבחנה לוגית נכונה בין מילים המבטאות את הרעיון המרכזי במאמר לבין סתם מילים המופיעות בטקסטים אותם סורקים מנועי החיפוש במתכונת של מיפתוח אוטאמאטי. כלומר, כל מילה הופכת להיות מילת אינדקס במנוע החיפוש. לכן , שאילתא ממוצעת במנוע החיפוש של גוגל מכילה אלפי מסמכים/ממצאים. מתוכם אולי 2% הם רלבנטיים.
בעיה זו באיחזור מידע (תחום ההתמחות של חיפוש במנועי חיפוש) ידועה מקמת דנן בספרות המקצועית בתור בעית precision and recall .
הפתרונות
א. שימוש במילות מפתח
במאגרי מידע מקצועיים מנסים להתגבר על כך באמצעות מילות מפתח. כלומר, מקטלגים באופן ידני את המאמרים וקובעים את הנושאים כמילות מפתח מתוך מילון מבוקר ( מה שידוע בתור תיזראוס) .
אבל פתרון זה ישים רק למאגרי מידע מקצועיים (כגון צמתי מידע או פורטל הגורם האנושי או פורטל מס"ע). מנועי החיפוש באינטרנט המבצעים את מלאכת האינדוקס באופן אוטומאטי לא יכולים להתבסס על פתרון כזה. מדוע ? כי קיטלוג באמצעות מילות מפתח מחייב העסקת כוח אדם מקצועי בהיקף גדול מאד .
ב. מיקוד החיפוש עפ"י כותרת
…..ולכן , אנחנו המידענים, בהתמודדות מקצועית עם שאילתות , מנסים דבר ראשון לפתור את בעיית ה"הרעש" העצום בממצאי חיפוש באמצעות טכניקה מסננת של מיקוד החיפוש באמצעות הכותרת ( TITLE) .
הנחת היסוד היא כי כותב המאמר או הכתבה מבטא את הנושא המרכזי שעליו הוא כותב באמצעות כותר (כותרת) משמעותי כלשהו . עקרון זה עשוי להיות נכון במיוחד בסקירות , דו"חות ופחות בכתבות עיתונאיות (לדוגמא , כתבה על מצבו הרפואי של אריאל שרון יכולה לשאת את הכותרת: "שרון בין חיים למוות" ועשויה להטעות בחיפוש , אך מאמר מקצועי של מומחים בעיתון ה"הארץ" ישא את הכותרת הנכונה: על מצבו הנוירולוגי של שרון בעקבות שטף הדם במוחו ) .
מומלץ , על כן , שכל חיפוש במנועי חיפוש באינטרנט ( כגון גוגל , יאהו או MSN ) יתחיל , דבר ראשון בחיפוש מתקדם ויגביל את נושאי החיפוש לכותרת/ TITLE .
לדוגמא : מיקוד החיפוש במנוע החיפוש גוגל
(הקישו על "advanced search" מצד ימין של תיבת החיפוש בגוגל).
( הקישו "חיפוש מתקדם" מצד ימין של תיבת החיפוש בגוגל).
או גשו ישירות למנגנון החיפוש המתקדם :
נושא החיפוש : מצבו הרפואי של ראש הממשלה לשעבר , אריאל שרון
שימו לב !
בשדה מציאת תוצאות (או מצא תוצאות) – "כולל כל המילים " יש לכתוב : "מצבו של שרון "
בשדה או בקטגוריה "מופעים" יש לבחור בטבלה הנגללת פרמטר הגבלה או סינון הנקראים "בכותרת הדף "
האם המאמרים שקיבלתם רלבנטיים ?
….ועכשיו תנסו לחפש את אותה שאילתא בדרך הרגילה והסטנדרטית בגוגל ( חיפוש רגיל) .
האם המאמרים שקיבלתם רלבנטיים ?
התנסויות שלכם (ב')
ועכשיו בדקו ( מיקוד בכותרת הדף, ) בחיפוש מתקדם את השאילתות הבאות :
-
"אשת ראש הממשלה"
- כבשים
- "גיל המורים"
- מנהלי בתי ספר מחייבים
אפשר גם להציב השאילתא בצורה כזו בגוגל :
allintitle: אשת ראש הממשלה
כל אחת משאילתות אלו יש להציב גם ללא מיקוד בכותרת ולדווח בקצרה על ההבדל בתוצאות שקיבלתם .
האם המאמרים שקיבלתם רלבנטיים ?
כלומר , אתם מריצים פעמיים את השאילתא :
פעם אחת ללא מיקוד כותרת ( חיפוש רגיל בגוגל) ופעם שנייה עם מיקוד כותרת (עדיף באמצעות המנגנון של חיפוש מתקדם) .
Pingback: עמי סלנט » תוכן העניינים של האתר
Pingback: מתחת למכסה המנוע : אסטרטגיות חיפוש מידע באינטרנט ובמאגרי מידע | עמי סלנט