פוסט אורח מאת : יניב קימלפלד
יניב קימלפלד כותב בלוג שעוסק במנועי חיפוש מתמחים ומנועים מותאמים אישית. כמו כן, הוא מנהל אתר Wiki שמרכז בתוכו מנועי חיפוש מתמחים שממויינים לפי נושא.
תהליך המחשוב של הספריות האקדמיות בעשורים האחרונים שינה את הדרכים שבהן חוקרים מאתרים מקורות לצורך עבודתם. קטלוג הכרטיסים הוחלף בתכנות לקטלוג ספרים, ושליפה לפי מילת-מפתח בודדת הומרה בחיפוש בוליאני מורכב לפי קבוצה של מילות-מפתח.בנוסף, מאמרים רבים ניתנים כיום לאיתור באמצעות חיפוש טקסט מלא (full-text search).
יחד עם זאת, נראה שחלק מהעקרונות לאיתור של מקורות אקדמיים לא השתנה במהלך העשורים. למשל, זיהוי מילות מפתח רלוונטיות וסריקת מקורות (browsing) לפי נושא או לפי מחבר נותרורלוונטיות גם בעידן הקטלוג הממוחשב. אפילו את המגמה החדשה יחסית של שיתוף מקורות באמצעות פלטפורמות חברתיות (web2.0) ניתן לראות כהרחבה של שיתופיידע בין עמיתים באקדמיה.
בסקירה זו אבחן כלים חדשים לאיתור מקורות, ואת הזיקה שלהם לכלים מהתקופה שלפני עידן המידע. כמו כן, אעסוק בדור החדש של תכנות ביבליוגרפיה שכוללות בתוכן אפשרויות לניהול של מסמכי PDF, כגון: חיפוש טקסט מלא, הדגשה , רישום הערות (annotation) ושיתוף.
שרשור מקורות (Reference chaining)
אחת מהדרכים הקלסיות לאתר מקורות חדשים היאמעקב אחרי המקורות עליהם מתבסס מקור נתון באמצעות סקירת הביבליוגרפיה או הערות השוליים שלו (backward chaining).השיטה הזו, שהצריכה בעבר עבודה רוטינית של חילוץ מקורות ממאמרים ואיתורם בספריה, ניתנת כיום לבצוע בקלות יחסית באמצעות מציג ה-PDF האקדמי Utopia ותוכנת ניהול המקורות (reference Manager) האקדמיים ReadCube.תכנות אלה יכולות להוסיף למראי המקום (reference) במאמרים בפורמטPDF קישורים להורדתם מהרשת. עם זאת, הקישור מוגבל למאמרים שאליהם יש לחוקר גישה ובמקרה של Utopia למאמרים מ-PubMed ו- Dryad(כלומר למאמרים בגישה חופשית בתחום המדעים).כמו כן, התכנות לא יכולות לחלץ מקורות ממאמרים שנסרקו.
למרות שמעקב אחר הפניות במאמרים אקדמיים יכול להרחיב את כמות המקורות שנמצאים בידי החוקר, הוא מוגבל למקורות שנכתבו לפני המקור ממנו הם נדלו.מנועי חיפושאקדמיים מודרניים כמו Google Scholar ו-Microsoft Academic Search יכולים לעשות את הפעולה ההפוכה ולאתר את כל המקורות שמצטטים מקור נתון (forward chaining). כך ניתן לאתר מאמרים שמרחיבים את הדיון שהחל במאמר אותו הם מצטטים.
אגב, בניגוד למנוע של גוגל שמאפשר רק מעקב לפנים, המנוע של מיקרוסופט מאפשר גם מעקב לאחור ואפילו ניווט ויזואלי בגרף הציטוטים (citation graph). כמו כן, מכיוון שלשני מנועי החיפוש האלה יש גישה למאגרים סגורים של פרסומים אקדמיים היכולתלאתר מקורות משורשרים לא תלויה ביכולתשל החוקר לגשת לטקסט המלא של המקורות.
מערכות המלצה (Recommender systems)
מערכת ההמלצה של אמזון, שמציגה בכל דף מוצר המלצה למוצרים נוספים שקונים רכשו יחד עם המוצר הזה, הפכה את השימוש במערכות המלצהבאינטרנט לפופולרי.בהקשר האקדמי, מערכות המלצה יכולות לתת לחוקר כלי נוסף לאיתור מקורות רלוונטיים.
מערכת ההמלצות האקדמית הראשונה שייכת ככל הנראה לגוגל שאפשרו לאתר מאמרים דומים באמצעות לחיצה על הקישור 'related articles'. עם זאת, הראשונים שהטמיעו בדומה לאמזון רשימה של מקורות דומים בדף המאמר היו PubMed ותוכנת ניהול הביבליוגרפיה מנדלי (mendeley).
חלק מתוכנות הביבליוגרפיה לקחו את הרעיון צעד אחד קדימה ובנו מערכות המלצהמותאמות אישית (לדוגמה, מערכת ההמלצות שלReadCube ).מערכות כאלה יכולות לענות על הצורך של חוקרים להתעדכן במאמרים חדשים שרלוונטיים לתחום המחקר שלהם (information monitoring). צורך זה שסופק באופן מסורתי על ידי מעקב אחרי פרסומים בכתבי עת מובילים בתחומם, יוכל בעתיד להתמלא באופן מלא יותר על ידי מערכות המלצה, ככל שאלה יצליחו לזהות באופן מדויק יותר את כיווני המחקר שלהם. יותר מכך, מערכות אלה יוכלו לתמוך במגמה של שיתוף טיוטות מחקר (preprint) באינטרנט, בכך שיאפשרו לחוקרים לאתר את הטיוטות שגם רלוונטיות לכיווני המחקר שהם וגם זכו לפופולריות בקרב חוקרים בתחומים קרובים לשלהם.
אחד מהחסרונות של מערכות מותאמות אישית היא הפגיעה בפרטיות המשתמש. תוכנת ניהול המקורות Docear, אשר מבוססת על העקרון של Don't be evil, לא אוספת נתונים על המשתמשים שלה בברירת מחדל. יחד עם זאת, Docear מאפשרת למשתמשים שבחרו להירשםלקבל באופן שוטף המלצות למקורות חדשים יחד עם הטקס המלאשל אותם מקורות. ההמלצות מבוססות על מפות החשיבה (mind maps )שבנה המשתמש אשר כוללות בתוכן את כל המסמכים וההערות של המשתמש.
אגב, תוכנת הביבליוגרפיה Colwiz מאפשר לחוקר לאתרבספרית המאמרים שלו שלו מילות-מפתח ושמות של חוקרים שחוזרים בתדירות גבוהה ולעקוב אחרי הפרסומים של אותם חוקרים או פרסומים עם אותן מילות מפתח.
שימוש אפשרי נוסף במערכות המלצה הוא עזרה בניהול סדר היום של החוקר.התכנה הביבליוגרפית Qiqqa יכולה להמליץ לחוקר על המאמר הבא לקריאה מתוך רשימת המקורות שלו. אפשרות זו יכולה לחסוך לחוקר זמן וגם כסף במידה וחלק מהמקורות דורשים גישה בתשלום לטקסט המלא.
חיפוש פריט ידוע (Known item search)
לסיום, חיפוש פריט נתון נחשב לאחת ממשימות האחזור הקלות ביותר. הצורך לאתר פריט ידוע בהקשר של מקורות אקדמיים, עולה למשל כאשר חוקר צריך לחפש מאמר שאיתר ב-Google Scholar במאגרים שהספרייה שלו מנויה עליהם או במאגרים בתשלום. חלק מתוכנות ניהול המקורות מאפשרות לאתר באופן אוטומטי את הטקסטהמלאשתואם לפריט ביבליוגרפי בלחיצת עכבר ובכך מקלות על המשתמש אף יותר.
עם זאת, קיימים מספר קשיים באיתור מאמר שפרטיו ידועים מראש. ראשית, שמות מקוצרים (abbreviation) של חוקרים וכתבי-עת יכולים להוביל לשונות בין הציטטות של מקור נתון. שנית, שגיאות בהקלדה או בזיהוי הטקסט על ידי תוכנת ה-OCR פוגמות באיכות של רשומות בבליוגרפית וביכולת לאתר אותן.
לבסוף, כיום מאמרים רבים קיימים ברשת במספר גירסאות,החל מגרסאות שלפני ביקורת העמיתים (preprints) ועד לגרסאות הסופיות. הסיבה לכך היא ,לרוב ,רצון של החוקרים לאפשר לאנשים שאין להם את היכולת לגשת למאגרים בתשלום לגשת באופן חופשי לגרסאות מוקדמות של המאמר, שהועלו לרשת לפני שהזכויות על המאמר הועברו מהחוקר למוציא לאור.
הדרך המדוייקת ביותר כיום לזהות מאמר באופן ודאי היא באמצעות מזהה עצם דיגיטלי (DOI). עם זאת חיפוש פריט בבליוגרפי באמצעות DOI כרוך בשני קשיים: ראשית, רישום של DOI כרוך בתשלום ולכן יש מאמרים שאין להם מזהה דיגיטלי. שנית, לרוב המזהה הדיגיטלי ניתן לגרסה הסופיות של המאמר, אשר לעתים נגישה רק בתשלום.
בעוד שחלק ממנהלי המקורות מאפשרים איתור אוטומטי של הטקסט המלא בדרגה זו או אחרת של הצלחה (למשל Endnote), יש מנהלים שמשתמשים בשילוב של איתור אוטומטי יחד עם חיפוש ידני (לדוגמה Colwiz).
בכיוון השני, יש מנהלים שמחלצים את הפרטים הביבליוגרפיים ממאגרים בבליוגרפיים ידועים (למשל,Sente), בעוד שתכנות כמו מנדלי משתמשות באלגוריתם לחילוץ הציטטה מתוך המאמר עצמו.
ראה גם מאמר קודם של יניב קימלפלד , תמונת הידע המידעני: כל הכלים לאיתור ספרים ישנים …