זחילה (crawling) של מנועי חיפוש – חייהם הנסתרים והדינאמיים של זחלני מנועי החיפוש

13005

googlebot

זחלני חיפוש הם תוכנות מחשב אשר סורקות באופן תדיר את רשת האינטרנט, ונותנות תמונת מצב עדכנית של אתרים בעיקר עבור מנועי חיפוש, אך לא רק.

לזחלנים יש שמות רבים; רובוט חיפוש, bot, עכבישים, זחלני רשת, crawlers ועוד. זחלן החיפוש של google נקרא googlebot.

הסקירה  נעזרה בחומרים המועילים  של עופר לנגר 

 

 

keyword in green 2012

מנועי חיפוש מגדירים לעצמם ״מדיניות זחילה״ :Crawling policy

 

  • מדיניות ברירה (selection) אילו דפים/חומרים לסרוק ו״לאנדקס״.
  • מדיניות ביקורים חוזרים- (visit-re ) באיזו תדירות יש לסרוק כל דף ודף
  • מדיניות נימוס (politeness -) האופן שבו הרובוט סורק את האתר מבלי לפגוע בפעולתו
  • מדיניות ״מיקבול״ (parallelisation -) האופן בו המשימה מתחלקת על פני מעבדים רבים מבלי שיווצרו הורדות כפולות של אותו החומר

מקור: דר׳ שוקי וולפוס,

Crawlers  – הצלחות וכשלים

crawlers 2

הזחלנים מתוכנתים בצורה כזו שיחקו את התנהגות הגולשים, על מנת שמנוע החיפוש יצליח להבין עד כמה שאפשר את גולשיו, ובהתאמה יציג להם את התוכן הרלוונטי האיכותי ביותר ברשת בהתאם לביטוי המפתח שהקלידו. יחד עם זאת, עדיין מדובר בתוכנות ולא בבני אדם, ולכן יש מספר פונקציות שהם מתקשים לבצע, כמו למשל ניתוח תמונות וקטעי וידאו, פיענוח קול וקריאת אתרים מבוססי פלאש.

אדון  Googlebot של גוגל

"איך גוגל מחזיר 22,100,000 תוצאות ב-0.7 שניות?" אז התשובה לכך דיי פשוטה בסך הכל (רק התשובה, מה שעומד מאחרי התשובה מאוד מסובך…). גוגל שולחים את "אדון Googlebot " לסרוק כל דף אינטרנט שהוא מזהה .

Googlebot   הוא זחלן (Crawler), או "העכביש" של גוגל, שסורק את דפי האינטרנט לצורך אינדוקסם במנוע החיפוש. אינדוקס משמעו הופעה במנוע החיפוש. לא כל דפי האינטרנט נסרקים על ידי גוגל, אך אלה שכן – מופיעים אי שם בתוצאות החיפוש.

איך גוגל מזהה דף אינטרנט לצורך אינדוקס? ובכן, בכמה שיטות ודרכים – דף שמתחילים לקשר אליו אתרים שכבר נסרקו זוהי דרך אחת. בנוסף, אפשר "לאלץ" אותו לסרוק דף או אתר שלם באמצעות Google Webmaster Tools.

לאחר שהדפים נסרקים ע"י Googlebot הם נשמרים ב-Cache (זיכרון מטמון) של גוגל. קאש, או זיכרון מטמון, הוא למעשה מאגר מידע שנשמר במאגר נתונים. ישנו גם Cache בדפדפן האינטרנט שלכם, אשר שומר את הדפים בהם ביקרתם, ובביקור הבא הדפים נטענים מהר יותר, על בסיס אותו Cache. כך גם קורה עם גוגל. הוא שומר את כל נתוני האתר ב-Cache ובכך שולף אותם במהירות ( מקור) .

מדיניות הזחילה של גוגל

crawlers 4

מנועי חיפוש זוחלים באופן קבוע באינטרנט באמצעות זחלנים (crawlers). המטרה שלהם היא לגלות דפים חדשים ברחבי האינטרנט, על מנת להוסיף אותם לאינדקס. שיטת הזחילה השתנתה לאורך השנים מספר פעמים, והתייעלה עם ההתרבות האדירה בדפי האינטרנט. לכן, כיום גוגל ומנועי חיפוש אחרים עושים מאמץ לאנדקס דפים שנראים חשובים בעיקר לפי ה-pagerank שלהם. לא מדובר על הציון שהיינו רואים בסרגל הכלים של גוגל, אלא על הציון שגוגל עצמם נותנים לדף. ציון זה היה אמור להשתקף בסרגל הכלים, אך כמעט אף פעם לא היה מעודכן, עד שגוגל החליטו להסירו לחלוטין. בכל אופן, הציון עדיין קיים מבחינת גוגל, פשוט לא נגיש לנו יותר.

רבים טועים לחשוב שגוגל מגיע לזחול באתר שלהם מדי שבוע, שבועיים או חודש, ולכן חשוב לבצע שינויים בפרקי זמן אלו בכדי שכשיגיע, נהיה מוכנים לזחילה. למעשה, גוגל מגיע לזחול באתר מדי כמה שניות/דקות. עם זאת, הוא לא מאנדקס בקצב הזה בדיוק מסיבת דירוג החשיבות שהזכרתי קודם. קצב האינדוקס שלכם יעלה אם גוגל יזהה שהאתר מתעדכן בקצב מהיר, עם תוכן איכותי ורלוונטי. לדוגמה, אם הבוט מגיע לאתר מסויים, משווה גירסה קיימת לגרסה השמורה אצלו ומזהה שאין שינוי, פעם אחרי פעם, גוגל יחל להגדיל את מרווחי הזחילה והאינדוקס בהתאם. לעומת זאת, במקרה של אתרי חדשות, לדוגמה, גוגל עשוי לעיתים לאנדקס דפים בכל כמה שניות, משום שבכל פעם שהבוט מגיע לזחול בדפים, הוא מזהה תוכן חדש. זאת, בצירוף מדד הפופולריות של האתר, מסמנים לגוגל שיש לאנדקס ולסרוק את האתר בתכיפות מאוד גבוהה.

crawlers 2

תקצוב זחילה לכל אתר ואתר 

בכל פעם שגוגל מגיע אל האתר שלכם, הבוט מתחיל לזחול, משווה גרסאות של דפים ומוריד דפים חדשים שמצא. כל דף שהוא מוריד, משתמש בכמות מסויימת של רוחב פס. כאשר רוחב הפס המוקצה לאתר נגמר, הבוט מפסיק לזחול וממשיך הלאה. השם המקצועי של התהליך הזה הוא Crawl Budget. ככל שהאתר שלכם יהיה נגיש יותר, מהיר יותר ובעל תוכן איכותי יותר, 'תקציב' רוחב הפס שהוקצה לכם ינוצל טוב יותר. מלבד העובדה שמהירות האתר מהווה פקטור בדירוג, ברור לכל שכשהאתר יהיה מהיר יותר, יותר דפים יהיו נגישים לגוגל בכל זחילה, וכך יותר דפים יאונדקסו, מה שיגביר את הסיכוי לכך שיותר דפים מהאתר שלכם יופיעו בדירוג תוצאות חיפוש עבור מגוון ביטויים. לבסוף, כל זה מתורגם לעלייה בתנועה האורגנית לאתר.

מקור וקרדיט : בן אורן

לסיכום : תקציב זחילה של גוגל הוא כמות הפעמים או מספר העמודים שגוגל מקצה לזחילה באתר.

תקציב זחילה נקבע לפי מידת הסמכות של האתר, ויחד עם זאת נוטה להשתנות פרופורציונאלית לכוח של העמוד. אם למשל גוגל תזהה שיש הרבה מאד קישורים לעמוד מסוים, אזי היא תגיע אליו מספר רב יותר של פעמים ביחס

לעמודים אחרים שמקושרים פחות ואולי אף נמצאים במקום עמוד יותר בהיררכיה של האתר.

 תעדוף הזחילה ע"י הCrawlers

tags (1)

הזחלנים , במיוחד אלו של גוגל מעדיפים אתרי תוכן שיש בה מבנה שיטתי המבוסס על קטגוריות תוכן , תגיות נושא  (tagging and keywords) ומפות XML . אתר תוכן שדואג לתייג כל פריט מידע בקטגורייה ברורה , ברשימת תגיות/מילות מפתח יקבל עדיפות בביקורים השוטפים ובמקרים רבים גם בהצגת התוצאות הרלבנטיות בחיפוש עצמו .

כך לדוגמא , האתר "רגעים היסטוריים " המבוסס על מילות מפתח וקטגוריות זוכה לאינדוקס גבוה והרלבנטיות שלו בחיפוש מאד גבוהה.

דוגמא נוספת לאתר תוכן הזוכה לתעדוף גבוה ע"י הזחלנים של גוגל  הוא פורטל הגורם האנושי , המתייג כל פריט מידע הן בקטגוריות תוכן קבועות וברורות והן באמצעות מילות מפתח ובנוסף מפת XML  טובה.

ומה לגבי מנועי חיפוש אחרים כגון בינג ויאהו ?

גם למנוע החיפוש BING של מיקרוסופט יש זחלן ייעודי הידוע בשם Bingbot . הוא פחות מתוחכם מאשר הזחלן של גוגל אבל הוא הולך ומשפר כל הזמן את יכולות הלמידה שלו , בעיקר לגבי תמונות וחומרים ויזואליים , ולכן בחיפוש תמונות אנו נוטים יותר להשתמש בבינג וגם בYAHOO ופחות בגוגל .

הזחלן של BING גם יעיל למדי מבחינת האינדוקס של פריטי המידע ברשתות חברתיות כגון פייסבוק .

ראה גם : What are the SEO differences between Google and Bing? – …

ראה גם :Difference Between the Google and Bing Algorithm

bing

 

· · ·

תגובות

כתוב תגובה

האימייל לא יוצג באתר. שדות החובה מסומנים *