מדריך גוגל על מנועי חיפוש

תרגום חופשי לעברית של "Google 101: How Google crawls, indexes, and serves the web"

כשאדם מבצע חיפוש דרך מנוע החיפוש של גוגל, הוא נתקל כמעט מיידית ברשימה של תוצאות שתואמות את צרכיו. כיצד גוגל יודעת אילו תוצאות להציג לאותו אדם?

במונחים פשוטים, חישבו על הרשת כעל אנציקלופדיה ענקית שמכילה כמויות (כמעט) אינסופיות של מידע, ובסופה קיים מפתח עניינים (index) שמסודר עפ"י מונחים ומפנה אותך לכל העמודים המתאימים שמתייחסים לאותו מונח.

כל מנוע חיפוש גדול משתמש במפתח עניינים אחר. כאשר אותו אדם מסויים — נקרא לו דביר — מבצע חיפוש דרך גוגל, מנוע החיפוש של גוגל בודק את מפתח העניינים שלו ומחזיר ("מגיש") את התוצאות שמופיעות שם, ממויינות עפ"י חשיבות.

ישנם שלושה תהליכים מרכזיים שצריכים להתרחש ע"מ שדביר יוכל לגלות את האתר שלך דרך מנוע החיפוש של גוגל:

1. זחילה: האם גוגל מודע לקיומו של האתר שלך? האם ניתן למצוא אותו?

2. מפתוח (הכנת אינדקס): האם גוגל מסוגל למפתח את האתר שלך?

3. הגשה: האם האתר שלך מכיל תוכן איכותי ושימושי שרלוונטי לחיפוש של דביר?

זחילה

זחילה היא התהליך שבו אפליקציות מיוחדות שנקראות זחלנים מגלות אתרים חדשים או אתרים שעברו עדכון, ומוסיפות את אותם אתרים למפתח העניינים של גוגל.

גוגל משתמשת במערך גדול של מחשבים ע"מ לזחול דרך מיליארדי דפים ברשת. האפליקציה שרצה על גבי כל אותם מחשבים נקראת Googlebot, והיא משתמשת באלגוריתם מסובך שמחליט לאילו אתרים לזחול, באיזו תדירות, ומה למפתח באותם אתרים.

תהליך הזחילה של האפליקציה מתחיל עם רשימה ראשונית של כתובות רשת (URLs), שהתגלו בזחילות קודמות, ואל רשימה זו מצטרף מידע ממפת האתר (Sitemap) של אותם אתרים. כאשר אפליקציית הזחלן מבקרת בכל אותם עמודים, היא מאתרת קישורים (Links), עוקבת אחריהם לעמודים נוספים, וככה מגלה עמודים חדשים, שינויים לעמודים קיימים, או עמודים שנעלמו (dead links) — וכל המידע הזה משמש לעדכון מפתח העניינים הענק של גוגל.

גוגל אינה מקבלת תשלום ע"מ לזחול דרך אתר כזה או אחר בתדירות כזו או אחרת, ומקפידה לשמור על הפרדה בין שירות החיפוש של החברה לבין שירות המודעות בתשלום (AdWords).

מפתוח

כאשר מגיעה אפליקציית ה Googlebot לעמוד מסויים, היא מכינה אינדקס של כל המילים המופיעות באותו עמוד, עפ"י השכיחות שלהן, ועפ"י מיקומן בעמוד. בנוסף, האפליקציה מכינה גם אינדקס של מידע הקיים בקוד של העמוד אבל אינו מופיע בהכרח על המסך, כדוגמת תגית ה Title ומאפיין ה Alt של תמונות. באופן כללי, Googlebot מסוגל "להבין" ולאנדקס את מרבית סוגי התוכן שקיימים ברשת, אם כי תוכן דינמי כגון אנימציות Flash לא תמיד ניתן לקריאה ולאינדוקס ע"י Googlebot.

הגשת התוצאות

בסופו של דבר, כאשר דביר מקליד שאילתא למנוע של גוגל, השרתים של החברה סורקים את מפתח העניינים ומגישים בחזרה את התוצאות –שגוגל מאמין– שהן הכי רלוונטיות לצרכים של דביר. הרלוונטיות של כל עמוד נקבעת עפ"י למעלה מ 200 גורמים, כאשר אחד מהם הוא ה PageRank שגוגל מקצה לכל אתר.

PageRank הוא מדד לחשיבות של עמוד מסויים בהתבסס על הקישורים הנכנסים שלו (כלומר, בהתבסס על אתרים אחרים שמקשרים אל אותו עמוד). במילים אחרות, כל קישור שמוביל לעמוד באתר שלך ומגיע מאתר חיצוני מעלה את ה PageRank של האתר שלך. עם זאת, לא כל הקישורים הנכנסים הם בעלי משקל זהה. גוגל עובדת קשה ע"מ לזהות קישורי זבל שמנסים להטות באופן מלאכותי את התוצאות. בשורה התחתונה, הקישורים הטובים ביותר הם אלו שאתה מקבל כתוצאה מאיכות התוכן שלך.

שתפו:
  • TwitThis
  • Digg
  • StumbleUpon
  • del.icio.us
  • Facebook
  • LinkedIn
  • email
  • Print