תוכן עניינים
מהו סורק או crawler ?
המונח הוא כללי ומתייחס לכל קוד או תכנית שנקראים גם רובוטים או סורקים או בוטים וכל תפקידם הוא סריקת וגילוי כל האתרים וכל השינויים באתרים בעולם.
עליהם מפקחת מלמעלה למעלה גוגל.
היא כתבה אותם את אותן תכניות , היא גם שולחת אותן באופנים שונים לבדיקות ולעבודות שונות .
לא רק גוגל מפעילה בוטים.
גוגל בוט או רובוט הסריקה של גוגל.
כשאנו אומרים בשפה פשוטה שגוגל מבקרת באתר אנו בעצם אומרים שבוט כלשהו הופעל על האתר שלנו ובדק אותו.
הבוט של גוגל נקרא googlebot
ניסיון לשלוט בפעולתו של גוגלבוט היא דרך נתונים כמו מטא תג של רובוט והנחיות http של x-robot לפי הדרישות .(חומרה תוכנה ותקשורת נתונים) .
רשימת הסורקים שניתן לחשוף ללא סיכוני אבטחה הם :
- user-agent לרוב בקובץ הrobots.txt , פעולה זו מכתיבה לגוגל מה מבקשים לסרוק ועל מה לשים דגש ולתת תשומת לב.
- APIs-google
- Adsense
- AdsBot-Google Mobile לאנדרואיד ולאייפון בוטים שונים.
- Adsbot-Google איכות המודעות בדסקטופ.
- google-image/1.0 בודק תמונות.
- google-news בודק חדשות.
- google-video בודק סרטונים.
- google-bot בודק הכל כולל בוטים אחרים .
- mediapartners ניידים
- adsbot-google-mobile-aps בודק איכות וכפוף לadsbot .
- google-read-aloud – כבר לא פועל בrobots.txt
- feedfetcher -כבר לא פועל בrobots.txt
לשעבר
google speaker – עשה חלק ממה שעושה היום readaloud.
סוכני משתמש בקובץ הרובוט robots.txt
מה עושה robots.txt במילים פשוטות?
מאפשר המלצה לגוגל מה לסרוק ולבדוק ומה לא.
דוג’ :
User-agent: Googlebot Disallow: User-agent: Googlebot-Image
דוג’ נוספת :
User-agent: Googlebot Disallow: / User-agent: Mediapartners-Google Disallow:
מטא תג בשימוש הסוכנים של רובוט.
דוג’ :
מה זה אומר?
noindex+nofollow לא תמיד ימנעו סריקה.
הסבר קטן על אופן פעולת בוטים מסוימים של גוגל בכל אתר.
נ.ב
רק דוג’ אחת להתנהגות אחת מבין מאות.