کرولر چیست
سلام به سئو یلک خوش آمدید. با هم در این مقاله کرولر چیست آشنا میشویم.
دنیای وب پر از اطلاعات است. اگر به دنبال فهمیدن اطلاعاتی هستید، بهاحتمال زیاد میتوانید
آن را بهصورت آنلاین پیدا کنید. آیا تابهحال فکر کردهاید باوجود میلیاردها سایت،
چگونه پاسخ مناسب به شما نمایش داده میشود؟ چگونه میدانید که باید به کجا مراجعه کنید؟
خوشبختانه، موتورهای جستجو کار پیدا کردن اطلاعات موردنیاز ما را انجام میدهند.
اما موتورهای جستجو از کجا آن اطلاعات را میفهمند؟ چگونه موتورهای جستجو
تعداد اندکی از سایتها و صفحات را از میان میلیاردها صفحه انتخاب و به ما نشان میدهند؟
خزندههای وب یا web crawlers پاسخ همهٔ این سؤالها است.
خزندههای وب یا کراولر، برنامههای کامپیوتری هستند که وب را بررسی میکنند
و همهچیز را میخوانند. خزندههای وب با نامهای دیگری مانند spider، بات،
کراولر و ایندکسکنندههای خودکار شناخته میشوند. این خزندهها صفحات وب را بررسی میکنند
تا کلمات بهکاررفته در آنها را بدانند و بفهمند کجا بهکاررفتهاند. آنگاه این یافتهها را ایندکس میکنند.
ایندکس اصولاً لیست بزرگی از کلمات است که صفحات وب به هرکدام مرتبط شده است.
بنابراین وقتیکه دریکی از موتورهای جستجو کلمهای را جستجو میکنید،
موتور جستجو ایندکسهای مرتبط با آن کلمه را پیدا میکند و لیست صفحاتی که با آن مرتبط است
را به کاربر نشان میدهد. خزندههای وب بهطور منظم وبسایتها را چک میکنند، بنابراین ایندکس آنها همیشه بهروز است.
روش کار کرولر ها و روبات های گوگل
برای شروع خزنده ها یا همان Spider-Crawler نیاز به یک سری URL ها ( آدرس های وب ) دارند
که اصطلاحا به آنها seed گفته می شود . هنگام پردازش این آدرس ها ، لیست لینک ها و آدرس های موجود در صفحات آن ها را گردآوری کرده
و به لیست ابتدایی اضافه می کنند ، در هر بار ورود خزنده ها به یک صفحه وب , برای مشاهده هر لینکی در آن صفحه ،
چه آن لینک آدرس یک عکس از سایت دیگر باشد و چه آن لینک آدرس یک صفحه اینترنتی دیگر باشد
و چه آدرس یک فایل باشد , به ازای هر کدام از آن لینک ها اصطلاحا یک Hit محاسبه و ذخیره خواهد شد .
در حقیقت وقتی یک خزنده وارد سایتی می شود که در آن عکسی وجود دارد که آدرس آن از جای دیگری است
یک Hit محاسبه می شود برای مثال صفحه ای که 4 عکس و 6 لینک در آن می باشد
4 Hit آن مربوط به همان 4 عکس می شود چرا که به ازای آن 4 عکس به آدرس دیگری خزیده شده است
و 6 Hit دیگر مربوط به لینک ها می باشد . پس از هر خزیدن اطلاعاتی که اسپایدر ها جمع آوری نموده اند
به برنامه ای دیگر به اسم Indexer تحویل داده خواهد شد و آن ها هستند که با الگوریتم های گوناگونی
مثل پاندا , پنگوئن و … تمام محتوای جمع آوری شده را تجزیه و تحلیل نموده
و در نهایت به شما جایگاهی در جستجوی یک کلمه کلیدی ویا یک عبارت داده خواهد شد .
شما می توانید این خزیدن ها توسط روبات ها و اسپایدر های گوگل و زمان های خزش آن ها
و مدت زمانی که در سایت شما سپری کرده اند و هم چنین حجم اطلاعاتی را که به Indexer ها
تحویل داده اند را در کنسول گوگل وب مستر مربوط به سایت خود در قسمت Crawl مشاهده نمایید .
ارور یا خطای کرول (Crawl errors) چیست ؟
Crawl errors به خطاهایی گفته میشود که خزنده های گوگل حین بررسی
محتوای یک سایت به آن برمیخورند و در پنل وبمسترتولز نیز به نمایش در می آید.
انواع خطاهای کرول Crawl
از نظر گوگل ، این نوع خطاها به دو دسته اصلی تقسیم میشوند :
خطای سایت Site errors :
در این قسمت خطاهای پیش آمده در سایت شما که از دسترسی به گوگل بات جلوگیری کرده است
نشان داده میشود.یا اینکه سایت به طور کلی قطع شده باشد.
خطای لینک ها URL errors :
این بخش هنگامی که خزنده های دکستاپ یا گوشی های هوشمند موقع بررسی
یک لینک به بن بست رسیده باشند ، نمایش داده میشوند.
بررسی خطاهای سایت Site errors :
از نظر گوگل یک سایت فعال ، هیچ وقت اینچنین ارور هایی نباید داشته باشد .
این ارورها نشان از قعطی زیاد سرور (هاست) ، پایگاه داده DNS ،
یا جلوگیری از روبات گوگل برای بررسی سایت توسط فایل ربات Robots.txt صورت میگیرد.
- اگر در پنل وبمستر تولز عکس زیر را مشاهده میکنید ، یعنی سایت شما در ۳ ماه گذشته
همچین خطایی نداشته است.اگر سایت شما با خطای بالا مواجه شود ،
گوگل بدون در نظر گرفتن بزرگی سایت شما ، به شما در پنل وبمسترتولز هشدار میدهد.
بررسی خطای لینک ها URL errors :
دز این بخش ۱۰۰۰ عدد از هر خطایی که لینک های سایت شما با آن مواجه شده اند را در هر دسته بندی نشان میدهد…
این دسته بندی ها شامل خطاهای زیر است :
- Server error
- Soft 404
- Not found
همانطور که گوگل گفته است ، این بخش در سئو سایت شما بسیار موثر است ،
حتی تعداد بالای خطا در این بخش ها میتواند باعث افت یا حتی حذف جایگاه شما از نتایج جستجو شود.