کرال باجت چیست؟ ترفندهای بهبود crawl budget

بررسی بودجه خزش (crawl budget) و تاثیر آن در سئو
Avatar
نویسنده: درسا والامقام
سه‌شنبه 16 بهمن 1403
مطالعه: ۲۱ دقیقه ۰ نظر ۱۷ بازدید

بودجه خزش (Crawl Budget)، پارامتری است که تعیین می‌کند صفحات شما با چه سرعتی در پایگاه‌داده گوگل ایندکس می‌شود. اگر صفحات جدید یا تغییرات صفحات قبلی وب‌سایت‌تان، با تأخیر زیاد در نتایج گوگل نشان داده می‌شود، احتمالاً به افزایش کرال باجت نیاز دارید. در این راهنما از بخش آموزش سئو سایت پارس‌پک همراه ما باشید تا مفهوم کرال باجت و اهمیت آن در سئو به‌طور کامل آشنا شوید. سپس با پارامترهای تعیین‌کننده بودجه خزش آشنا شده و مراحل دقیق این فرایند را ببینید. همچنین ضمن ارائه راهکار‌های عملی برای بهبود کرال باجت و اشاره به اشتباهات رایج هدررفت آن، نحوه بررسی این پارامتر و آنالیز گزارش آن را در ابزارهای مختلف یاد بگیرید.

Crawl Budget چیست؟

بودجه خزش (Crawl Budget)، تعداد صفحاتی است که ربات‌های گوگل (Googlebot) می‌تواند در یک بازه زمانی مشخص، بخزد. منظور از خزش (Crawling) فرایندی است که در آن، ربات‌ها اطلاعات صفحات وب را بازدید و جمع‌آوری می‌کند. این فرایند در حالت ایده‌آل منجر به ایندکس (index) شدن صفحات در پایگاه‌داده گوگل می‌شود (به‌معنی نمایش صفحات در نتایج گوگل)؛ اما گاهی ممکن است به دلایلی (مانند کیفیت پایین محتوا یا مشکلات فنی)، ایندکس انجام نشود.
بودجه خزش، نشان می‌دهد که گوگل (یا هر موتور جستجوی دیگری) چه‌قدر زمان و منابع را به یک وب‌‎سایت اختصاص داده‌است. بنابراین، این عدد در وب‌سایت‌های مختلف، متفاوت است. برای مثال فرض کنید یک وب‌سایت ۵۰۰۰ صفحه دارد. میانگین صفحات خزیده‌شده روزانه آن نیز برای مثال ۲۰۰ صفحه است. در این صورت، ۲۵ روز طول می‌کشد تا گوگل کل صفحات را کرال کند و این زمان زیادی است!
حالا فرض کنید همین وب‌سایت با پیاده‌سازی تکنیک‌هایی که پایین‌تر آن‌ها را می‌بینید، کرال باجت را به ۱۰۰۰ صفحه در روز برساند و کل وب‌سایت را در ۱۰ روز کرال کند. به‌این‌ترتیب می‌توان گفت بودجه خزش این وب‌سایت بسیار مطلوب است.
بودجه خزش (Crawl Budget)، تعیین می‌کند که گوگل چه‌قدر برای صفحات ما ارزش قائل است و چه‌قدر منابع را به آن اختصاص داده‌است. میزان این منابع، تعداد صفحاتی را مشخص می‌کند که ربات‌های گوگل (Googlebot) در یک بازه زمانی می‌خزد. این خزش یا کاوش، پیش‌نیاز ایندکس شدن (Indexing) صفحات در پایگاه‌داده گوگل و بعد رتبه‌بندی آن‌ها است. پیاده‌سازی چند تکنیک و اجتناب از چند اشتباه، می‌تواند کرال باجت را افزایش داده و سرعت رتبه‌بندی را نیز بالا ببرد.

چرا گوگل بودجه خزش را برای وب‌سایت‌ها تعیین می‌کند؟

فضای وب به‌سرعت در حال رشد است و می‌توان آن را بی‌نهایت در نظر گرفت. اما منابعی که گوگل برای خزش و ایندکس کردن صفحات در اختیار دارد، محدود است (از جمله تعداد ربات‌های خزنده (Crawlers)، قدرت پردازش سرورها و ظرفیت ذخیره‌سازی داده‌ها).
این محدودیت‌ها باعث شده که گوگل به یک استراتژی کارآمد نیاز داشته باشد تا صفحاتی را که احتمالاً ارزشمندتر است، سریع‌تر خزش و ایندکس کند. به همین دلیل، گوگل برای هر وب‌سایت یک Crawl Budget مشخص تعریف می‌کند.

نظر گوگل درباره اهمیت کرال باجت در وب‌سایت‌های مخلتف چیست؟

طبق گفته گوگل، بسیاری از وب‌سایت‌ها لازم نیست نگران کرال باجت باشد؛ به‌خصوص وب‌سایت‌هایی با کمتر از چند هزار URL که ساختارشان نیز استاندارد است. اما در مورد فروشگاه‎‌های آنلاین یا پلتفرم‌‍‌های خبری و… با هزاران یا میلیون‌ها صفحه، کرال باجت بسیار حائز اهمیت است.
در واقع برای سایت‌های بزرگ‌تر با تعداد صفحات بیشتر، مدیریت بهینه بودجه خزش می‌تواند به بهبود ایندکس‌شدن صفحات کمک کند. در ادامه می‌بینید که کرال شدن یک صفحه، پیش‌نیاز رتبه‌بندی آن است. بنابراین، اگر وب‌سایت‌های بزرگ بودجه خزش پایینی داشته باشد، صفحات آن دیرتر کرال می‌شود.

چه وب‌سایت‌هایی باید به کرال باجت اهمیت دهند؟

پاسخ این سؤال را می‌توان در دو فاکتور خلاصه کرد: تعداد صفحات و میزان تغییر محتواهای وب‌سایت. بر این اساس، وب‌سایت‌هایی با مشخصات زیر باید به بودجه خزش اهمیت ویژه‌ای دهد:

  • وب‌سایت‌های بزرگ (بیش از حدود ۱ میلیون صفحه منحصر‌به‌فرد) با محتوایی که حداقل یک بار در هفته تغییر می‌کند.
  • وب‌سایت‌های متوسط ​​یا بزرگ (بیش از حدود ۱۰۰۰۰ صفحه منحصر‌به‌فرد) با محتوایی که به‌صورت روزانه تغییر می‌کند.
  • وب‌سایت‌هایی که صفحات زیادی از آن‌ها در گوگل سرچ کنسول (Google Search Console) پیام «Discovered – currently not indexed» را گرفته‌‌است. یعنی این صفحات توسط ربات‌ها کشف شده؛ اما هنوز ایندکس نشده‌است.

نحوه عملکرد کرال باجت

نمودار ساختار پایه خزنده‌های گوگل (Crawlers)
خزنده‌های گوگل چگونه عمل می‌کنند؟

ربات‌های گوگل (Googlebot) طی مراحلی مشخص، صفحات را برای خزیدن پیدا و اولویت‌بندی می‌کند. سپس بر اساس نتیجه خزش، آن‌ها را ایندکس و رتبه‌بندی می‌کند. بعضی از این مراحل به جای این که به‌صورت مستقل برای هر صفحه انجام شود، ممکن است برای چند صفحه به‌صورت موازی انجام شود. در ادامه این مراحل را می‌بینید.

۱- کشف (Discovery)

ربات‌ها در این مرحله، از وجود یک URL جدید یا تغییرات صفحات قبلی آگاه می‌شود. این کشف می‌تواند از طریق لینک‌سازی‌ها، نقشه سایت (Sitemap) یا درخواست‌های ایندکس مستقیم (در گوگل سرچ کنسول) انجام شود.

۲- دسترس به فایل Robots.txt

ربات‌ها با خواندن این فایل، بررسی می‌کند که آیا این URL مجوز خزیدن دارن یا خیر. اگر مجوز نداشته باشد، از این صفحه رد می‌شود. اما اگر مجاز باشد، در همین صفحه به مرحله بعدی می‌رود.

۳- خزش

در این مرحله خزش آغاز شده و سه بخش اساسی از صفحه وب بررسی می‌شود:

  • محتوا: به Googlebot کمک می‌کند که موضوع صفحه را تشخیص داده و بسته به کیفیت محتوای آن، بعداً صفحه را در پاسخ کوئری کاربر (User Query) در رتبه شایسته‌ای نمایش دهد. استفاده استراتژیک از کلمات کلیدی و انتیتی‌‌ (Entity) راهنمایی بزرگی برای ربات‌ها است.
  • کدها: ربات‌های اسپایدار گوگل (Google Spider) به‌عنوان زیرمجموعه کراولرهای گوگل، کدهای HTML صفحه را رصد می‌کند. در این مرحله، دو مورد کمک می‌کند که این ربات‌ها صفحه را به‌طور دقیق‌تر در نتایج جستجو نمایش دهد: داده‌های ساختاریافته (Structured Data) و متادیتا (متاتایتل (Meta title)، توضیح متا (Meta Description) و…).
  • لینک‌ها: بررسی لینک‌های href نیز به‌عهده اسپایدرها یا عنکبوت‌های گوگل است. ارتباطات داخلی و خارجی صفحه، با بررسی همین لینک‌ها روشن می‌شود. این مرحله به ربات‌ها کمک می‌کند که به جای خزش تصادفی، هوشمندانه و هدفمند صفحات وب را دنبال کند. URLهای بعدی نیز بر همین اساس به صف خزش اضافه می‌شود.

۴- ایندکس کردن (Indexing)

اطلاعات صفحه در فهرست ایندکس گوگل ذخیره می‌شود تا برای جستجوی کاربران در دسترس باشد (اطلاعاتی مانند محتوای اصلی، متادیتا (Meta Data) و ساختار صفحه). ایندکس یک پایگاه‌داده بزرگ است که تمامی صفحات کشف‌شده را برای بازیابی سریع (به‌منظور نمایش به کاربران) ذخیره می‌کند.

۵- تبادل اطلاعات

بین ایندکس شدن صفحه و رتبه‌بندی آن، مراحل واکشی اطلاعات (Fetch Data) و ارسال اطلاعات (Send Data) هم وجود دارد. طی این مراحل، اطلاعات برای بهبود رتبه‌بندی، دوباره از مرحله ایندکس بازیابی شده و اطلاعات جدید به سیستم فرستاده می‌شود. از طرفی این مراحل، به به‌روزرسانی یا اصلاح اطلاعات و نتایج بر اساس الگوریتم‌های جدید نیز اشاره دارد.

۶- رتبه‌بندی (Ranking)

الگوریتم‌های گوگل صفحات ایندکس‌شده را بر اساس معیارهای مختلف رتبه‌بندی می‌کند. از جمله این معیارها می‌توان به ارتباط محتواها با کوئری کاربران، کیفیت صفحه، سرعت بارگذاری و تجربه کاربری اشاره کرد.

۷- نمایش نتایج بر اساس جستجوی کاربر

حالا که صفحه رتبه‌بندی شده، همه‌چیز آماده است تا وقتی کاربر کوئری مد نظر خود را وارد می‌کند، صفحات در رتبه‌های مناسب به او نشان داده شود. این مرحله نهایی از فرایند کشف تا نمایش نتایج محسوب می‌شود.

۸- خزیدن صفحه بعدی

وقتی خزیدن URL فعلی تمام شد، ربات‌ها همین مراحل را برای URL بعدی که در صف خزش است، تکرار می‌کند. این صف ممکن است شامل URLهای جدید، به‌روزرسانی‌شده یا URLهایی باشد که در گذشته گوگل آن‌ها را خزیده و نیاز به بررسی دوباره توسط کراولرها (crawlers) دارد. اولویت‌بندی URLها بر اساس عواملی مانند اهمیت صفحه، لینک‌سازی‌های داخلی، داده‌های ساختاریافته و سایر سیگنال‌های سئو انجام می‌شود.

اهمیت کرال باجت در سئو

کرال باجت سایت به دو دلیل باید جدی گرفته شود: مزایایی که برای سایت دارد و آسیب‌های احتمالی هدر رفت این بودجه. با خزیدن به‌موقع صفحه، موتور جستجو محتوای جدید را به‌‌سرعت به‌روز کرده و آن را در نتایج جستجو قرار می‌دهد. در واقع با خزش سریع‌تر، استراتژی‌های سئوی وب‌سایت، زودتر به ثمر می‌نشیند.
این سرعت بالا، باعث می‌شود که در نتایج جستجو سریع‌تر از رقبای خود حضور داشته باشید. به‌ویژه اگر وب‌سایت شما به‌روزرسانی‌های مکرر دارد (مثل وبلاگ‌ها یا فروشگاه‌های آنلاین)، بودجه خزش بالا، محتوای شما را همیشه در دسترس موتورهای جستجو و کاربران قرار می‌دهد. این امر به افزایش نرخ کلیک و ترافیک ارگانیک نیز منجر می‌شود.
اما اگر سرعت خزش گوگل پایین باشد، تأثیر مستقیم و غیرمستقیمی روی سئوی سایت می‌گذارد. کاهش ترافیک و عقب ماندن از رقبا، مهم‌ترین نتایج این سرعت پایین است.

کنترل نکردن کرال باجت می‌تواند باعث کرال شدن صفحات بی‌ارزش یا تکراری شود. در این صورت این منابع صرف صفحات اشتباهی شده و روند خزش صفحات مهم‌تر و رتبه‌بندی آن‌ها، دیرتر پیش می‌رود. حتی ممکن است بعضی صفحات سهمی از منابع گوگل نداشته باشد و در عمل ایندکس نشود!

نحوه بودجه‌‎بندی منابع گوگل برای وب‌سایت‌ها

گوگل بودجه خزش وب‌سایت‌های مختلف را بر اساس دو پارامتر مهم تعیین می‌کند:

۱- میزان نیاز به خزش (Crawl Demand)

میزان نیاز به خزش (Crawl Demand)، یعنی یک وب‌سایت چه‌قدر به خزیدن نیاز دارد؟ هر چه تقاضا یا نیاز یک وب‌سایت بیشتر باشد، گوگل برای آن وقت بیشتری صرف می‌کند. وب‌سایت‌هایی با ویژگی‎های زیر، اولویت بیشتری برای کرالینگ دارد و گوگل منابع بیشتری را برای خزش به آن‌ها اختصاص می‌دهد:

  • صفحات بیشتر
  • به‌روزرسانی منظم و بیشتر
  • صفحات محبوب‌تر و باکیفیت‌‎تر
  • صفحاتی با لینک‌سازی خارجی قوی‌تر

۲- سرحد خزش (Crawl Capacity Limit/Host Load)

به حداکثر تعداد درخواست‌های هم‌زمانی که گوگل می‌توان به سرور (Server) وب‌سایت ارسال کند (بدون این که سرور دچار اختلال شود) سرحد خزش (Crawl capacity limit/Host Load) می‌گویند. این سرحد، پارامتر دیگری را نیز تحت عنوان نرخ خزش (Crawl Rate Limit) تعیین می‌کند. نرخ خزش تعداد واقعی درخواست‌های ربات‌های گوگل برای خزیدن صفحه در یک ثانیه است.
اما گوگل چگونه سرحد خزش را تشخیص می‌دهد؟ با بررسی سیگنال‌های زیر:

  • زمان پاسخ‌دهی سرور (Server Response Time): اگر سرعت پاسخ‌دهی سرور وب‌سایت در روند خزش کم شود، گوگل فرض می‌کند که سرور تحت فشار قرار گرفته و نرخ خزش را کاهش می‌دهد. در مقابل، اگر سرور به‌سرعت به درخواست‌ها پاسخ دهد، احتمال افزایش نرخ خزش بیشتر است.
  • زمان بین پاسخ‌ها (Latency Monitoring): گوگل تأخیر زمانی بین درخواست و دریافت پاسخ را بررسی می‌کند. اگر این تأخیر بیشتر شود، گوگل تعداد درخواست‌ها را به‌مرور کاهش می‌دهد.
  • کدهای وضعیت (HTTP Status Codes): HTTP گوگل به کدهای وضعیتی مانند خطاهای ۵۰۰ (خطاهای سرور) حساس است. اگر تعداد زیادی از این خطاها مشاهده شود، نرخ خزش کاهش پیدا می‌کند تا فشار از سرور کم شود.
  • سیگنال‌های دستی سایت (Manual Signals): با ابزارهایی مانند گوگل سرچ کنسول یا با کدهای فایل Robots.txt می‌توانید نرخ خزش گوگل را محدود کنید. گوگل بودجه خزش را بر اساس این تنظیمات در نظر می‎‌گیرد.

چگونه بودجه خزش وب‌سایت را بررسی کنیم؟

برای بررسی کرال باجت وب‌سایت خود، اول باید تعداد صفحات را بدانید. این عدد را می‌توانید در ابزاری مانند Screaming Frog پیدا کنید. بعد وارد ابزار گوگل سرچ کنسول شوید. روی منوی «Settings» کلیک کرده و به بخش «Crawl stats» نگاه کنید. اینجا تعداد صفحات خزیده‌شده در یک بازه زمانی مشخص را می‌بینید. بر اساس آن، میانگین تعداد صفحاتی که به‌صورت روزانه کرال می‌شود را محاسبه کنید. برای مثال شاید آماری مانند 691 crawl requests (last 90 days) را داشته باشید. بنابراین، میانگین تعداد صفحات خزیده‌شده در یک روز حدود ۸ صفحه است.

اما چه زمانی به افزایش کرال باجت نیاز است؟

تعداد کل صفحات وب‌سایت را بر میانگین تعداد صفحات خزیده‌شده در یک روز تقسیم کنید. اگر به عددی حدود ۳ رسیدید (یعنی کل صفحات تقریباً ۳ برابر این میانگین بود)، وضعیت کرال باجت مطلوب است. اما اگر به عددی نزدیک ۱۰ یا بیشتر رسیدید، باید به فکر بهینه‌سازی بودجه خزش باشید.

بهترین روش‌های بهبود کرال باجت

نمودار تاثیر بهبود crawl budget در نتایج سایت
بهترین راه‌ها برای افزایش بودجه خزش

صفحات وب در حالت ایده‌آل باید به ترتیب میزان اهمیتشان کرال شده و این روند با بیشترین سرعت ممکن انجام شود. خبر خوب این که با رعایت چند تکنیک در بهینه‌سازی وب‌سایت، می‌توانید به این ایده‌آل دست پیدا کنید که آن‌ها را در ادامه می‌بینید.

۱- حذف ریدایرکت‌های اضافه

ریدایرکت‌ها بهترین راه نجات از مشکلاتی مانند خطاهای 404 است. اما وجود تعداد زیاد ریدایرکت، مسیر را برای خزیدن ربات‌ گوگل دشوار می‌کند. در این میان، زنجیره ریدایرکت (Redirect Chains) از بزرگ‌ترین موانع مسیر کراولرها است.
زنجیره ریدایرکت زمانی رخ می‌دهد که صفحه A به صفحه B ریدایرکت شده و صفحه B به صفحه C و این روند ادامه دارد. اگر این زنجیره طولانی باشد، ممکن است ربات‌ها مسیر را رها کند. گاهی نیز ممکن است این زنجیره از کنترل خارج شده و به یک حلقه بی‌نهایت تبدیل شود. این امر باعث هدررفت شدید بودجه خزش می‌شود.
برای پیدا کردن زنجیره ریدایرکت، می‌توانید از ابزارهایی مانند Screaming Frog استفاده کنید. کافی است روی تب «Reports» کلیک کرده و به مسیر «Redirects> Redirect Chains» بروید.
همین‌طور می‌توانید در منوی سمت چپ ابزار گوگل سرچ کنسول روی گزینه «Pages» و بعد «Redirect Error» کلیک کنید. اینجا فهرستی از خطاهای ریدایرکت را مشاهده می‌کنید.
بعد از پیدا کردن آن‌ها نیز تمام URLهای بین لینک اول و آخر را حذف کنید. برای مثال اگر یک زنجیره دارید که از هفت صفحه عبور کرده، صفحه اول را به‎‌صورت مستقیم به صفحه هفتم ریدایرکت کنید.

۲- صرفه‌جویی در بودجه خزش

به ربات‌های خزنده گوگل، دقیقاً بگویید که کدام صفحات را کرال کند یا از کرال‌کردن کدام صفحات بگذرد. به‌این‌ترتیب بودجه خزش واقعاً صرف صفحات مهم می‌شود. بهترین روش این کار نیز تعیین URLهایی که می‌خواهید کرال نشود، در فایل Robots.txt است. صفحات مدیریتی سایت، صفحات محصول با فیلترهای داینامیک و… را می‌توانید در این فایل برای خزنده‌ها مسدود کنید.
یکی از تکنیک‌های سئو فنی (Technical SEO) برای بهینه‌سازی بودجه خزش نیز استفاده درست از کدهای وضعیت HTTP (HTTP status codes) است. اگر صفحه‌ای دارید که محتوای آن حذف شده و ریدایرکت استانداردی هم برایش در نظر ندارید، از کدهای زیر استفاده کنید:

  • 404 (Not Found): ربات‌های خزنده گوگل خزش اولیه صفحه را انجام می‌دهد؛ اما به‌مرورزمان، خزش را کم یا متوقف می‌کند.
  • 410 (Gone): این کد قوی‌تر از 404 است و به‌معنی حذف دائمی صفحه است. بنابراین گوگل امید کمتری به اصلاح آن دارد و خزش دوباره آن را سریع‌تر متوقف می‌کند.

۳- بهینه‌سازی سرعت سایت

بالاتر درباره سرحد کرال باجت (Crawl Rate Limit) گفتیم و این که اگر سرور پاسخ‌دهی کندی داشته باشد، گوگل تعداد درخواست‌های خزش را کاهش می‌دهد. در مقابل، سرورهای سریع‌تر، به گوگل اجازه می‌دهد که صفحات بیشتری را در یک بازه زمانی بخزد.
برای افزایش سرعت سایت می‌توانید از روش‌های زیر استفاده کنید:

  • استفاده از CND یا شبکه تحویل محتوا (Content Delivery Network)
  • فشرده‌سازی محتوا با تکنیک‎‌هایی مانند Gzip
  • حذف کدهای غیرضروری از کدهای CSS، JS و HTML
  • فعال‌کردن کش (Cache) برای صفحات و منابع استاتیک

۴- به‌روزرسانی نقشه سایت

به‌روزرسانی نقشه سایت (Sitemap) راهنمایی عالی برای ربات‌ها است. چراکه گوگل همیشه جدیدترین نسخه این نقشه را می‎خواند. ضمن این که اگر محتوای به‌روز‌شده‌ای دارید، می‌توانید از تگ <lastmod> برای آن استفاده کنید تا توجه گوگل به آن جلب شود.

۵- طراحی ساختار فکرشده برای وب‌سایت

ساختار وب‌سایت (Website Structure)، در واقع نقشه راه ربات‌های خزنده گوگل است. بنابراین، به جای انتشار نامرتب صفحات و محتواها، یک ساختار برای آن‌ها در نظر بگیرید. ساختار خوشه‌ای (Pillar-Cluster) بهترین ساختار ممکن است که محتواها را به‌شکل زیرمجموعه‌ای مرتب می‌کند. این ساختار نقشه راه واضح و منظمی را به خزنده‌های گوگل داده و کار را برایشان راحت‌تر می‌کند.
لینک‌سازی داخلی نیز در ترسیم این نقشه راه تعیین‌‎کننده است. بالاتر اشاره کردیم که ربات‌های خزنده از طریق لینک‌های داخلی صفحات را در صف خزش اولویت‌بندی می‌کند. وجود لینک‌های داخلی فکرشده، ناوبری سایت و کشف صفحات را به‌مراتب روان‌تر می‌کند

۶- حذف محتواهای تکراری

محتوای تکراری در کنار هدر دادن Crawl Budget، ربات‌ها را هم سردرگم می‌کند. می‌توانید یکی از روش‌های زیر را برای اصلاح این صفحات اجرا کنید:

  • محتواهای تکراری مفید را تا جای ممکن ادغام و بعد ریدایرکت کنید.
  • برای محتواهای تکراری بی‌ارزش، کد وضعیت 404 یا 4011 را تعریف کرده یا آن‌ها را در Robots.txt مسدود کنید.

اشتباهاتی که بودجه خزش را هدر می‌دهد!

ممکن است در فرایند بهینه‌سازی سایت خود عادت‌هایی داشته باشید که باعث هدر رفتن بودجه خزش شود. در ادامه مهم‌ترینِ این اشتباهات را به‌همراه راه‌حل‌ می‌بینید.

۱- استفاده از تگ noindex به جای مسدودسازی ربات‌های خزنده

شاید می‌خواهید از تگ noindex برای بعضی صفحات استفاده کنید. با تعریف این تگ، گوگل همچنان صفحه را خزش می‌کند؛ اما وقتی به تگ noindex می‌رسد، تصمیم می‌گیرد آن را ایندکس نکند. این یعنی Crawl Budget صرف بررسی صفحه شده، اما خروجی خاصی (مانند ایندکس شدن) ندارد. اما اگر صفحه‌ای را در Robots.txt مسدود کنید، گوگل آن صفحه را نمی‌خزد. بنابراین، بودجه خزش به صفحات دیگر اختصاص داده می‌شود.

به منظور مطالعه بیشتر در زمینه ایندکس نشدن سایت در گوگل؛ (دلایل و راه‌حل رفع آن‌ها) این مقاله از پارس‌پک را بخوانید:

ایندکس نشدن در گوگل

۲- وجود صفحات یتیم

صفحات یتیم (orphan page) صفحاتی است که هیچ لینک داخلی به آن‌ها داده نشده‌است. پیدا کردن این صفحات برای خزنده‌ها سخت و زمانبر است. حتی ممکن است به دلیل سختی دسترسی، نادیده گرفته شود. این صفحات را می‌توانید با ابزار Site Audit در Ahrefs یا SEMrush پیدا کنید. سپس از صفحاتی مناسب به آن‌ها لینک داخلی بدهید.

۳- استفاده از پارامترهای URL غیرضروری

پارامترهای غیرضروری در URLها (Unnecessary URL Parameters)، می‌تواند باعث شود که گوگل صفحات مشابه را به‌عنوان صفحات جداگانه، اما مشابه صفحه اصلی در نظر بگیرد (مانند ?page= و ?sort و…). در این صورت، تک‎تک آن‌ها را کرال می‌کند. این پارامترها را می‌توانید در بخش «URL Parameters» که زیرمنوی «Legacy tools and reports» است، مدیریت کرده و از خزش‌های بیهوده جلوگیری کنید.

۴- بی‌توجهی به لینک‌های شکسته

لینک‌های شکسته (Broken Links)، به لینک‌هایی گفته می‌شود که مقصد آن‌ها یک صفحه مشکل‌دار (اغلب با ارور 404) است و دنبال‌کردن آن‌ها هیچ ارزشی ندارد. از طرفی وجود این لینک‎ها در یک صفحه، آن را در نظر گوگل بی‌اهمیت جلوه می‌دهد. گوگل نیز این صفحه را در اولویت پایین‌تری قرار می‌دهد. با ابزارهایی مانند گوگل سرچ کنسول یا Screaming Frog این لینک‌ها را پیدا کرده و آن‌ها را حذف کرده یا مقصدشان را تغییر دهید.

برای آشنایی با دلایل ایجاد لینک شکسته و نحوه رفع لینک آن روی لینک زیر کلیک کنید:

لینک شکسته چیست؟

گزارش بودجه خزش از گوگل سرچ کنسول

نمودار سرچ کنسول برای نمایش تغییرات بودجه خزش
بررسی نتایج سرچ کنسول وبسایت بعد از تغییرات بودجه خزش

گوگل سرچ کنسول (Google Search Console) گزارش مفصلی از وضعیت خزش URLهای سایت دارد که خطاها و مشکلات احتمالی کراولینگ (Crawling) را هم شامل می‌شود. برای دسترسی به این گزارش، از منوی سمت چپ روی Settings کلیک کنید. در ردیف مربوط به Crawl stats، روی گزینه «Open Report» کلیک کنید. این نمودار وضعیت کرال باجت را در 90 روز گذشته نشان می‌دهد.

نمودار خزش در طول زمان

کاربرد باکس‌های بالای نمودار عبارت است از:

  • Total crawl requests: تعداد کل درخواست‌های خزش در 90 روز گذشته.
  • Total download size: مجموع داده‌هایی که خزنده‌های گوگل هنگام دسترسی به وب‌سایت در یک دوره خاص دانلود کرده‌ است.
  • Average response time: میانگین مدت زمانی که سرور وب‌سایت به درخواست خزنده پاسخ می‌دهد (برحسب میلی‌ثانیه).

وضعیت هاست (Host Status)

اگر در این قسمت پیام «Host had no problems in the last 90 days» را می‌بینید، یعنی هاست شما هیچ مشکلی برای خزش ایجاد نکرده‌است. اما اگر پیامی مانند «Host had problems in the past» را دیدید، یعنی هاست شما گاهی اوقات نتوانسته به درخواست‌های خزش گوگل پاسخ دهد. درهرصورت می‌توانید روی این پیام کلیک کنید تا جزئیاتش را ببینید.

گروه‌بندی درخواست‌های خزش (Crawl requests breakdown)

در این بخش، درخواست‌های خزش را بر اساس دسته‌بندی‌های مختلف دارید که آن‌ها را در جدول زیر می‌بینید. با کلیک روی هر یک از درخواست‌ها در سرچ کنسول، می‌توانید تاریخ و URLهای کرال‌شده را ببینید.

نوع درخواست خزش کارکرد مثال اهمیت
By response دسته‌بندی بر اساس پاسخ سرور
  • OK 200: صفحه با موفقیت کرال شده
  • 404 Not Found: صفحه پیدا نشد
  • 301 Moved Permanently: ریدایرکت دائمی به URL جدید
  • 500 Internal Server Error: خطای سرور که کرال را دچار مشکل کرده
رفع کدهای وضعیت اشتباه برای صرفه‌جویی در کرال باجت
URL File Type دسته‌بندی بر اساس نوع فایل کرال‌شده
  • HTML: صفحات اصلی سایت
  • Image: تصاویر صفحات
  • CSS وJavaScript: فایل‌های استایل‌دهی و اسکریپت‌ها
  • Video: فایل‌های ویدئویی
جلوگیری از کرال‌شدن مکرر فایل‌های غیرضروری یا سنگین با مسدودسازی آن‌ها در Robots.txt
Purpose of the Request دسته‌بندی بر اساس هدف خزش
  • Discovery: خزش برای کشف صفحات جدید
  • Refresh: خزش مجدد برای به‌روزرسانی اطلاعات مربوط به صفحات قبلی
جلوگیری از درخواست‌های زیاد Discovery که نشان‌دهنده تغییرات بیش‌از‌حد است.
Googlebot Type دسته‌بندی بر اساس نوع گوگل‌بات
  • Smartphone: بررسی نسخه موبایلی صفحات
  • Desktop: بررسی نسخه دسکتاپ صفحات
اولویت قرار دادن نسخه موبایل (به دلیل Mobile-first indexing بودن گوگل)

آمارگیری از وضعیت کرال باجت با ابزارهای سئو

یکی از مهم‌ترین مباحث آموزش کرال باجت، کار با ابزارهای آماردهی است. در کنار گوگل سرچ کنسول که بالاتر دیدید، SEMrush و Ahrefs نیز از بهترین ابزارهای آمارگیری بودجه خزش است. در ادامه نحوه مشاهده گزارش این ابزارها را می‌بینید.

آمارگیری خزش سایت با SEMrush

مراحل بررسی crawl budget در semrush
آموزش بررسی کرال باجت در سمراش

قابلیت «Site Audit» یا حسابرسی سایت در SEMrush گزارش بسیار مفیدی از کرال باجت گوگل ارائه می‌دهد. در حساب رایگان این ابزار می‌‌توانید تا ۱۰۰ لینک سایت خود را حسابرسی کنید. برای مشاهده این گزارش، مراحل زیر را طی کنید:

  • روی Site Audit در منوی سمت چپ کلیک کنید (با فرض این که قبلاً وب‌سایت را به‌عنوان پروژه تعریف کرده‌اید).
  • تعداد صفحاتی را که می‌خواهید بررسی شود، به‌همراه منبع کرال مشخص کنید.
  • می‌توانید روی گزینه «Allow-disallow URLs» نیز کلیک کرده و دسترسی به بعضی URLها را محدود کنید.
  • در نهایت تعیین کنید که می‌خواهید بررسی کرال باجت توسط Site Audit هر چند وقت یک بار انجام شود.
  • روی Start Site Audit کلیک کنید.
جزییات تنظیمات Crawl Budget در Semrush
نحوه اجرای تنظیمات بودجه خزش در Semrush

گزارش «Overview» مربوط به Site Audit، تمام داده‌هایی را خلاصه می‌کند که ربات‌ها در طول خزش جمع‌آوری کرده‌است. ابزارک «Crawled Pages» نیز تعداد صفحات کرال‌شده و صفحات بدون مشکل و مشکل‌دار را نشان می‌دهد.

انتخاب صفحاتی از سایت برای اختصاص crawl budget در semrush
انتخاب صفحات برای بررسی توسط خزنده گوگل

برای مشاهده اطلاعات دقیق‌تر نیز می‌توانید وارد بخش «Crawlability» شده و روی «View details» کلیک کنید.

انتخاب بازه زمانی برای خزش کراولرهای (crawlers) گوگل
تایین دفعات بررسی crawl budget برای وبسایت

در این گزارش، می‌توانید ببینید که چه مقدار از بودجه خزش هدر رفته و چه مشکلاتی سر راه بوده‌است (مانند ریدایرکت‌های دائمی و موقت، محتوای تکراری، سرعت پایین و…). با کلیک روی هر یک از نوارها، لیستی از صفحاتی را می‌بینید که این مشکل را داشته‌است.

بسته به نوع مشکل نیز اطلاعاتی را در ستون‌های مختلف برای هر صفحه آسیب‌دیده می‌بینید.

آمارگیری خزش سایت با Ahrefs

نحوه نمایش آمار بودجه خزش سایت با Ahrefs
روش مشاهده بودجه خزش یک وبسایت در ahref

بررسی کرال باجت را می‌توانید به کمک چند قابلیت در ابزار Ahrefs نیز انجام دهید. یکی از مهم‌ترین گزارش‌های این زمینه «The Best Pages by Incoming Links» است. چراکه همان‌طور که اشاره کردیم، لینک‌های داخلی از مهم‌ترین عوامل مؤثر بر کرال باجت است.
در این بخش می‌توانید ببینید کدام صفحات بهترین لینک‌سازی و در واقع بهترین وضعیت را برای کرال‌شدن دارد. همین‌طور تاریخ آخرین باری که Ahrefs صفحات شما را کرال کرده را هم می‌بینید.
به اگر به دنبال پیدا کردن فرصت‌های طلایی برای لینک‌سازی داخلی هستید، می‌‎توانید از بخش «Internal Link Opportunities» استفاده کنید.
قابلیت کاربردی دیگر Ahrefs، بخش «Internal Pages» آن است. در این گزارش وضعیت لینک‌های داخلی مرتبط با صفحات ریدایرکت‌شده را می‌بینید. اگر لینک داخلی به صفحه‌ای دارید که ریدایرکت شده، بهتر است لینک را از اساس به همان صفحه مقصد بدهید تا ربات‌های خزنده مسیر کمتری را طی کند.

جمع‌بندی

بودجه خزش (Crawl Budget) یکی از جنبه‌های پنهان، اما بسیار مهم در مدیریت سئو است که می‌تواند به‌شکل مستقیم بر رتبه‌بندی سایت در نتایج جستجو تاثیر بگذارد. با نظارت دائم بر وضعیت کرالینگ (crawling) و حذف صفحات بی‌ارزش، مدیریت پارامترهای URL ، بهینه‌سازی لینک‌دهی و… می‌توانید ربات‌های خزنده گوگل را به سمت محتوای کلیدی هدایت کنید. فراموش نکنید که هر اقدام کوچکی برای بهینه‌سازی سایت، می‌تواند به بازدهی این بودجه ارزشمند کمک کند.

سؤالات متداول

آیا ما باید روی گرفتن بودجه کرال تمرکز کنیم؟

اگر وب‌سایتی بزرگ با بیش از ۱ میلیون صفحه و به‌روزسانی هفتگی یا وب‌سایتی با بیش از ۱۰۰۰۰ صفحه با به‌روزسانی روزانه یا صفحاتی با مشکل جدی کرال دارید، باید نگران این پارامتر باشید.

چطور می‌توان نرخ خزش سایت را افزایش داد؟

حذف ریدایرکت‌های اضافه، صرفه‌جویی در بودجه خزش، بهینه‌سازی سرعت سایت، به‌روزرسانی نقشه سایت، طراحی ساختار مناسب وب‌سایت و حذف محتواهای تکراری.

چرا باید لینک‌های شکسته (Broken link) را اصلاح کرد؟

ربات‌های خزنده گوگل لینکی را دنبال می‌کند که در نهایت به یک خطا (مانند خطای 404) می‌رسد. بنابراین، در عمل بودجه خزش صرف کاری بی‌ارزش شده‌است.

آیا بودجه خزش (Crawl Budget) برای سئوی سایت مهم است؟

بله، بودجه خزش بالاتر، صفحات را سریع‌تر ایندکس و رتبه‌بندی می‌کند و استراتژی‌های سئو را زودتر به نتیجه می‌رساند.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *


ارسال دیدگاه در وبلاگ پارس‌پک را مطالعه کرده و آن‌ها را می‌پذیرم.