فایل robots.txt چست؟ | آنچه باید درباره فایل Robots.txt و تاثیر آن در سئو بدانید

Avatar
نویسنده: علیرضا برزودی
شنبه 15 آبان 1400
مطالعه: ۱۴ دقیقه ۰ نظر ۲۳۷۱ بازدید

Robot.txt چیست؟ اکثر صاحبان وب سایت تصور می کنند که نمی توانند بر روی موتور های جستجوی گوگل تسلط داشته باشند؛ اما این تصور اشتباه است زیرا شما بیشتر از آن چه که فکر می کنید، می توانید بر روی موتور های جستجو با کمک Robots.txt تسلط داشته باشید. در ادامه قصد داریم توضیحات مفصلی را درباره فایل Robot.txt به شما بدهیم و کاربرد های آن را بگوییم.

آنچه در این مقاله خواهید خواند:

فایل Robots.txt چیست؟

فایل Robots.txt یک فایل متنی کاملا ساده است؛ همانطور که از نام این فایل پیداست، فرمت .txt دارد و در دایرکتوری سایتتان قرار خواهد داشت. شما با کمک این فایل می توانید به ربات های گوگل و کراولر ها دستورات دلخواه خود را بدهید.

برای مثال می توانید به ربات های گوگل بگویید که کدام صفحات سایت شما را ایندکس کنند و در نتایج گوگل نمایش دهند و کدام صفحات را در نتایج گوگل نمایش ندهند و ایندکس نکنند.

Robots.txt

 

با توضیحاتی که تا به اینجا درباره فایل Robot.txt داده شد، احتمالا متوجه اهمیت آن شده اید؛ Robot.txt در واقع یک ابزار قدرتمند است که به شما این امکان را می دهد تا وبسایت خود را آن گونه که می خواهید، به گوگل نمایش دهید.

در صورتی که از این فایل به درستی استفاده کنید، متوجه تاثیر آن بر سئوی سایت خود خواهید شد؛ البته باید مراقب بد افزار ها و ربات های جاسوس باشید که خارج از قوانین این فایل عمل می کنند و ممکن است آسیب های جبران ناپذیری را به سایت شما وارد کنند.

فایل Robots.txt در کجا قرار دارد؟

فایل Robot.txt در دایرکتوری روت سایت شما ذخیره می شود؛ برای پیدا کردن آن می توانید به دسترسی FTP در سی پنل یا دایرکت ادمین بروید. سپس می توانید این فایل را در public_html سایت خود پیدا کنید. این فایل حجم سنگینی ندارد و در اکثر مواقع نهایتاً چند صد بایت خواهد بود.

چگونه فایل Robot.txt را ایجاد کنیم؟

از آن جایی که فایل Robot.txt یک فایل متنی ساده است، ایجاد کردن آن کار دشواری نیست؛ برای انجام این کار نیاز به یک ویرایشگر متن ساده مانند Notepad دارید. در این ویرایشگر صفحه ای را باز کنید و یک برگه خالی را با نام robots.txt ذخیره کنید؛ سپس وارد cPanel شوید و بعد public_html را برای دسترسی به دایرکتوری روت سایت، باز کنید.

بعد از اینکه public_html را باز کردید، فایل را به داخل آن بکشید؛ توجه داشته باشید که به عنوان مالک سایت، باید بتوانید به تمام قسمت های فایل دسترسی داشته باشید و آن را بخوانید، ویرایش کنید و بنویسید. لازم به ذکر است که این دسترسی ها را هیچ شخصی به غیر از مالک سایت نباید داشته باشد. در ادامه ی مقاله نحوه ساخت فایل ربات را با دستورات آن آورده ایم.

 

دستورهای Robots.txt

دستور های موجود در فایل Robot.txt

به طور کلی، دو نوع دستور برای این فایل ها داریم؛ اولین دستور برای محدود کردن موتور های جستجو از کراول کردن است و دومین دستور هم برای اجازه دادن به موتور های جستجو برای کراول کردن خواهد بود.

همانطور که گفته شد با استفاده از این فایل و دو دستور بالا، می توانید به ربات های گوگل بگویید که صفحه مورد نظر شما را ایندکس کنند و یا ایندکس نکنند.

توجه داشته باشید که قبل از دستور دادن، باید اول نام ربات را بیاورید و سپس دستور مورد نظر را بدهید. برای انجام این کار باید از دستور زیر بهره بگیرید:

User-agent: *

شاید برایتان سوال پیش بیاید که ” * ” به چه دلیل در ابتدای عبارت آمده است؛ این علامت تمام ربات‌ های موتور جستجو را به نوعی صدا می زند. از آن جایی که ربات‌ های موتور جستجو انواع مختلفی دارند، برای خطاب قرار دادن آن ها باید نامشان را بلد باشید.

در حالی که نیازی به بلدن بودن نامشان نیست، با آوردن علامت ” * ” در ابتدای دستور ” User-agent: * “، تمام ربات های موتور جستجو را خطاب قرار می دهید.

دستور دیس الو (Disallow)

دستور Disallow برای ایندکس نکردن کاربرد دارد؛ با این دستور شما به ربات های موتور جستجو می گویید که نمی خواهید صفحه یا بخش مورد نظر در سایتتان، ایندکس شود.

در برخی شرایط، مشکلاتی برای یکی از صفحات شما پیش می آید که باید آن را برطرف کنید؛ قبل از برطرف کردن حتما باید دستور Disallow را در فایل Robot.txt اجرا کنید.

در صورتی که مشکل صفحه را حل نکنید و دستور دیس الو را هم اجرا نکنید، صفحه مورد نظر در گوگل ایندکس می شود و ممکن است به سئو سایت شما ضربه بزند.

دستور Allow

دستور Allow دقیقا برعکس دستور Disallow عمل می کند؛ این دستور به ربات های موتور جستجوی گوگل اجازه ایندکس کردن را می دهد.

توجه داشته باشید، زمانی که صفحه ای در سایت شما مشکل فنی یا سئویی دارد، نباید دستور Allow را اجرا کنید؛ زیرا در این شرایط ربات های موتور جستجو صفحه را ایندکس می کنند و نتیجه آن آسیب دیدن رتبه سایت شما در نتایج گوگل خواهد بود.

دستور Crawl-delay

Crawl-delay به موتور های جستجو دستور می دهد که صفحه ای را با تاخیر ایندکس کنند؛ این دستور زمانی کاربرد دارد که صفحه شما دارای مشکل است و می خواهید آن را برطرف کنید.

با اجرای دستور Crawl-delay بعد از برطرف کردن مشکل، صفحه شما توسط ربات های موتور جستجوی گوگل کراول و ایندکس خواهد شد.

در این دستور شما زمان تاخیر را هم به ربات ها اعلام می کنید؛ البته این دستور برای رباتی مانند Googlebot قابل اجرا نیست و برای انجام آن باید از ابزاری مانند گوگل سرچ کنسول بهره بگیرید.

برای مثال زمانی که دستور ” crawl-delay: 120 ” را در فایل Robot.txt اجرا می کنید، به موتور های جستجو می فهمانید که هر صفحه را با فاصله 120 ثانیه از هم ایندکس کنند. (بعد از هر ایندکس 120 ثانیه صبر کنند و سپس صفحه دیگری را ایندکس کنند)

دستور Sitemap

دستور سایت مپ(نقشه سایت) برای معرفی کردن نقشه سایت (سایت مپ) به کراولر ها کاربرد دارد.  نقشه سایت یک فایل XML است که شامل لیستی از تمام صفحات وب سایت شما و همچنین متادیتاها می باشد (متادیتا شامل اطلاعاتی است که به هر URL منسوب می شود). به همان روشی که یک روبات. فایل txt کار می کند، نقشه سایت به موتورهای جستجو اجازه می دهد تا در فهرستی از تمام صفحات وب سایت شما در یک مکان بخزند.

زمانی که دستور ” *:User-agent” را اجرا می کنید و تمام ربات های موتور جستجوی گوگل را خطاب قرار می دهید، باید یکی از چهار دستور بالا را به فایل بیفزایید.

توجه داشته باشید که ترتیب دستورات در فایل باید رعایت شود؛ در فایل ابتدا باید دستور های محدود کننده مانند Disallow قرار بگیرد و سپس دستور هایی که ربات های موتور جستجوی گوگل را برای خزیدن و ایندکس مجاز می کند (مانند Allow)، قرار داده شود.

برای اینکه اجازه دسترسی به سایت را به موتور جستجوی گوگل ندهید، باید از دستور زیر استفاده کنید:

User-agent: *
Disallow: /

در شرایطی که می خواهید کراول کردن یک فولدر از بخش های سایت را محدود کنید (توجه داشته باشید که با اجرای این دستور، تمام بخش های سایت به غیر از فولدر مورد نظر توسط موتور جستجوی گوگل کراول خواهد شد)، باید دستور زیرا را اجرا کنید:

User-agent: *
Disallow: /folder/

در بعضی عکس های سایت شما مشکلاتی دارند و کراول شدن آن عکس ها توسط موتور جستجوی گوگل به سئوی سایت آسیب می زند؛ در این شرایط باید دستوری را اجرا کنید که تمام ربات های موتور جستجو از ایندکس کردن آن عکس ها محدود شوند. برای انجام این کار دستور زیر را اجرا کنید:

User-agent: googlebot-images

Disallow: /photos

دلایل استفاده از Robots.txt

به چه دلیل از فایل Robot.txt استفاده می کنیم؟

در ادامه به معرفی چند دلیل برای استفاده از فایل Robot.txt می پردازیم.

مدیریت دسترسی موتور های جستجوی گوگل

اصلی ترین دلیل استفاده از این فایل، مدیریت دسترسی موتور های جستجوی گوگل است؛ همانطور که گفتیم، زمانی که یک وبمستر یا مدیر سایت قصد انتشار صفحه ای را در سایت خود دارد و آن صفحه برخی از قوانین سئو را اصطلاحا زیر سوال می برد، باید از دستورات موجود در فایل Robots.txt استفاده کند.

بهینه سازی سایت بوسیله Robots.txt

در طول روز، صد ها و شاید هزاران ربات ارسال شده توسط گوگل وارد سایت ها می شوند و اطلاعات سایت را برای گوگل می برند؛ برای مثال، زمانی که 1000 ربات توسط گوگل وارد سایتتان شوند، بدون شک عملکرد بهینه و سرعت بارگذاری صفحات شما با افت شدیدی مواجه خواهد شد.

در این شرایط است که برای بهینه سازی عملکرد سایت، باید ربات های موتور جستجوی گوگل را محدود کرد؛ برای انجام این کار هم باید از فایل Robots.txt استفاده کرد.

مدیریت لینک ها و آدرس ها (URL) با Robots.txt

قطعا مدیریت تعداد زیادی URL و لینک برای مدیران وبسایت ها کار نسبتا دشواری است؛ شما با استفاده از Robot.txt می توانید به مدیریت لینک ها و آدرس های سایتتان بپردازید و هر زمان که احساس نیاز کردید، در آن تغییر ایجاد کنید.

یکی از تکنیک هایی که در سئو مورد استفاده قرار می گیرد، URL Cloacking نام دارد که برای پنهان کردن آدرس صفحات از دید موتور های جستجو و کاربران کاربرد دارد.

اگر یک سئو کار حرفه ای نیستید، به هیچ عنوان سمت استفاده از این روش نروید؛ این تکنیک یکی از تکنیک های سئوی کلاه سیاه به حساب می آید و حتما باید توسط افراد حرفه ای و متخصص انجام شود.

در غیر این صورت ممکن است سایت شما برای همیشه از نتایج گوگل محو و پنالتی شود که نتیجه آن بر باد رفتن زحمات شما خواهد بود.
در URL Cloacking از روشی استفاده می شود که شرایط و قوانین گوگل را کاملا نقض می کند و به همین دلیل است که به آن روش سئوی کلاه سیاه می گویند.

به حداکثر رساندن بودجه خزش

اگر برای ایندکس کردن تمام صفحات خود با مشکل مواجه هستید، ممکن است با مشکل بودجه crawl مواجه شوید. با مسدود کردن صفحات بی‌اهمیت با robots.txt، گوگل بات می‌تواند بیشتر بودجه خزشِ شما را صرف صفحاتی کند که واقعاً مهم هستند.

 

نحوه ایجاد robots.txt

نحوه ایجاد فایل Robots.txt

همانطور که بالاتر به بهترین دستورات فایل ربات اشاره کردیم، بهترین کار برای شروع، پیروی از مراحل زیر می باشد:

  • یک فایل Robots.txt ایجاد کنید
  • اولین قدم شما این است که واقعاً فایل robots.txt خود را ایجاد کنید.
  • به عنوان یک فایل متنی، در واقع می توانید با استفاده از دفترچه یادداشت ویندوز یک فایل ایجاد کنید.
  • مهم نیست که در نهایت چگونه فایل robots.txt خود را می سازید، فرمت آن دقیقاً یکسان است:
user agent: X


Disallow: Y
  • User-agent ربات خاصی است که شما با آن صحبت می کنید.
  • هر چیزی که بعد از “Disallow” می آید صفحات یا بخش هایی هستند که می خواهید مسدود کنید.

در اینجا یک مثال است:

user agent: googlebot


Disallow: /images
  • این قانون به Googlebot می‌گوید که پوشه تصویر وب‌سایت شما را ایندکس نکند.
  • همچنین می‌توانید از یک ستاره (*) برای صحبت با تمام ربات‌هایی که در وب‌سایت شما توقف می‌کنند استفاده کنید.

در اینجا یک مثال است:

*:User agent

Disallow: /images

پیدا کردن فایل Robots.txt

پیدا کردن فایل Robots.txt خود را آسان کنید

هنگامی که فایل robots.txt خود را دارید، وقت آن است که آن را زنده کنید.

از نظر فنی می توانید فایل robots.txt خود را در هر دایرکتوری اصلی سایت خود قرار دهید.

اما برای افزایش شانس یافتن فایل robots.txt، توصیه می کنم آن را در این آدرس قرار دهید:

https://example.com/robots.txt

(توجه داشته باشید که فایل robots.txt شما به حروف کوچک و بزرگ حساس است. بنابراین مطمئن شوید که از یک “r” کوچک در نام فایل استفاده کنید)

 

خطاهای فایل robots.txt

 

خطاهای فایل robots.txt و اشتباهات آن را بررسی کنید

این واقعاً مهم است که فایل robots.txt شما به درستی تنظیم شود. یک اشتباه و کل سایت شما ممکن است از فهرست خارج شود.

خوشبختانه، نیازی نیست امیدوار باشید که کد شما درست تنظیم شده باشد. گوگل یک ابزار تست ربات قوی دارد که می توانید از آن استفاده کنید: Robot Taster گوگل هر خطا و هشداری را که پیدا می کند را به شما نشان می دهد

 

ربات تکست Vs نوایندکس؟

Robots.txt یا متا تگ noindex؟

چرا وقتی می‌توانید صفحاتی را در سطح صفحه با متا تگ «noindex» مسدود کنید، از robots.txt استفاده می‌کنید؟

  • استفاده از تگ noindex برای پیاده سازی روی منابع چندرسانه ای مانند فیلم ها و فایل های PDF دشوار خواهد بود.
  • همچنین، اگر تعداد زیادی صفحه دارید که می‌خواهید آن‌ها را مسدود کنید، گاهی اوقات به‌جای افزودن دستی یک برچسب noindex به هر صفحه، مسدود کردن کل بخش آن سایت با robots.txt آسان‌تر می باشد.
  • موارد خاصی نیز وجود دارد که نمی‌خواهید هیچ بودجه خزشی را برای بازدید گوگل در صفحاتی با تگ noindex هدر دهید.

بنابراین بغیر از این سه مورد، توصیه می کنیم به جای robots.txt از دستورات متا استفاده کنید. پیاده سازی آنها آسان تر است. و احتمال وقوع فاجعه کمتری وجود دارد (مانند مسدود کردن کل سایت شما).

 

سئو و robot.txt

 

کلام آخر

Robot.txt یک فایل متنی است که برای بهبود سئو سایت از طریق مدیریت ایندکس گوگل، مورد استفاده قرار می گیرد. در این مقاله سعی کردیم هر آنچه که لازم است درباره فایل Robot.txt بدانید را به شما بگوییم؛ برای استفاده از دستورات در Robot.txt باید دقت زیادی داشته باشید زیرا بروز هر گونه مشکل، می تواند باعث از بین رفتن زحمات شما بر روی وب سایت شود.

تا حد امکان، سعی کنید از روش های کلاه سیاه سئو استفاده نکنید؛ این کار مانند یک شمشیر دو لبه است و هر لحظه امکان دارد سایتتان توسط گوگل جریمه موقتی یا دائم شود. در صورتی که توسط گوگل به صورت دائم جریمه شدید، تقریبا هیچ راه برگشتی برای شما وجود ندارد و باید به فکر راه اندازی یک سایت دیگر باشید!

سوالات متداول

robot txt در سئو چیست؟

robot.txt یک فایل متنی است که برای سئو استفاده می‌شود و حاوی دستوراتی برای روبات‌های فهرست‌کننده موتورهای جستجو است که صفحاتی را مشخص می‌کند که می‌توانند یا نمی‌توانند ایندکس شوند.

robots.txt چه نام دارد؟

یک فایل robots. txt مجموعه ای از دستورالعمل ها برای ربات ها است. این فایل در source files اکثر وب سایت ها قرار دارد. robots. txt بیشتر برای مدیریت فعالیت‌های ربات‌های خوب مانند خزنده‌های وب در نظر گرفته شده‌اند، زیرا ربات‌های بد احتمالاً دستورالعمل‌ها را دنبال نمی‌کنند.

کدام یک بهتر است؟ Robots.txt یا noindex؟

برای سه حالت زیر از robot.txt استفاده کنید. در غیر اینصورت احتمالا متا تگ نوایندکس گزینه بهتری برای شما باشد.

  • استفاده از robot.tx برای پیاده سازی روی منابع چندرسانه ای مانند فیلم ها و فایل های PDF
  • نیاز به محدود کردن بودجه کراول تعداد زیادی از برگه ها
  • موارد خاص که در کل نیاز به خزش ندارند

چگونه خزش ربات خاصی را متوقف کنم؟

برای جلوگیری از ایندکس شدن مقالات خاص در سایت خود توسط همه ربات ها، از متا تگ زیر استفاده کنید: <meta name=”robots” content=”noindex, nofollow”>. همچنین برای جلوگیری از خزش ربات ها در تصاویر یک مقاله خاص، از متا تگ زیر استفاده کنید: <meta name=”robots” content=”noimageindex”>.

با خدمات ابری پارس پک آشنا شوید

اولین ارائه‌دهنده خدمات رایانش ابری در ایران هستیم