فایل Robots.txt چیست و چگونه یک فایل Robots بسازیم؟

فایل Robots.txt چیست و چگونه یک فایل Robots بسازیم؟

برای هر وب سایتی راهنمای ربات موتورهای جستجو اهمیت دارد؛ زیرا با وجود آنها است که سایت شما ایندکس خواهد شد. فایل robots.txt از نظر سئو تاثیر زیادی در ایندکس شدن سایت شما خواهد داشت. ایندکس شدن صفحات گوگل، عاملی برای رتبه گرفتن صفحه‌های سایت شما است و بدون ایندکس شدن، صفحات سایت نمی‌توانند رتبه ای دریافت کنند.
پس از اینکه سایتتان را طراحی کردید، نیاز است که به ربات‌های گوگل و سایر موتورهای جستجو اعلام کنید که کدام صفحه از سایت شما را کرال (crawl) کنند و کدام صفحه را نکنند. از همین رو فایل robots.txt را می‌سازیم. برای تنظیم فایل robots.txt پنج دستور مهم وجود دارد که در این مقاله به بررسی آنها و نحوه ساخت، بهینه سازی و معرفی این فایل خواهیم پرداخت؛ پس در ادامه این مقاله از افراک همراه ما باشید.

همه چیز درباره فایل Robots.txt

وبمستران باید خودشان فایل robots.txt را بسازند. این فایل به ربات‌های موتورهای جستجو دستور می‌دهد که کدام صفحات وب را خزش کرده و کدام را نباید خزش کنند. طبق پروتکل REP استانداردهایی برای ساماندهی وضعیت خزیدن توسط ربات‌ها و ایندکس کردن آنها و همچنین دسترسی به صفحات وب مشخص شده است. البته فایل robots.txt و لینک‌های فالو و نوفالو هم جزو این پروتکل‌ها هستند.

فایل robots.txt چیست

متا تگ Robots

همه افراد به ایندکس شدن سایت خود در گوگل اهمیت نشان می‌دهند و باید بدانند که اگر صفحات ایندکس شده زیاد باشند اما صفحات دارای رتبه بالا کم باشند، اعتبار دامنه کاهش پیدا می‌کند. هرچه اعتبار دامنه کم باشد رتبه گرفتن برای سایت هم سخت خواهد بود.

متا تگ robots در صفحه‌هایی مانند صفحه‌های جستجوی سایت مهم است؛ به دلیل اینکه پل ارتباطی میان صفحات سایت به حساب می‌آید. توجه کنید برای کاربری که از گوگل به سایت منتقل می‌شود، این صفحه اهمیتی ندارد و همچنین افراد نمی‌خواهند که از گوگل به صفحه جستجوی دیگری منتقل شوند.

برای اینکه افراد از ایندکس شدن صفحاتی از سایت جلوگیری کنند، متا تگ Robots ایجاد شده است. کاربرد این متا تگ این است که با رسیدن ربات جستجو به آن ربات با دیدن متا تگ، به صورت کلی صفحه را نادیده می‌گیرد و به سراغ صفحات دیگری می‌رود.

مطلب مرتبط: روش های بهبود رتبه سایت در گوگل

نحوه کار فایل robots.txt

از آنجایی که ربات‌ها لینک‌ها را دنبال می‌کنند، بنابراین اگر از سایتی به سایت دیگر لینک داده شود، ربات‌ها آن لینک را دنبال کرده و به سایت دیگری راه پیدا می‌کنند. اما قبل از اینکه در آن سایت جدید بخزند، فایل robots.txt را بررسی می‌کنند. اگر این فایل در سایت مورد نظر موجود باشد، از اطلاعات آن پیروی می‌کنند؛ در غیر این صورت تمام صفحات سایت را می‌خزند.

دستورات قابل پشتیبانی در فایل robots.txt

در حالت کلی پنج دستور مهم در فایل robots.txt وجود دارد که شامل موارد زیر می‌شوند:

دستور user-agent

دستور  user-agent نوع رباتی که باید از دستورات بعدی پیروی کند را تعیین می‌کند. به عنوان مثال اگر می‌خواهید برای ربات‌های گوگل دستور صادر کنید، نام ربات‌های گوگل را هم خواهد نوشت. اما گر دستور برای همه ربات‌ها است، باید در مقابل user-agent از علامت * استفاده کنید.

نکته: قابل ذکر است که این دستور نمی‌تواند به تنهایی، خودش یک دستور کامل باشد؛ پس باید در کنار دستورهای بعدی که در ادامه خواهیم گفت استفاده شود.

دستور disallow

این دستور به معنای اجازه ندادن است؛ پس صفحاتی را که ربات نباید کرول کند را باید در مقابل آن بنویسید. نکته مهمی که وجود دارد این است که روت دامین نباید نوشته شود و فقط باید بعد از اسلش را بنویسید. علاوه بر این، اگر قصد دارید چند صفحه را disallow کنید، باید از چند دستور disallow استفاده نمایید. مانند دستورهای بخش بعدی:
User-agent: *
Disallow: /products/content/
Disallow: /local/enterprise/confirm
Disallow: /researchtools/ose/
Disallow: /page-strength/*
Disallow: /thumbs/*

دستور allow

دستور allow به معنای اجازه دادن است؛ این دستور به ربات‌های مشخص شده اجازه می‌دهد که صفحات نوشته شده در مقابل این دستور بخزند. نحوه استفاده از این دستور دقیقاً مانند دستور disallow است. توجه کنید که نوشتن این دستور واجب نیست؛ به دلیل اینکه ربات‌ها به صورت پیش فرض تمام صفحات سایت را می‌خزند.

دستور crawl-delay

این دستور می‌تواند بر سرعت لود صفحه‌های سایت تاثیر بگذارد. بنابراین سرعت سایت شما به دلیل ورود تعداد زیاد خزنده‌ها کاهش پیدا نمی‌کند. شما می‌توانید در مقابل این دستور هر عددی را بنویسید؛ این اعداد نشان دهنده این است که ربات‌های مشخص شده چقدر باید صبر کنند تا سایت را بخزند. البته این دستور برای ربات‌های گوگل تاثیری ندارد.

دستور sitemap

استفاده از این دستور نیز راحت است. شما باید در مقابل این دستور آدرس سایت مپ را وارد کنید. این سایت نیازی به دستور user-agent ندارد.

یک فایل Robots.txt باید چه مشخصاتی داشته باشد؟

به طور معمول در این فایل اگر سایتتان وردپرسی باشد، صفحه‌های /wp-admin/ و /readme.html/ حاوی اطلاعات نسخه وردپرس شما هستند. همچنین تمام افزونه‌های سایتتان باید disallow شوند. آدرس سایت مپ را هم در این فایل تعریف می‌کنند تا خزنده‌های گوگل جایگاه صفحه‌های مختلف سایت را بیابند. البته شما می‌توانید با توجه به نیازهای خود، از هر فایلی به دلخواه خودتان در disallow استفاده کنید.

حتما بخوانید: مهم ترین فاکتورهای رتبه بندی گوگل

کاربرد فایل robots.txt

این فایل می‌تواند خیلی کاربردی باشد؛ برخی از کاربردهای آن عبارتند از:

  • می‌توانید برای ربات‌ها یک زمان تاخیر در خزیدن تعریف کنید؛ با این روش دیگر وقتی سایت شما شلوغ شد سرعت آن پایین نخواهد آمد و به نوعی ترافیک را مدیریت خواهد کرد.
  • اگر محتوای تکراری در سایت داشتید، می‌توانید یکی از صفحات را disallow کنید.
  • می‌توانید بخشی از سایت مانند صفحه عقد قراردادها را در دسترس همه افراد قرار ندهید.
  • همچنین با این فایل می‌توانید نقشه سایت را برای ربات‌های گوگل توسط دستور allow مشخص نمایید.
  • اجازه ایندکس فایل‌های PDF یا تصاویر را به ربات‌ها ندهید.

چطور فایل robots.txt بسازیم؟

برای اینکه فایل robots.txt بسازید، باید مراحل زیر را دنبال کنید:

  1. به صفحه اصلی هاست خود در سی پنل و یا دایرکت ادمین بروید.
  2. روی file manager کلیک نمایید.
  3. سپس وارد پوشه public_html شوید.
  4. بعد از اینکه وارد پوشه شدید، فایل جدیدی به نام robots.txt ایجاد کنید.
  5. سپس فایل را (با دو بار کلیک) ذخیره کنید و دستورات مدنظر خود را در آن وارد کنید.
  6. بعد از ذخیره تغییرات، فایل را جایگزین فایل قبلی بکنید.

نکته مهمی که باید در تمامی مراحل به آن توجه کنید این است که فایل robots.txt به کوچک و بزرگ بودن حروف حساس است و حتی نام خود فایل را هم باید با حروف کوچک بنویسید.

فایل robots.txt چه تاثیری در سئو دارد؟

از نظر سئو باید چندین مورد رعایت شود که عبارتند از:

  • فایل‌های که در disallow قرار دارند، در حالت کلی خزیده نمی‌شوند. همچنین حتی لینک‌های داخل این فایل‌ها به نوفالو تبدیل می‌شوند؛ پس اگر قصد دارید لینک‌های داخل صفحه فالو باشند، از روش دیگری به غیر از disallow استفاده کنید.
  • باید بدانید که استفاده از دستور disallow برای عدم نشان دادن اطلاعاتی مثل اطلاعات خصوصی افراد کاری بی فایده است. چرا که ممکن است شما از صفحات دیگر سایت به این صفحه لینک داده باشید و خزنده‌ها یا ربات‌ها توسط آن لینک‌ها به صفحه ذکر شده رسیده باشند و آن را ایندکس کنند.
  • به طور معمول اطلاعات فایل robots.txt در موتورهای جستجوی گوگل، یک روز در کش ذخیره و نگهداری می‌شوند. پس اگر محتوای این فایل را تغییر بدهید تا موتورهای جستجو از این تغییرات زودتر اطلاع داشته باشند، نیاز است که فایل را دوباره در کنسول گوگل قرار بدهید.
فایل robots.txt چیست

چک کردن وجود فایل robots.txt در یک سایت

برای اینکه در یک سایت بررسی کنید که فایل robots.txt وجود دارد یا نه، باید در انتهای ریشه دامین اصلی سایت مورد نظرتان اسلش بگذارید و سپس عبارت robots.txt را بنویسید. با این دستور محتویات فایل را مشاهده خواهید کرد و در صورت وجود نداشتن فایل با ارور 404 رو به رو خواهید شد.

سخن پایانی

ساخت فایل robots.txt از مبحث‌های مهم سئو تکنیکال است که باعث می‌شود توسط دستورهای مختلف به ربات‌ها بگوییم که کدام فایل را خزش کرده و کدام را نکنند. در این مقاله به بررسی فایل robots.txt، تاثیر در سئو، نحوه ساخت آن و کاربردهایش صحبت کردیم. امید است که بتوانید از مطالب این مقاله بهره مند شوید.

سوالات متداول

فایل robots.txt متنی است که برای بهبود سئو سایت استفاده می‌شود. این فایل دستورهایی دارد که مشخص می‌کنند صفحه ای می‌تواند ایندکس شود یا نه.

برای مدیریت دسترسی موتورهای جستجوی گوگل، بهینه سازی سایت، مدیریت لینک‌ها و آدرس‌ها و به حداکثر رساندن بودجه خزش می‌توانیم از فایل robots.txt استفاده کنیم.

برای اینکه از ایندکس شدن مقالات خاص خود در سایت توسط ربات‌های مختلف جلوگیری کنید، کافی است از متا تگ نو ایندکس استفاده کنید.

نظر شما

ایده های عالی خود را وارد کنید