فایل robots.txt چیست | راهنمای گام به گام | ایران لرن
آموزش رایگان دیجیتال مارکتینگ

فایل robots.txt چیست؟ راهنمای گام به گام

بدون دیدگاه


خوشبختانه این فقط موتورهای جست‌وجو نیستند که برای شما و وب‌سایت شما، تعیین‌تکلیف می‌کنند چون شما هم می‌توانید آن‌ها را کنترل و برایشان، حد و حدود مشخص کنید. یکی از مهم‌ترین ابزارهایی که برای اعمال قدرت خود بر ربات‌های جستجوگری مثل Googlebot یا Bingbot در اختیار دارید، robots txt است. robots txt یک فایل متنی ساده است که در دایرکتوری ریشه وب‌سایت شما قرار دارد و به ربات‌هایی که توسط موتورهای جستجو ارسال می‌شوند، اطلاع می‌دهد که اجازه دارند در کدام صفحه‌های بخزند و کدام صفحه‌ها را باید نادیده بگیرند.

با استفاده از این ابزار، می‌توانید سایت خود را آن‌طور که دوست دارید به گوگل یا هر ابزار جستجوی رسمی دیگری نشان دهید و از آن‌ها بخواهید به حریم خصوصی شما کاری نداشته باشند. اگر از robots txt، به‌درستی استفاده کنید، می‌توانید از تأثیر مثبت آن بر سئوی سایت خود بهره ببرید. بنابراین اگر می‌خواهید بدانید robots txt دقیقا چیست؟ چطوری کار می‌کند و چه مزایای دارد؟ تا انتهای این مطلب با ایران‌لرن همراه شوید.

robots txt چیست؟

robots txt چیست؟

موقعی‌که یک موتور جستجو به‌سراغ وب‌سایت شما می‌آید، اولین چیزی‌که به‌دنبال آن می‌گردد فایل robots txt شماست. این فایل به موتورهای جستجو می‌گوید که چه چیزی را باید و چه چیزی را نباید ایندکس کنند.

بعد از این مرحله، موتور جستجو «بات» (bot) یا «ربات» (robot) یا «عنکبوت» (spider) خود را می‌فرستد تا در سایت شما، همان‌طور که در فایل robots txt راهنمایی شده است، بخزد. هدف این فایل این است که به موتورهای جستجو بگوید کدام URLها مجاز به ایندکس‌شدن یا همان فهرست‌شدن در یک وب‌سایت هستند.

ربات گوگل، Googlebot و ربات مایکروسافت بینگ هم اسمش Bingbot است. موتورهای جستجوی دیگری مثل Excite، Lycos، Alexa و Ask Jeeves هم ربات‌های خاص خود را دارند. robots txt به شما امکان می‌دهد خزنده‌های موتورهای جستجو را از هر پلتفرمی بر اساس نیاز خود کنترل کنید.

موقعیکه هر کدام از این ربات‌های موتور جست‌وجو وارد سایت شما می‌شوند، در اولین قدم، فایل robots txt را دانلود می‌کنند. این فایل حاوی دستورالعمل‌هایی است که مشخص می‌کند این خزنده‌ها (ربات‌ها)، مجاز به جستجو در کدام قسمت از وب‌سایت هستند و در کدام مناطق اجازه جست‌وجو ندارند. درواقع با استفاده از این فایل متنی ساده، می‌توانید به‌راحتی کل دامنه‌ها، دایرکتوری‌ها، یک یا چند زیرشاخه یا فایل‌های جداگانه را از خزیدن موتور جستجو حذف کنید.

robot txt چگونه کار می‌کند

robot txt چگونه کار می‌کند

در سال 1994 پروتکلی به نام REP (پروتکل استاندارد حذف روبات‌ها که مخفف Robots Exclusion Standard Protocol است) منتشر شد. این پروتکل تصریح می‌کند که تمام خزنده‌های موتورهای جستجو (کاربر-عامل) اول باید فایل robots txt را در فهرست اصلی سایت شما جستجو و دستورالعمل‌های موجود در آن را بخوانند. فقط در این صورت، ربات‌ها می‌توانند شروع به فهرست‌کردن صفحه وب شما کنند.

فایل باید در دایرکتوری ریشه دامنه شما قرار داشته باشد و با حروف کوچک نوشته شود چون روبات‌ها فایل robots txt و دستورالعمل‌های آن را به حروف کوچک می‌خوانند. هرچند که همه ربات‌های موتورهای جستجو از این قوانین پیروی نمی‌کنند اما مهم‌ترین موتورهای جستجو مثل بینگ، یاهو و گوگل از دستورالعمل‌های REP و robots.txt پیروی می‌کنند.

از robots txt می‌توان برای انواع مختلف فایل استفاده کرد. برای مثال، می‌توانید فایل‌های منبع بی‌اهمیت، مثل فایل‌های اسکریپت، سبک و تصویر را به‌راحتی با robots.txt مسدود کنید تا از نمایش این فایل‌ها در نتایج جستجوی گوگل جلوگیری ‌کند. همچنین با استفاده از دستورات مناسب می‌توان، صفحه‌های نتیجه یک عملکرد جستجوی داخلی، صفحه‌های دارای شناسه جلسه یا اقدامات کاربر مثل سبد خرید را مسدود کرد.

مزایای استفاده از  robots txt برای وب‌سایت

مزایای استفاده از  robots txt برای وب‌سایت

اگر وب‌سایت شما صفحه‌های زیادی دارد، ممکن است بخواهید صفحه‌های خاصی را مسدود کنید تا خزنده‌های وب موتورهای جستجو را تحت تأثیر قرار ندهند و به رتبه شما آسیب نرسانند. کاری که با robots txt امکان‌پذیر می‌شود. در ادامه بعضی دیگر از مهم‌ترین مزایای این فایل کنترل‌گر را با شما مطرح می‌کنیم.

1. به دسترسی به وب‌سایت شما کمک می‌کند

robots txt مثل دروازه‌ای برای نمایش وب‌سایت شما برای موتور جستجو عمل می‌کند. موقعی‌که از اسکریپت‌ها برای نوشتن پروتکل‌های توسعه فایل robots txt استفاده کرده‌اید، به‌راحتی متوجه خواهید شد که وب‌سایت مستقیماً در موتور جستجو نمایش داده می‌شود.

هر خزنده موتور جستجو پروتکل خاص خود را برای دسترسی به وب‌سایت شما دارد. شما باید مراحل نوشتن اسکریپت فایل robots txt را دنبال کنید تا محتوای وب‌سایت شما توسط موتور جستجو کشف شود.

2. موتور جستجو را از دسترسی به فایل‌های خصوصی خود منع می‌کند

اگر فایلی وجود دارد که روی سرور وب میزبانی شده است، شما این اختیار را دارید که قوانینی را برای عدم دسترسی به آن فایل‌ها برای موتورهای جستجو وضع کنید. این مورد می‌تواند شامل فایل‌های اداری، صفحه‌های ورود یا هر سند مالی ذخیره‌شده بر روی سرور شما باشد. بنابراین صاحبان وب‌سایت‌ها از robots txt استفاده می‌کنند تا فایل‌های محرمانه کسب‌وکارشان، در دسترس همه قرار نگیرد.

3. به حفظ شهرت وب‌سایت شما کمک می‌کند

موقعی‌که موتور جستجو صفحه‌هایی را از سایت شما، ایندکس کند که برای کاربر نهایی مناسب نباشند، این مورد یک تأثیر منفی ‌در مخاطبان هدف شما ایجاد می‌کند. به‌همین‌دلیل است که فایل robots txt پیاده‌سازی می‌شود تا بتوانید ربات‌های جستجو را به صفحه‌های فهرست‌بندی مرتبط با کاربران هدایت کنید و مواردی را که برای آن‌ها مفید نیست را نادیده بگیرند.

4. زمانی استفاده می‌شود که وب‌سایت شما در حال ساخت است

robots txt معمولاً زمانی استفاده می‌شود که وب‌سایت شما در حال توسعه است. ازآنجایی‌که شما طبیعتا نمی‌خواهید صفحه‌های وبی را که به کاربر نهایی یا موتور جستجو مرتبط نیستند، نمایش دهید، باید robots txt را پیاده‌سازی کنید. این فایل وب‌سایت شما را برای کاربران کاملاً غیرقابل‌دسترس می‌کند.

به‌همین‌ترتیب، می‌توانید همین تکنیک را برای صفحه خاصی در وب‌سایت خود که تحت مرحله نگهداری یا توسعه است، پیاده‌سازی کنید.

5. با آن می‌توانید دسترسی ربات‌های غیرمجاز به وب‌سایت را کنترل کنید

همان‌طور که می‌دانید یکی از مهم‌ترین خطرهایی که همیشه وب‌سایت‌ها را تهدید می‌کند، هکرها و ربات‌های غیرمجازشان هستند. این خزنده‌ها،  اعتبار شخصی وب‌سایت شما را ذخیره و یا نوعی بدافزار یا ویروس را در سایت شما تزریق می‌کنند. با استفاده از فایل robots txt می‌توانید به‌راحتی تمامی این ربات‌های جاسوس‌افزار را کنترل و دسترسی آن‌ها را به وب‌سایت خود محدود کنید. برای این کار باید بدانید که کدام ربات‌های غیرمجاز هستند و دستورالعمل‌های مربوط به آن را ارائه دهید.

دستورالعمل نوشتن robots txt

دستورالعمل نوشتن robots txt

robots txt شما باید به‌عنوان یک فایل متنی UTF-8 یا ASCII در فهرست اصلی صفحه وب شما ذخیره شود و فقط یک فایل با این نام باید وجود داشته باشد. در این فایل قوانین (دستورالعمل‌ها) از بالا به پایین پردازش می‌شوند و ساختاری کاملاً خوانا دارند. معمولاً از عبارات زیر در فایل robots txt استفاده می‌شود:

  • user-agent: نشان‌دهنده نام خزنده است (user agentبرنامه‌ای است که به‌عنوان یک واسطه بین کاربر و وب سرور عمل می‌کند. دستورالعمل‌های کاربر را پردازش آن‌ها را منتقل و داده‌های درخواستی را دریافت می‌کند.)
  • Disallow: از خزیدن بعضی فایل‌ها، دایرکتوری‌ها یا صفحه‌های وب جلوگیری می‌کند
  • allow: امکان خزیدن در فایل‌ها، صفحه‌های وب و فهرست‌ها را فراهم می‌کند
  • sitemapیا نقشه سایت (اختیاری): مکان نقشه سایت را نشان می‌دهد
  • *: مخفف هر تعداد کاراکتر
  • $: مخفف انتهای خط

دستورالعمل‌ها (ورودی‌ها) در robots.txt همیشه از دو قسمت تشکیل‌شده است. در قسمت اول، شما تعریف می‌کنید که دستورالعمل زیر برای کدام ربات‌ها (user-agents) اعمال می‌شود. بخش دوم شامل دستورالعمل (disallow  یا allow) است.

«user-agent: Google-Bot» و دستور «disallow: /clients/» به‌این‌معنی است که ربات گوگل مجاز به جستجو در فهرست /clients/ نیست. اگر قرار باشد کل یک وب‌سایت توسط ربات جستجو ایندکس نشود، ورودی آن می‌شود: «user-agent: *» با دستور « disallow: /»

همچنین می‌توانید از علامت «$» برای مسدودکردن صفحه‌هایی از وب که پسوند خاصی دارند استفاده کنید. عبارت «disallow: /* .doc$» همه URLهای دارای پسوند .doc را مسدود می‌کند. به‌همین‌ترتیب، می‌توانید فرمت‌های فایل خاصی را در robots.txt مسدود کنید.

به‌عنوان‌مثال، فایل robots.txt برای وب‌سایت https://www.example.com می‌تواند به‌شکل زیر باشد:

User-agent: *
Disallow: /login/
Disallow: /card/
Disallow: /photos/
Disallow: /temp/
Disallow: /search/
Disallow: /*.pdf$
Sitemap: https://www.example.com/sitemap.xml

چگونه می‌توان از فایل robots txt برای سئو استفاده کرد؟

چگونه می‌توان از فایل robots txt برای سئو استفاده کرد؟

برای اینکه سایت شما در نتایج جستجو ظاهر شود، موتورهای جستجو باید در صفحه‌های شما بخزند. وظیفه فایل robots txt این است که به خزنده‌های موتورهای جستجو کمک کند تا روی صفحه‌هایی تمرکز کنند که می‌خواهید در نتایج جستجو قابل‌مشاهده باشند. ازآنجایی‌که دستورالعمل‌های موجود در فایل robots txt به شما امکان می‌دهد روبات‌های جستجوگر را کنترل کنید، می‌تواند تأثیر زیادی بر سئو (بهینه‌سازی موتور جستجو) داشته باشد. در ادامه مهم‌ترین روش‌های استفاده از فایل robots txt برای بهبود سئوی سایت را خواهید دید:

صفحه‌های خصوصی را از جستجو حذف کنید

گاهی اوقات، صفحه‌هایی خواهید داشت که نیازی به نمایش در نتایج جستجو ندارند. دستور‌دادن به خزنده‌ها برای رد‌شدن از این صفحه‌های خصوصی، در به‌حداکثر‌رساندن crawl budget یا بودجه خزش شما کمک می‌کند (تعداد صفحه‌هایی که یک موتور جستجو در یک بازه زمانی مشخص می‌خزد و فهرست می‌کند). همچنین با robots txt، مطمئن می‌شود که موتورهای جستجو فقط صفحه‌هایی را می‌خزند که می‌خواهید در نتایج جستجو ظاهر شوند.

جلوگیری از فهرست‌بندی فایل‌های منابع

ایجاد یک وب‌سایت می‌تواند به آپلود فایل‌های منبعی مثل تصاویر، فیلم‌ها و فایل‌های PDF نیاز دارد. ازآنجایی‌که ممکن است نخواهید این صفحه‌های خزیده و ایندکس شوند، می‌توانید از یک فایل robots txt برای محدود کردن ترافیک خزیدن به فایل‌های منابع خود استفاده کنید.

علاوه‌براین، فایل robots txt شما می‌تواند از نمایش این فایل‌ها در جستجوهای گوگل جلوگیری کند تا هم موتورهای جستجو و هم کاربران سایت شما فقط به مرتبط‌ترین محتوای شما هدایت ‌شوند.

مدیریت ترافیک سایت

شما می‌توانید از robots txt برای تنظیم قوانینی استفاده کنید که با آن‌ها، از بارگیری بیش‌ازحد وب‌سایت شما بر اساس درخواست‌ها جلوگیری شود. می‌توانید یک تأخیر خزیدن را در فایل robots txt خود تعیین کنید. تأخیر خزیدن به موتورهای جستجو می‌گوید که چه مدت باید قبل از شروع مجدد فرآیند خزیدن صبر کنند. به‎‌عنوان‌مثال، می‌توانید تأخیر خزیدن را روی 60 ثانیه تنظیم کنید تا فواصل بارگذاری درخواست‌ها در فواصل یک دقیقه‌ای تنظیم ‌شوند. این کار از خطاهای احتمالی موقع بارگذاری بیش‌ازحد وب‌سایت شما، جلوگیری می‌کند.

sitemap (نقشه سایت) خود را اعلام کنید

همان‌طور که در اسناد گوگل مشخص ‌شده است، باید یک خط در robots txt خود قرار دهید که مکان نقشه سایت شما را مشخص می‌کند. این کار به Googlebot (و سایر ربات‌ها) کمک می‌کند نقشه سایت شما را سریع پیدا کنند. اگر این خط وجود نداشته باشد، امکان دارد sitemap به‌طور منظم خزیده نشود، درنتیجه باعث تأخیر و ناهماهنگی در نحوه ایندکس‌شدن سایت می‌شود و در رتبه‌بندی سایت شما تأثیر منفی می‌گذارد.

عدم‌نمایش محتوای تکراری

همان‌طور که می‌دانید محتوای تکراری یکی از تهدیدکننده‌ترین موقعیت‌ها برای جریمه‌شدن یک وب‌سایت توسط خزنده‌های موتورهای جستجو است. خط قرمزی که متخصصان سئو در برابر آن بسیار محتاط هستند. بنابراین اگر صفحه‌های وبی دارید که چندین بار تکرار شده‌اند، می‌توانید از robots txt برای کنار گذاشتن آن‌ها استفاده کنید.

توصیه‌های گوگل در مورد فایل robots txt

توصیه‌های گوگل در مورد فایل robots txt

همان‌طور که دیدید، فایل‌های robots txt در سئو مهم هستند، بااین‌حال بعضی محدودیت‌ها وجود دارند که باید موقع نوشتن این فایل‌ها، در نظر داشته باشید.

  1. گوگل می‌گوید، اطلاعاتی که در فایل robots txt خود ارائه می‌دهید، «نمی‌تواند خزنده را مجبور کند از قوانین سایت شما پیروی کند». به‌هر‌حال خزنده‌های رسمی مثل گوگل، بینگ، یاهو، یاندکس، بایدو و غیره به قوانین شما احترام می‌گذارند، اما این فایل جلوی ربات‌های مخرب که به‌دنبال تضعیف امنیت سایت شما هستند را نمی‌گیرد. همچنین در نظر داشته باشید که همه ربات‌ها دستورالعمل‌ها را به یک شکل تفسیر نمی‌کنند، بنابراین حتماً از پروتکل‌های گوگل برای نوشتن این قوانین، پیروی کنید.
  2. فایل robots txt یک فایل عمومی است. هرکسی می‌تواند با تایپ الگوی com/robots.txt به آن دسترسی داشته باشد پس از robots txt برای مخفی‌کردن هیچ محتوایی استفاده نکنید، چون قابل ‌ردیابی است.
  3. اگر صفحه‌های خاصی را که نمی‌خواستید در نتایج جستجو ظاهر شوند، در فایل robots txt مسدود کرده باشید، اما در دیگر بخش‌های سایت، به آن‌ها لینک داده باشید، ممکن است گوگل آن را در نتایج جستجوی خود نمایش دهد. برای جلوگیری از ظاهرشدن یک صفحه در نتایج جستجو، گوگل توصیه می‌کند از چیزی استفاده کنید که برچسب noindex نامیده می‌شود (برای مثال در Yoast SEO این تگ را می‌توانید با برداشتن تیک کادر «Allow search engines to show this Post in search results?» که در زیر هر پست قرار دارد، فعال کنید).

همچنین در نظر داشته باشید که بعدازاینکه فایل robots txt را در وب‌سایت خود آپلود کردید، حتماً آن را آزمایش کنید تا مطمئن شوید که درست کار می‌کند.

چگونه بررسی کنیم که فایل robots txt به‌درستی کار می‌کند؟

چگونه بررسی کنیم که فایل robots txt به‌درستی کار می‌کند؟

برای اطمینان از اینکه فایل شما به‌درستی تنظیم‌شده باشد، می‌توانید آن را در Google Search Console، که یک ابزار رایگان برای مدیریت سئوی سایت است، بررسی و تأیید کنید. بعدازاینکه وب‌سایت خود را در آنجا ثبت کردید، باید وارد the robots.txt file testing tool شوید. سپس، بعد از واردکردن دستورالعمل‌های انتخابی خود در ویرایشگر ارائه‌شده، می‌توانید فایل خود را تست کنید. اگر همه‌چیز خوب است، پیام زیر را در پایین ویرایشگر نشان داده می‌شود.

اگر robots txt خراب شود یا از بین برود چه اتفاقی برای سئوی وب‌سایت شما می‌افتد؟

اگر فایل robots txt شما خراب یا گم شده باشد، می‌تواند باعث شود خزنده‌های موتور جستجو صفحه‌هایی که شما نمی‌خواهید را ایندکس کنند. اتفاقی که درنهایت می‌تواند منجر به رتبه‌بندی بد در گوگل شود که برای سئو سایت شما اتفاق خوبی نیست.

یک فایل robots txt خراب هم می‌تواند باعث شود خزنده‌های موتور جستجو صفحه‌های مهم سایت‌تان را از دست بدهند بنابراین، خیلی مهم است که مطمئن شوید فایل robots txt شما درست کار می‌کند و در فهرست اصلی وب‌سایت‌تان قرار دارد.

نتیجه‌گیری

فایل robots.txt ابزار قدرتمندی است که می‌تواند برای بهبود سئوی وب‌سایت شما استفاده شود. بااین‌حال، استفاده درست از آن مهم است. موقعی‌که به‌درستی از فایل robots txt استفاده شود، شما می‌توانید کنترل کنید که کدام صفحه‌ها توسط موتورهای جستجو ایندکس شوند تا خزیدن روبات‌ها در وب‌سایت‌تان را بهینه‌تر کنند. همچنین می‌تواند به سایت شما در مقابل مشکلاتی مثل ایجاد محتوای تکراری کمک کند.

ازطرف دیگر اما، اگر استفاده نادرستی از این فایل داشته باشید، یک فایل robots txt می‌تواند بیشتر از آنکه مفید باشد، ضرر داشته باشد پس مطمئن شوید که از اسکریپت‌ها به‌درستی استفاده می‌کنید و قبل از اینکه فایل robots txt را روی سرور وب خود اجرا کنید، حتماً آزمایشش کنید.

ارسال دیدگاه
منتظردیدگاه شماهستیم

ارسال نظر