فهرست مطالب
خوشبختانه این فقط موتورهای جستوجو نیستند که برای شما و وبسایت شما، تعیینتکلیف میکنند چون شما هم میتوانید آنها را کنترل و برایشان، حد و حدود مشخص کنید. یکی از مهمترین ابزارهایی که برای اعمال قدرت خود بر رباتهای جستجوگری مثل Googlebot یا Bingbot در اختیار دارید، robots txt است. robots txt یک فایل متنی ساده است که در دایرکتوری ریشه وبسایت شما قرار دارد و به رباتهایی که توسط موتورهای جستجو ارسال میشوند، اطلاع میدهد که اجازه دارند در کدام صفحههای بخزند و کدام صفحهها را باید نادیده بگیرند.
با استفاده از این ابزار، میتوانید سایت خود را آنطور که دوست دارید به گوگل یا هر ابزار جستجوی رسمی دیگری نشان دهید و از آنها بخواهید به حریم خصوصی شما کاری نداشته باشند. اگر از robots txt، بهدرستی استفاده کنید، میتوانید از تأثیر مثبت آن بر سئوی سایت خود بهره ببرید. بنابراین اگر میخواهید بدانید robots txt دقیقا چیست؟ چطوری کار میکند و چه مزایای دارد؟ تا انتهای این مطلب با ایرانلرن همراه شوید.
robots txt چیست؟
موقعیکه یک موتور جستجو بهسراغ وبسایت شما میآید، اولین چیزیکه بهدنبال آن میگردد فایل robots txt شماست. این فایل به موتورهای جستجو میگوید که چه چیزی را باید و چه چیزی را نباید ایندکس کنند.
بعد از این مرحله، موتور جستجو «بات» (bot) یا «ربات» (robot) یا «عنکبوت» (spider) خود را میفرستد تا در سایت شما، همانطور که در فایل robots txt راهنمایی شده است، بخزد. هدف این فایل این است که به موتورهای جستجو بگوید کدام URLها مجاز به ایندکسشدن یا همان فهرستشدن در یک وبسایت هستند.
ربات گوگل، Googlebot و ربات مایکروسافت بینگ هم اسمش Bingbot است. موتورهای جستجوی دیگری مثل Excite، Lycos، Alexa و Ask Jeeves هم رباتهای خاص خود را دارند. robots txt به شما امکان میدهد خزندههای موتورهای جستجو را از هر پلتفرمی بر اساس نیاز خود کنترل کنید.
موقعیکه هر کدام از این رباتهای موتور جستوجو وارد سایت شما میشوند، در اولین قدم، فایل robots txt را دانلود میکنند. این فایل حاوی دستورالعملهایی است که مشخص میکند این خزندهها (رباتها)، مجاز به جستجو در کدام قسمت از وبسایت هستند و در کدام مناطق اجازه جستوجو ندارند. درواقع با استفاده از این فایل متنی ساده، میتوانید بهراحتی کل دامنهها، دایرکتوریها، یک یا چند زیرشاخه یا فایلهای جداگانه را از خزیدن موتور جستجو حذف کنید.
robot txt چگونه کار میکند
در سال 1994 پروتکلی به نام REP (پروتکل استاندارد حذف روباتها که مخفف Robots Exclusion Standard Protocol است) منتشر شد. این پروتکل تصریح میکند که تمام خزندههای موتورهای جستجو (کاربر-عامل) اول باید فایل robots txt را در فهرست اصلی سایت شما جستجو و دستورالعملهای موجود در آن را بخوانند. فقط در این صورت، رباتها میتوانند شروع به فهرستکردن صفحه وب شما کنند.
فایل باید در دایرکتوری ریشه دامنه شما قرار داشته باشد و با حروف کوچک نوشته شود چون روباتها فایل robots txt و دستورالعملهای آن را به حروف کوچک میخوانند. هرچند که همه رباتهای موتورهای جستجو از این قوانین پیروی نمیکنند اما مهمترین موتورهای جستجو مثل بینگ، یاهو و گوگل از دستورالعملهای REP و robots.txt پیروی میکنند.
از robots txt میتوان برای انواع مختلف فایل استفاده کرد. برای مثال، میتوانید فایلهای منبع بیاهمیت، مثل فایلهای اسکریپت، سبک و تصویر را بهراحتی با robots.txt مسدود کنید تا از نمایش این فایلها در نتایج جستجوی گوگل جلوگیری کند. همچنین با استفاده از دستورات مناسب میتوان، صفحههای نتیجه یک عملکرد جستجوی داخلی، صفحههای دارای شناسه جلسه یا اقدامات کاربر مثل سبد خرید را مسدود کرد.
مزایای استفاده از robots txt برای وبسایت
اگر وبسایت شما صفحههای زیادی دارد، ممکن است بخواهید صفحههای خاصی را مسدود کنید تا خزندههای وب موتورهای جستجو را تحت تأثیر قرار ندهند و به رتبه شما آسیب نرسانند. کاری که با robots txt امکانپذیر میشود. در ادامه بعضی دیگر از مهمترین مزایای این فایل کنترلگر را با شما مطرح میکنیم.
1. به دسترسی به وبسایت شما کمک میکند
robots txt مثل دروازهای برای نمایش وبسایت شما برای موتور جستجو عمل میکند. موقعیکه از اسکریپتها برای نوشتن پروتکلهای توسعه فایل robots txt استفاده کردهاید، بهراحتی متوجه خواهید شد که وبسایت مستقیماً در موتور جستجو نمایش داده میشود.
هر خزنده موتور جستجو پروتکل خاص خود را برای دسترسی به وبسایت شما دارد. شما باید مراحل نوشتن اسکریپت فایل robots txt را دنبال کنید تا محتوای وبسایت شما توسط موتور جستجو کشف شود.
2. موتور جستجو را از دسترسی به فایلهای خصوصی خود منع میکند
اگر فایلی وجود دارد که روی سرور وب میزبانی شده است، شما این اختیار را دارید که قوانینی را برای عدم دسترسی به آن فایلها برای موتورهای جستجو وضع کنید. این مورد میتواند شامل فایلهای اداری، صفحههای ورود یا هر سند مالی ذخیرهشده بر روی سرور شما باشد. بنابراین صاحبان وبسایتها از robots txt استفاده میکنند تا فایلهای محرمانه کسبوکارشان، در دسترس همه قرار نگیرد.
3. به حفظ شهرت وبسایت شما کمک میکند
موقعیکه موتور جستجو صفحههایی را از سایت شما، ایندکس کند که برای کاربر نهایی مناسب نباشند، این مورد یک تأثیر منفی در مخاطبان هدف شما ایجاد میکند. بههمیندلیل است که فایل robots txt پیادهسازی میشود تا بتوانید رباتهای جستجو را به صفحههای فهرستبندی مرتبط با کاربران هدایت کنید و مواردی را که برای آنها مفید نیست را نادیده بگیرند.
4. زمانی استفاده میشود که وبسایت شما در حال ساخت است
robots txt معمولاً زمانی استفاده میشود که وبسایت شما در حال توسعه است. ازآنجاییکه شما طبیعتا نمیخواهید صفحههای وبی را که به کاربر نهایی یا موتور جستجو مرتبط نیستند، نمایش دهید، باید robots txt را پیادهسازی کنید. این فایل وبسایت شما را برای کاربران کاملاً غیرقابلدسترس میکند.
بههمینترتیب، میتوانید همین تکنیک را برای صفحه خاصی در وبسایت خود که تحت مرحله نگهداری یا توسعه است، پیادهسازی کنید.
5. با آن میتوانید دسترسی رباتهای غیرمجاز به وبسایت را کنترل کنید
همانطور که میدانید یکی از مهمترین خطرهایی که همیشه وبسایتها را تهدید میکند، هکرها و رباتهای غیرمجازشان هستند. این خزندهها، اعتبار شخصی وبسایت شما را ذخیره و یا نوعی بدافزار یا ویروس را در سایت شما تزریق میکنند. با استفاده از فایل robots txt میتوانید بهراحتی تمامی این رباتهای جاسوسافزار را کنترل و دسترسی آنها را به وبسایت خود محدود کنید. برای این کار باید بدانید که کدام رباتهای غیرمجاز هستند و دستورالعملهای مربوط به آن را ارائه دهید.
دستورالعمل نوشتن robots txt
robots txt شما باید بهعنوان یک فایل متنی UTF-8 یا ASCII در فهرست اصلی صفحه وب شما ذخیره شود و فقط یک فایل با این نام باید وجود داشته باشد. در این فایل قوانین (دستورالعملها) از بالا به پایین پردازش میشوند و ساختاری کاملاً خوانا دارند. معمولاً از عبارات زیر در فایل robots txt استفاده میشود:
- user-agent: نشاندهنده نام خزنده است (user agentبرنامهای است که بهعنوان یک واسطه بین کاربر و وب سرور عمل میکند. دستورالعملهای کاربر را پردازش آنها را منتقل و دادههای درخواستی را دریافت میکند.)
- Disallow: از خزیدن بعضی فایلها، دایرکتوریها یا صفحههای وب جلوگیری میکند
- allow: امکان خزیدن در فایلها، صفحههای وب و فهرستها را فراهم میکند
- sitemapیا نقشه سایت (اختیاری): مکان نقشه سایت را نشان میدهد
- *: مخفف هر تعداد کاراکتر
- $: مخفف انتهای خط
دستورالعملها (ورودیها) در robots.txt همیشه از دو قسمت تشکیلشده است. در قسمت اول، شما تعریف میکنید که دستورالعمل زیر برای کدام رباتها (user-agents) اعمال میشود. بخش دوم شامل دستورالعمل (disallow یا allow) است.
«user-agent: Google-Bot» و دستور «disallow: /clients/» بهاینمعنی است که ربات گوگل مجاز به جستجو در فهرست /clients/ نیست. اگر قرار باشد کل یک وبسایت توسط ربات جستجو ایندکس نشود، ورودی آن میشود: «user-agent: *» با دستور « disallow: /»
همچنین میتوانید از علامت «$» برای مسدودکردن صفحههایی از وب که پسوند خاصی دارند استفاده کنید. عبارت «disallow: /* .doc$» همه URLهای دارای پسوند .doc را مسدود میکند. بههمینترتیب، میتوانید فرمتهای فایل خاصی را در robots.txt مسدود کنید.
بهعنوانمثال، فایل robots.txt برای وبسایت https://www.example.com میتواند بهشکل زیر باشد:
User-agent: *
Disallow: /login/
Disallow: /card/
Disallow: /photos/
Disallow: /temp/
Disallow: /search/
Disallow: /*.pdf$
Sitemap: https://www.example.com/sitemap.xml
چگونه میتوان از فایل robots txt برای سئو استفاده کرد؟
برای اینکه سایت شما در نتایج جستجو ظاهر شود، موتورهای جستجو باید در صفحههای شما بخزند. وظیفه فایل robots txt این است که به خزندههای موتورهای جستجو کمک کند تا روی صفحههایی تمرکز کنند که میخواهید در نتایج جستجو قابلمشاهده باشند. ازآنجاییکه دستورالعملهای موجود در فایل robots txt به شما امکان میدهد روباتهای جستجوگر را کنترل کنید، میتواند تأثیر زیادی بر سئو (بهینهسازی موتور جستجو) داشته باشد. در ادامه مهمترین روشهای استفاده از فایل robots txt برای بهبود سئوی سایت را خواهید دید:
صفحههای خصوصی را از جستجو حذف کنید
گاهی اوقات، صفحههایی خواهید داشت که نیازی به نمایش در نتایج جستجو ندارند. دستوردادن به خزندهها برای ردشدن از این صفحههای خصوصی، در بهحداکثررساندن crawl budget یا بودجه خزش شما کمک میکند (تعداد صفحههایی که یک موتور جستجو در یک بازه زمانی مشخص میخزد و فهرست میکند). همچنین با robots txt، مطمئن میشود که موتورهای جستجو فقط صفحههایی را میخزند که میخواهید در نتایج جستجو ظاهر شوند.
جلوگیری از فهرستبندی فایلهای منابع
ایجاد یک وبسایت میتواند به آپلود فایلهای منبعی مثل تصاویر، فیلمها و فایلهای PDF نیاز دارد. ازآنجاییکه ممکن است نخواهید این صفحههای خزیده و ایندکس شوند، میتوانید از یک فایل robots txt برای محدود کردن ترافیک خزیدن به فایلهای منابع خود استفاده کنید.
علاوهبراین، فایل robots txt شما میتواند از نمایش این فایلها در جستجوهای گوگل جلوگیری کند تا هم موتورهای جستجو و هم کاربران سایت شما فقط به مرتبطترین محتوای شما هدایت شوند.
مدیریت ترافیک سایت
شما میتوانید از robots txt برای تنظیم قوانینی استفاده کنید که با آنها، از بارگیری بیشازحد وبسایت شما بر اساس درخواستها جلوگیری شود. میتوانید یک تأخیر خزیدن را در فایل robots txt خود تعیین کنید. تأخیر خزیدن به موتورهای جستجو میگوید که چه مدت باید قبل از شروع مجدد فرآیند خزیدن صبر کنند. بهعنوانمثال، میتوانید تأخیر خزیدن را روی 60 ثانیه تنظیم کنید تا فواصل بارگذاری درخواستها در فواصل یک دقیقهای تنظیم شوند. این کار از خطاهای احتمالی موقع بارگذاری بیشازحد وبسایت شما، جلوگیری میکند.
sitemap (نقشه سایت) خود را اعلام کنید
همانطور که در اسناد گوگل مشخص شده است، باید یک خط در robots txt خود قرار دهید که مکان نقشه سایت شما را مشخص میکند. این کار به Googlebot (و سایر رباتها) کمک میکند نقشه سایت شما را سریع پیدا کنند. اگر این خط وجود نداشته باشد، امکان دارد sitemap بهطور منظم خزیده نشود، درنتیجه باعث تأخیر و ناهماهنگی در نحوه ایندکسشدن سایت میشود و در رتبهبندی سایت شما تأثیر منفی میگذارد.
عدمنمایش محتوای تکراری
همانطور که میدانید محتوای تکراری یکی از تهدیدکنندهترین موقعیتها برای جریمهشدن یک وبسایت توسط خزندههای موتورهای جستجو است. خط قرمزی که متخصصان سئو در برابر آن بسیار محتاط هستند. بنابراین اگر صفحههای وبی دارید که چندین بار تکرار شدهاند، میتوانید از robots txt برای کنار گذاشتن آنها استفاده کنید.
توصیههای گوگل در مورد فایل robots txt
همانطور که دیدید، فایلهای robots txt در سئو مهم هستند، بااینحال بعضی محدودیتها وجود دارند که باید موقع نوشتن این فایلها، در نظر داشته باشید.
- گوگل میگوید، اطلاعاتی که در فایل robots txt خود ارائه میدهید، «نمیتواند خزنده را مجبور کند از قوانین سایت شما پیروی کند». بههرحال خزندههای رسمی مثل گوگل، بینگ، یاهو، یاندکس، بایدو و غیره به قوانین شما احترام میگذارند، اما این فایل جلوی رباتهای مخرب که بهدنبال تضعیف امنیت سایت شما هستند را نمیگیرد. همچنین در نظر داشته باشید که همه رباتها دستورالعملها را به یک شکل تفسیر نمیکنند، بنابراین حتماً از پروتکلهای گوگل برای نوشتن این قوانین، پیروی کنید.
- فایل robots txt یک فایل عمومی است. هرکسی میتواند با تایپ الگوی com/robots.txt به آن دسترسی داشته باشد پس از robots txt برای مخفیکردن هیچ محتوایی استفاده نکنید، چون قابل ردیابی است.
- اگر صفحههای خاصی را که نمیخواستید در نتایج جستجو ظاهر شوند، در فایل robots txt مسدود کرده باشید، اما در دیگر بخشهای سایت، به آنها لینک داده باشید، ممکن است گوگل آن را در نتایج جستجوی خود نمایش دهد. برای جلوگیری از ظاهرشدن یک صفحه در نتایج جستجو، گوگل توصیه میکند از چیزی استفاده کنید که برچسب noindex نامیده میشود (برای مثال در Yoast SEO این تگ را میتوانید با برداشتن تیک کادر «Allow search engines to show this Post in search results?» که در زیر هر پست قرار دارد، فعال کنید).
همچنین در نظر داشته باشید که بعدازاینکه فایل robots txt را در وبسایت خود آپلود کردید، حتماً آن را آزمایش کنید تا مطمئن شوید که درست کار میکند.
چگونه بررسی کنیم که فایل robots txt بهدرستی کار میکند؟
برای اطمینان از اینکه فایل شما بهدرستی تنظیمشده باشد، میتوانید آن را در Google Search Console، که یک ابزار رایگان برای مدیریت سئوی سایت است، بررسی و تأیید کنید. بعدازاینکه وبسایت خود را در آنجا ثبت کردید، باید وارد the robots.txt file testing tool شوید. سپس، بعد از واردکردن دستورالعملهای انتخابی خود در ویرایشگر ارائهشده، میتوانید فایل خود را تست کنید. اگر همهچیز خوب است، پیام زیر را در پایین ویرایشگر نشان داده میشود.
اگر robots txt خراب شود یا از بین برود چه اتفاقی برای سئوی وبسایت شما میافتد؟
اگر فایل robots txt شما خراب یا گم شده باشد، میتواند باعث شود خزندههای موتور جستجو صفحههایی که شما نمیخواهید را ایندکس کنند. اتفاقی که درنهایت میتواند منجر به رتبهبندی بد در گوگل شود که برای سئو سایت شما اتفاق خوبی نیست.
یک فایل robots txt خراب هم میتواند باعث شود خزندههای موتور جستجو صفحههای مهم سایتتان را از دست بدهند بنابراین، خیلی مهم است که مطمئن شوید فایل robots txt شما درست کار میکند و در فهرست اصلی وبسایتتان قرار دارد.
نتیجهگیری
فایل robots.txt ابزار قدرتمندی است که میتواند برای بهبود سئوی وبسایت شما استفاده شود. بااینحال، استفاده درست از آن مهم است. موقعیکه بهدرستی از فایل robots txt استفاده شود، شما میتوانید کنترل کنید که کدام صفحهها توسط موتورهای جستجو ایندکس شوند تا خزیدن روباتها در وبسایتتان را بهینهتر کنند. همچنین میتواند به سایت شما در مقابل مشکلاتی مثل ایجاد محتوای تکراری کمک کند.
ازطرف دیگر اما، اگر استفاده نادرستی از این فایل داشته باشید، یک فایل robots txt میتواند بیشتر از آنکه مفید باشد، ضرر داشته باشد پس مطمئن شوید که از اسکریپتها بهدرستی استفاده میکنید و قبل از اینکه فایل robots txt را روی سرور وب خود اجرا کنید، حتماً آزمایشش کنید.