0

فایلی مهم و فریبنده که همه وب سایت ها به آن نیاز دارند

بازدید 12


فایل robots.txt به موتورهای جستجوگر اصلی کمک می کند تا بفهمند که به کجا اجازه ورود به وب سایت شما را دارند.

اما ، در حالی که موتورهای اصلی جستجو از پرونده robots.txt پشتیبانی می کنند ، ممکن است همه آنها از قوانین پیروی نکنند.

در زیر ، بیایید فایل robots.txt را بیابیم و اینکه چگونه می توانیم از آن استفاده کنیم.

→ اکنون بارگیری کنید: SEO Starter Pack [Free Kit]

فایل robots.txt چیست؟

هر روز بازدید از وب سایت به وب سایت شما انجام می شود – همچنین به عنوان ربات یا عنکبوت شناخته می شود. موتورهای جستجوگر مانند Google ، Yahoo و Bing این ربات ها را به سایت شما می فرستند تا محتوای شما بتواند خزیده و فهرست شود و در نتایج جستجو ظاهر می شود.

ربات ها چیز خوبی هستند ، اما مواردی وجود دارد که شما نمی خواهید ربات در اطراف وب سایت شما اجرا شود ، همه چیز را خزنده و ایندکس کند. آنجاست که پرونده robots.txt وارد می شود.

با افزودن دستورالعمل های خاص به یک فایل robots.txt ، شما به ربات ها هدایت می کنید تا فقط صفحاتی را که می خواهید خزیده شوند ، بخزند.

با این حال ، مهم است که درک کنیم همه ربات ها به قوانینی که در پرونده robots.txt خود می نویسید پایبند نخواهند بود. به عنوان مثال Google به هیچ دستورالعملی که در مورد فرکانس خزیدن در پرونده قرار داده اید گوش نمی دهد.

آیا به یک پرونده robots.txt نیاز دارید؟

نه ، یک پرونده robots.txt برای یک وب سایت مورد نیاز نیست.

اگر یک ربات به وب سایت شما بیاید و فاقد آن باشد ، فقط وب سایت شما را می پیماید و صفحات را به صورت عادی فهرست می کند.

پرونده robot.txt فقط درصورتی مورد نیاز است که بخواهید کنترل بیشتری بر روی آنچه که خزیده می شود داشته باشید.

برخی از مزایای داشتن یک عبارتند از:

  • به مدیریت اضافه بار سرور کمک کنید
  • جلوگیری از خزیدن زباله توسط رباتهایی که از صفحاتی که شما نمی خواهید بازدید می کنند
  • پوشه ها یا زیر دامنه های خاص را خصوصی نگه دارید

آیا یک فایل robots.txt می تواند از نمایه سازی محتوا جلوگیری کند؟

خیر ، شما نمی توانید با استفاده از یک فایل robots.txt نمایه سازی محتوا و نمایش آن در نتایج جستجو را متوقف کنید.

همه ربات ها از دستورالعمل ها به همان شیوه پیروی نمی کنند ، بنابراین ممکن است برخی از آنها محتوایی را که شما تنظیم کرده اید برای خزیدن یا نمایه سازی نشود ، فهرست بندی کنند.

علاوه بر این ، اگر محتوایی که سعی دارید از نمایش آن در نتایج جستجو جلوگیری کنید پیوندهای خارجی با آن دارد ، این امر باعث می شود موتورهای جستجو آن را فهرست بندی کنند.

تنها راه برای ایندکس نشدن محتوای شما افزودن a است متا تگ noindex به صفحه این خط کد به این شکل است و در html صفحه شما قرار می گیرد.

توجه به این نکته مهم است که اگر می خواهید موتورهای جستجو صفحه ای را فهرست نکنند ، باید اجازه دهید صفحه در robots.txt خزیده شود.

پرونده robots.txt در کجا قرار دارد؟

فایل robots.txt همیشه در دامنه اصلی یک وب سایت قرار دارد. به عنوان مثال ، پرونده خود را می توان در یافت https://www.hubspot.com/robots.txt.

در اکثر وب سایت ها باید بتوانید به پرونده واقعی دسترسی داشته باشید تا بتوانید آن را در FTP یا با دسترسی به File Manager در CPanel میزبان خود ویرایش کنید.

در برخی از سیستم عامل های CMS می توانید فایل را در قسمت مدیریتی خود پیدا کنید. به عنوان مثال HubSpot این کار را انجام می دهد robots.txt خود را به راحتی سفارشی کنید از حساب خود وارد شوید

اگر در وردپرس هستید ، می توانید به پرونده robots.txt در پوشه public_html وب سایت خود دسترسی پیدا کنید.

پرونده robots.txt را در پوشه public_html در وب سایت وردپرس خود قرار دهید

وردپرس به طور پیش فرض شامل یک فایل robots.txt با نصب جدید است که شامل موارد زیر است:

عامل کاربر: *

اجازه ندهید: / wp-admin /

اجازه ندهید: / wp-περιλαμβάνει /

موارد بالا به همه ربات ها می گوید که باید تمام قسمت های وب سایت را جستجو کنند ، به جز موارد زیر در دایرکتوری / wp-admin / یا / wp-περιλαμβάνει /.

اما ممکن است بخواهید پرونده محکم تری ایجاد کنید. بیایید چگونه ، در زیر به شما نشان می دهیم.

از پرونده Robots.txt استفاده می کند

دلایل زیادی وجود دارد که شما می خواهید فایل robots.txt خود را سفارشی کنید – از کنترل بودجه خزیدن ، تا مسدود کردن بخش های وب سایت برای خزیدن و فهرست شدن. بیایید اکنون چند دلیل برای استفاده از یک فایل robots.txt را بررسی کنیم.

1. تمام خزنده ها را مسدود کنید

جلوگیری از دسترسی همه خزنده ها به سایت شما کاری نیست که بخواهید در یک وب سایت فعال انجام دهید ، اما گزینه خوبی برای یک وب سایت توسعه دهنده است. هنگامی که خزنده ها را مسدود می کنید ، به شما کمک می کند تا صفحات شما در موتورهای جستجو نشان داده نشوند ، این خوب است اگر صفحات شما هنوز برای مشاهده آماده نیستند.

2. برخی از صفحات را از خزیدن خودداری کنید

یکی از رایج ترین و مفیدترین روشهای استفاده از پرونده robots.txt محدود کردن دسترسی ربات موتور جستجو به قسمتهایی از وب سایت شماست. این می تواند به حداکثر رساندن بودجه خزیدن شما کمک کند و از پیچیدگی صفحات ناخواسته در نتایج جستجو جلوگیری کند.

توجه به این نکته مهم است که فقط به این دلیل که به یک ربات گفته اید یک صفحه را خزنده نکند ، به این معنی نیست که این کار را انجام خواهد داد نمایه نشوید. اگر نمی خواهید یک صفحه در نتایج جستجو نشان داده شود ، باید یک برچسب متنی noindex به صفحه اضافه کنید.

نمونه دستورالعمل های پرونده Robots.txt

پرونده robots.txt از چند بخش از دستورالعمل ها تشکیل شده است. هر دستورالعمل با یک عامل کاربر آغاز می شود و سپس قوانین مربوط به آن کاربر در زیر آن قرار می گیرد.

هنگامی که یک موتور جستجوی خاص در وب سایت شما قرار می گیرد ، به دنبال نماینده کاربری می رود که برای آنها اعمال می شود و بلاک مربوط به آنها را می خواند.

چندین دستورالعمل وجود دارد که می توانید در پرونده خود استفاده کنید. حالا بیایید آنها را خراب کنیم.

1. نماینده کاربر

دستور user-agent به شما امکان می دهد ربات ها یا عنکبوت های خاصی را برای هدایت هدف قرار دهید. به عنوان مثال ، اگر فقط می خواهید Bing یا Google را هدف قرار دهید ، این همان دستورالعمل مورد استفاده شما است.

در حالی که صدها عامل کاربر وجود دارد ، در زیر نمونه هایی از رایج ترین گزینه های عامل کاربر آمده است.

عامل کاربر: Googlebot

عامل کاربر: Googlebot-Image

عامل کاربر: Googlebot-Mobile

عامل کاربر: Googlebot-News

عامل کاربر: Bingbot

عامل کاربر: Baiduspider

عامل کاربر: msnbot

عامل کاربر: slurp (یاهو)

عامل کاربر: yandex

توجه به این نکته مهم است – عوامل کاربری به حروف کوچک و بزرگ حساس هستند ، بنابراین مطمئن شوید که آنها را به درستی وارد کنید.

Wildcard-عامل کاربر

عامل عامل wildcard با یک نشان داده شده است

ستاره و به شما اجازه می دهد تا به راحتی یک دستورالعمل را برای تمام کارگزاران کاربر موجود اعمال کنید. بنابراین اگر می خواهید یک قانون خاص برای هر ربات اعمال شود ، می توانید از این عامل کاربر استفاده کنید.

عامل کاربر: *

نمایندگان کاربر فقط قوانینی را دنبال می کنند که بیشترین دقت را در مورد آنها داشته باشد.

2. اجازه ندهید

این دستورالعمل ممنوع به موتورهای جستجو می گوید که از صفحات یا فهرستهای خاصی در یک وب سایت خزیدن یا دسترسی پیدا نکنند.

در زیر چندین نمونه از چگونگی استفاده از دستورالعمل ممنوع کردن آورده شده است.

دسترسی به یک پوشه خاص را مسدود کنید

در این مثال ما به همه ربات ها می گوییم که در فهرست / نمونه کارها در وب سایت ما چیزی نروند.

عامل کاربر: *

مجاز نیست: / نمونه کارها

اگر فقط می خواهیم بینگ آن فهرست را خزنده نكند ، در عوض آن را مانند این اضافه می كنیم:

عامل کاربر: Bingbot

مجاز نیست: / نمونه کارها

مسدود کردن PDF یا سایر انواع پرونده

اگر نمی خواهید PDF یا سایر پرونده های شما خزنده شود ، دستورالعمل زیر باید به شما کمک کند. ما به همه ربات ها می گوییم که نمی خواهیم هیچ پرونده PDF خزیده شود. $ در انتها به موتور جستجو می گوید که انتهای URL است. بنابراین اگر من یک فایل pdf درmywebsite.com/site/myimportantinfo.pdf ،

موتورهای جستجو به آن دسترسی نخواهند داشت.

عامل کاربر: *

مجاز نیست: * .pdf $

برای پرونده های PowerPoint می توانید از موارد زیر استفاده کنید:

عامل کاربر: *

اجازه ندهید: * .ppt $ گزینه بهتر ممکن است ایجاد یک پوشه برای PDF یا سایر پرونده های خود باشد و سپس به خزنده ها اجازه ندهید تا آن را خزیده و کل پوشه را با یکمتا تگ

.

دسترسی به کل وب سایت را مسدود کنید

به خصوص اگر وب سایت توسعه یا پوشه های آزمایشی دارید ، این دستورالعمل به همه ربات ها می گوید که به هیچ وجه سایت خود را جستجو نکنند. مهم است که به یاد داشته باشید هنگام تنظیم مستقیم سایت خود ، این مورد را حذف کنید ، در غیر این صورت با مشکلات نمایه سازی مواجه خواهید شد.

عامل کاربر: *

* (ستاره) که در بالا می بینید همان چیزی است که ما اصطلاح آن را “کلمه وحشی” می نامیم. وقتی از یک ستاره استفاده می کنیم ، این نکته را القا می کنیم که قوانین زیر باید در مورد همه کارگزاران کاربر اعمال شود.

3. اجازه دهید دستورالعمل مجاز می تواند به شما کمک کند صفحات یا دایرکتوری های خاص خود را مشخص کنید انجام دادن

می خواهید ربات ها به آن دسترسی پیدا کنند و به آن بپردازند. این می تواند یک قانون نادیده گرفتن گزینه مجاز نباشد ، که در بالا مشاهده شده است.

در مثال زیر ما به Googlebot می گوییم که نمی خواهیم پوشه نمونه کارها خزیده شود ، اما می خواهیم یک مورد خاص از نمونه کارها قابل دسترسی و خزیدن باشد:

عامل کاربر: Googlebot

مجاز نیست: / نمونه کارها

مجاز: / نمونه کارها / قابل جمع شدن

4. نقشه سایت

قرار دادن نقشه سایت شما در پرونده شما می تواند باعث خستگی بیشتر خزنده های موتور جستجو برای نقشه سایت شما شود.

اگر نقشه سایت خود را مستقیماً به ابزارهای وب مستر هر موتور جستجو ارسال می کنید ، لازم نیست آن را به پرونده robots.txt خود اضافه کنید. نقشه سایت:

https://yourwebsite.com/sitemap.xml

5. تأخیر خزیدن

تأخیر خزش می تواند به ربات کمک کند تا هنگام خزیدن وب سایت شما سرعت خود را کم کند تا سرور شما دچار مشکل نشود. به عنوان مثال راهنمای زیر ، از Yandex خواسته شده است تا 10 ثانیه بعد از هر اقدام خزشی که در وب سایت انجام می دهد ، صبر کند.

عامل کاربر: yandex

تاخیر خزش: 10

این بخشنامه ای است که باید مراقب آن باشید. در یک وب سایت بسیار بزرگ می تواند تعداد URL های خزیده شده هر روز را بسیار کم کند ، که این امر نتیجه مثبتی نخواهد داشت. این می تواند در وب سایت های کوچکتر مفید باشد ، با این حال ، جایی که ربات ها کمی بیش از حد بازدید می کنند. توجه: تاخیر خزنده استتوسط Google یا بایدو پشتیبانی نمی شود . اگر می خواهید از خزنده های آنها بخواهید سرعت جستجوی وب سایت شما را کم کنند ، باید این کار را انجام دهیداز طریق ابزار آنها

.

اصطلاحات و کلمات وحشی منظم چیست؟

تطبیق الگو روشی پیشرفته تر برای کنترل نحوه خزیدن ربات در وب سایت شما با استفاده از نویسه ها است.

دو عبارت وجود دارد که معمول است و هر دو توسط Bing و Google استفاده می شوند. این دستورالعمل ها می توانند به ویژه در وب سایت های تجارت الکترونیک مفید واقع شوند. ستاره:

* به عنوان یک کلمه وحشی رفتار می شود و می تواند نشانگر توالی شخصیت ها باشد علامت دلار:

$ برای تعیین انتهای URL استفاده می شود

یک مثال خوب در مورد استفاده از wildcard * در سناریویی است که می خواهید از خزیدن موتورهای جستجو در صفحاتی که ممکن است دارای یک علامت سوال باشد جلوگیری کنید. کد زیر به همه ربات ها می گوید که از خزیدن URL هایی که دارای علامت سوال هستند ، چشم پوشی کنند.

عامل کاربر: *

مجاز نیست: / *؟

نحوه ایجاد یا ویرایش یک پرونده Robots.txt

  1. اگر فایل robots.txt موجود در سرور خود ندارید ، می توانید به راحتی مراحل زیر را به آن اضافه کنید.
  2. ویرایشگر متن مورد نظر خود را برای شروع سند جدید باز کنید. ویرایشگرهای رایج که ممکن است در رایانه شما وجود داشته باشند ، Notepad ، TextEdit یا Microsoft Word هستند.
  3. دستورالعمل هایی را که می خواهید اضافه کنید به سند اضافه کنید.
  4. پرونده را با نام “robots.txt” ذخیره کنید
  5. فایل خود را همانطور که در بخش بعدی نشان داده شده است آزمایش کنید

فایل .txt خود را با FTP یا در CPanel در سرور خود بارگذاری کنید. نحوه بارگذاری آن به نوع وب سایت شما بستگی دارد.

در وردپرس می توانید از افزونه هایی مانند Yoast ، All In One SEO ، Rank Math برای تولید و ویرایش پرونده خود استفاده کنید. همچنین می توانید از a ابزار مولد robots.txt

تا به شما کمک کند خطایی را به حداقل برسانید.

نحوه آزمایش یک پرونده Robots.txt

قبل از شروع کار با کد پرونده robots.txt که ایجاد کرده اید ، می خواهید برای اطمینان از معتبر بودن آن را از طریق تستر اجرا کنید. این به شما کمک می کند تا از مسائل با بخشنامه های نادرست که ممکن است اضافه شده باشند جلوگیری شود.

ابزار آزمایش robots.txt فقط در نسخه قدیمی Google Search Console در دسترس است. اگر وب سایت شما به کنسول جستجوی Google متصل نیست ، ابتدا باید این کار را انجام دهید. بازدید از پشتیبانی Google

صفحه را فشار دهید و بر روی دکمه “open robots.txt tester” کلیک کنید. خاصیتی را که می خواهید برای آن آزمایش کنید انتخاب کنید و سپس به صفحه ای منتقل می شوید ، مانند تصویر زیر.

برای تست کد robots.txt جدید خود ، کافیست آنچه را که در حال حاضر در جعبه است ، حذف کرده و کد جدید خود را جایگزین آن کنید و روی

تست کننده robots.txt در پشتیبانی Google

امیدوارم این پست باعث شود شما از کاوش در پرونده robots.txt خود ترس کمتری داشته باشید - زیرا انجام این کار یکی از راه های بهبود رتبه بندی و تقویت تلاش های شما در زمینه جستجوگرها است.

بسته SEO شروع کننده



منبع

نظرات کاربران

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

*

code

49  +    =  53