فایل Robots.txt چیست؟ تابلو ورود ممنوع برای ربات‌های گوگل

ربات‌های گوگل به صورت شبانه‌روزی در حال بررسی وب هستند و همه صفحات برای آن‌ها قابل ایندکس است، مگر اینکه دسترسی ربات‌های گوگل توسط مدیر سایت به یک یا چند صفحه مسدود شده باشد. یکی از بهترین روش‌ها برای این کار استفاده از فایل robots.txt است

راهنمای مطالعه

ربات‌های سرگردان؛ لطفاً وارد این صفحه نشوید!
یک مثال برای درک بهتر اهمیت Robots.txt
چه زمانی لازم نیست محدودیتی برای گوگل در نظر بگیریم؟
آموزش ساخت فایل Robots.txt + ویدیو
گام آخر؛ تست آنلاین عملکرد فایل robots.txt
وقتی گوگل به حرف دستورات ما اهمیتی نمی‌دهد!
بررسی فایل Robots.txt در دیجی کالا و آپارات
قوانین فقط برای ربات‌های گوگل هستند؟ برای سایر ابزارها چه کار کنیم؟
فایل Robots.txt تنها ابزار مدیریت بودجه خزش نیست
رایج‌ترین سوالات در مورد فایل robots.txt

در طی یک ماه گوگل بیش از 30 هزار بار صفحات سایت آکادمی وبسیما را بررسی کرده و نزدیک به 1 گیگابایت از پهنای باند ما را مصرف کرده است! حالا تصور کنید که این عددها برای یک سایت خبری یا فروشگاهی اینترنتی بزرگ چند برابر خواهد بود؟

درست متوجه شدید، ربات‌های گوگل همچون کاربران عادی از منابع هاست و سرور ما استفاده می‌کنند. شاید تصور کنید که پهنای باند سایت آن‌قدر زیاد هست که بتواند پاسخ‌گوی این نیاز باشد اما این همه ماجرا نیست. بودجه خزش فقط محدود به منابع سرور ما نیست بلکه برای گوگل نیز اهمیت زیادی داشته و برای هر سایتی متفاوت است. به عبارت دیگر؛

بودجه‌ای که گوگل برای بررسی سایت و ایندکس صفحات در نظر می‌گیرد یکی از منابع محدود و بسیار ارزشمند برای ما است.

صفحات زیادی در سایت ما هستند که از منظر سئو هدف یا ارزش خاصی ندارند. بررسی مداوم این صفحات موجب می‌شود تا بودجه خزش سایت ما بی‌هدف مصرف شده و محتوایی که دوست داریم سریع‌تر در صفحه نتایج جستجو دیده شود با تاخیر بسیار زیادی ایندکس می‌شود.

اما چه راهی وجود دارد تا به ربات‌های گوگل بگوییم که شما حق ورود به این صفحات را ندارید؟ بهترین راه استفاده از فایل Robots.txt است. برای درک بهتر این مفاهیم بهتر است که پیش از هر چیز بودجه خزش را به‌درستی درک کنیم، اگر با این مفهوم آشنا نیستید پیشنهاد می‌کنیم مقاله بودجه خزش را در آکادمی وبسیما مطالعه کنید.

به عبارت دیگر فایل Robots.txt مثل یک تابلو ورود ممنوع عمل کرده و از گردش بیهوده ربات‌های گوگل در صفحات وب جلوگیری می‌کند. فکر می‌کنم تا همین‌جا به اهمیت و ارزش آن در سئو پی برده باشید، اصلا نگران نباشید، در این مقاله ابتدا تعریف دقیقی از کاربرد این فایل ارائه می‌کنیم و در ادامه نحوه ساخت و مدیریت آن به گوگل را می‌آموزیم.

آهای ربات‌های سرگردان؛ لطفاً وارد این صفحه نشوید!

زمانی‌که ربات گوگل وارد سایت ما می‌شود پیش از هر چیز نیم‌نگاهی با فایل robots.txt خواهد داشت. بررسی این فایل به ربات گوگل کمک می‌کند تا تشخیص دهد که آیا اجازه دسترسی به صفحه مورد نظر را دارد یا خیر؟

هر سایتی ساختار و ظاهر متفاوتی دارد، ربات‌ها چطور انقدر سریع و راحت به فایل مورد نظر دسترسی دارند؟ جواب این سوال ساده است؛ گوگل برای ساخت و مدیریت این فایل چند قانون ساده در نظر گرفته تا دسترسی به آن در همه سایت‌ها ساده باشد. قوانین گوگل عبارتند از:

نام فایل robots.txt باشد (به حروف کوچک دقت کنید).
در سایت خودمان بارگذاری شده باشد و بلافاصله بعد از نام دامنه در دسترس باشد (مثلا websima.academy/robots.txt را بررسی کنید).
محتوا و فرمت فایل txt باشد تا دسترسی و خوانایی آن برای ربات‌ها ساده باشد.

با همین قوانین ساده متوجه می‌شویم که؛ اگر در انتهای نام هر دامنه‌ای robots.txt/ را بنویسیم به‌راحتی می‌توانیم محتوای فایل و قوانین درج شده را در آن مشاهده کنیم.

برای درک بهتر مفهوم و آشنایی با عملکرد فایل robots.txt پیشنهاد می‌کنیم ویدیوی کوتاه زیر (کمتر از 3 دقیقه) را مشاهده کنید.

یک مثال برای درک بهتر اهمیت Robots.txt

همه افرادی که در سایت آکادمی وبسیما و در یکی از دوره‌های آموزشی ثبت‌نام می‌کنند یک صفحه پروفایل اختصاصی با آدرس یکتا و به نام خودشان خواهند داشت. در این صفحه مسیر یادگیری خود و نظرات درج شده را مشاهده کرده و اجازه دارند مشخصات خود مثل راه‌‌های تماس و رزومه‌ای کوتاه را درج کنند.

تاکنون بیش از 2000 صفحه پروفایل کاربری بر روی سایت آکادمی وبسیما ایجاد شده است. در مقابل تعداد صفحات مرتبط با مقالات و دوره‌های آموزشی کمتر از 300 آدرس یکتا است. صفحات پروفایل کاربران هیچ نقشی در استراتژی سئو آکادمی وبسیما ندارند. به عبارت دیگر، گردش ربات‌های گوگل در این صفحات تنها بودجه خزش را به هدر می‌دهد.

دقت کنید که صفحات ارزشمند سایت ما تنها یک بار توسط گوگل بررسی و ایندکس نمی‌شوند بلکه ربات‌های گوگل به صورت مستمر این آدرس‌ها را بررسی (Crawl) کرده و تغییرات هرکدام مانند اضافه شدن محتوای جدید یا درج دیدگاه توسط کاربران را رصد می‌کنند.

داشتن فایل robots.txt برای همه سایت‌ها ضروری نیست و تاثیر مستقیم بر رتبه‌بندی در نتایج جستجو ندارد!

به عنوان مثال صفحه سئو چیست در سایت ما محتوایی مشخص و ثابت دارد که به‌ندرت تغییر خواهد کرد ولی ثبت نظرات جدید توسط کاربران در این صفحه موجب می‌شود تا محتوای آن چندین بار در طول ماه به‌روزرسانی شود. به نظر شما زمان ربات‌های گوگل بهتر است صرف بررسی کدام صفحه شود؟ 2000 پروفایل کاربری یا 300 صفحه با محتوای ارزشمند؟

تا اینجا با مفهوم و کاربرد این فایل آشنا شدیم و احتمالا از سر کنجکاوی محتوای آن را در سایت خودتان یا سایت‌های معتبری که از آنها استفاده می‌کنید، بررسی کرده‌اید. قبل از آن‌که در مورد نحوه ساخت و مدیریت فایل robots.txt صحبت کنیم باید این نکته را یادآور شویم که؛

داشتن فایل robots.txt برای همه سایت‌ها ضروری نیست و تاثیر مستقیم بر رتبه‌بندی در نتایج جستجو ندارد!

چه زمانی لازم نیست محدودیتی برای گوگل در نظر بگیریم؟

اگر تعداد صفحات سایت ما بسیار کم باشد (مثلا کمتر از 100 صفحه یکتا داشته باشیم) و همه آن‌ها با هدف سئو منتشر شده باشند، نیازی به ساخت و مدیریت فایل robots.txt نداریم. البته در دنیای امروز سایت‌های کمی هستند که چنین شرایطی داشته باشند.

در سایت‌هایی که آدرس‌دهی صفحات به صورت خودکار انجام شده و ممکن است هزاران مسیر مختلف برای دسترسی به یک صفحه وجود داشته باشد استفاده از این فایل ضروری است.

به‌عنوان مثال یک فروشگاه اینترنتی را در نظر بگیرید که با استفاده از فیلترهای متعدد دسترسی به محصول و جستجو را برای کاربران ساده کرده است. با انتخاب هر فیلتر آدرس صفحه تغییر می‌کند ولی محتوای ارزشمند و متفاوتی به کاربر ارائه نمی‌شود. بررسی و ایندکس همه این آدرس‌ها توسط گوگل نه‌تنها بودجه خزش سایت را بیهوده مصرف می‌کند بلکه ممکن است مشکلات بزرگتری مانند کنیبالیزیشن را در سایت ما ایجاد کند.

اگر با مفهوم Cannibalization و تاثیر آن بر سئو آشنا نیستید پیشنهاد می‌کنیم در فرصتی مناسب مقاله کنیبالیزیشن چیست را مطالعه کنید.

بیش از این شما را منتظر نمی‌گذاریم، در ادامه روش ساخت فایل robots.txt و قوانین حاکم بر آن را با هم مرور می‌کنیم.

آموزش ساخت فایل Robots.txt + ویدیو

ساخت فایل Robots.txt بسیار ساده است. یک فایل متنی با فرمت txt ایجاد کنید و دستورات مورد نظر خود را در آن بنویسید. در نهایت این فایل را در ریشه اصلی هاست خود آپلود کرده و مطمئن شوید که با وارد کردن آدرس آن در انتهای نام دامنه در دسترس باشد.

برای مدیریت این فایل باید قواعد و قوانین حاکم بر آن را به درستی بشناسیم، در این فایل سه قاعده اصلی وجود دارد که در ادامه کاربرد هرکدام را معرفی می‌کنیم:

User-agent: مشخص می‌کند که دقیقا چه رباتی نباید به صفحه مورد نظر دسترسی داشته باشد. با قراردادن کاراکتر * دسترسی هر نوع رباتی را محدود می‌کنیم.

Disallow: آدرس صفحه، فایل، دایرکتوری یا تصویری که ربات‌های گوگل اجازه دسترسی به آن را ندارند مشخص می‌کند.

Allow: اگر بخواهیم آدرس مشخصی را برای گوگل قابل دسترس کنیم در حالی که دایرکتوری مادر آن از دسترس گوگل خارج شده است، از این دستور استفاده می‌کنیم. در حقیقت استفاده از Allow به عنوان یک شرط عمل می‌کند.

حدس می زنیم کمی گیج شده‌اید، حق هم دارید! با توضیحات متنی نمی‌توان کاربرد هریک از این قواعد و موارد استفاده از آن‌ها را به‌خوبی توضیح داد.

پیشنهاد می‌کنیم ویدیوی زیر را به دقت مشاهده کنید، طی 10 دقیقه و با بررسی مثال‌های متعدد نحوه استفاده صحیح از این دستورات را آموزش داده‌ایم. این ویدیو بخشی کوتاه از کارگاه آموزش گوگل سرچ کنسول است که در آن همه بخش‌ها و مفاهیم کاربردی در این ابزار قدرتمند را آموزش داده‌ایم.

گام آخر؛ تست آنلاین عملکرد فایل robots.txt

گاهی اوقات دستوراتی که در فایل robots.txt استفاده می‌کنیم شامل شرط‌های تودرتو و پیچیده‌ای هستند. اطمینان از عملکرد صحیح این فایل اهمیت زیادی برای ما دارد چراکه ممکن است به اشتباه صفحاتی را از دسترس گوگل خارج کرده باشیم. خوشبختانه گوگل فکر خوبی برای رفع این مشکل کرده است؛ ابزار آنلاین تست فایل robots.txt در گوگل سرچ کنسول.

در بخش coverage لینک به این ابزار را مشاهده می‌کنیم و لی در حال حاضر دسترسی به این ابزار به صورت مستقیم و از منوهای گوگل سرچ کنسول وجود ندارد. برای دسترسی می‌توانیم از لینک مستقیم ابزار تست آنلاین robots.txt استفاده کنیم.

نحوه استفاده از این ابزار پیچیده نیست و به صورت کامل در ویدیوی 5 دقیقه‌ای زیر توضیح داده شده است. نکته‌ای که هنگام استفاده از آن باید در نظر داشته باشیم این است که تغییرات ما در این ابزار بر روی سایت اعمال نخواهد شد و آنچه مشاهده می‌کنیم به صورت کامل در یک فضای نمونه و شبیه‌سازی شده رخ می‌دهد. هر تغییری که در محتوای فایل ایجاد می‌کنیم را باید در نهایت به نسخه آنلاین فایل در سایت خود اضافه کنیم.

وقتی گوگل به حرف دستورات ما اهمیتی نمی‌دهد!

احتمالاً با دیدن این تیتر تعجب کرده‌اید. تجربه نشان داده که گوگل پایبند الزامی برای توجه به دستورات فایل Robots.txt ندارد. گاهی اوقات ما دسترسی یک صفحه از سایت با استفاده از دستور Disallow می‌بندیم اما در کمال تعجب صفحه یا صفحات مسدود شده، ایندکس و حتی در نتایج جستجو نمایش داده می‌شوند.

ربات های گوگل الزامی برای اجرای دستوراتی که در فایل robots.txt هست ندارند

اگر یک صفحه از صفحات داخلی و خارجی زیاد لینک دریافت کند یا از نظر گوگل محتوای ارائه شده در صفحه ارزشمند و اختصاصی باشد ممکن است آن را ایندکس کرده و حتی در نتایج جستجو نشان دهد. بهترین راه برای اطمینان از ایندکس نشدن یک صفحه، قرار دادن کد Noindex در هدر صفحه است.

<‌meta name=”robots” content=”noindex,nofollow”/>

البته این حرف ما نیست، بلکه جان مولر، متخصص و تحلیل گر وب مستر در گوگل این موضوع را به صورت شفاف اعلام کرده است.

ما در صفحه نکات سئو از زبان گوگل، مجموعه‌ای از مهم‌ترین صحبت‌ها، توییت‌ها و اخباری که جان مولر در چند سال اخیر به صورت عمومی منتشر کرده است را جمع‌آوری کرده‌ایم. پیشنهاد می‌کنیم با مراجعه به این صفحه مهم‌ترین نکات سئو را از زبان خود گوگل یاد بگیرید!

بررسی فایل Robots.txt در دیجی کالا و آپارات

چند خط کد ساده و نجات سایت‌های بزرگ ایرانی! هرچه‌قدر ابعاد یک سایت بزرگ‌تر باشد، مدیریت بودجه خزش اهمیت بیشتری پیدا می‌کند. برای درک این موضوع، در این بخش از مقاله فایل Robots.txt دو سایت پربازدید و بزرگ ایرانی یعنی دیجی‌کالا و آپارات را بررسی می‎کنیم.

دیجی کالا؛ میلیون‌ها صفحه‌ای کم‌ارزش خارج از دید گوگل

روزانه هزاران نفر به سایت دیجی‌کالا مراجعه می‌کنند. مشاهده محصولات، مقایسه کالاها و در نهایت انجام خریدهای مورد نیاز بخشی از مهم‌ترین فرآیندهایی است که در این سایت انجام می‌شود. صدها دسته‌بندی و میلیون‌ها صفحه در دیجی کالا وجود دارد. از طرف دیگر روزانه صدها محصول جدید هم به سایت اضافه می‌شود. مدیریت همه این صفحات کار دشواری است. بسیاری از این صفحات در استراتژی سئو دیجی‌کالا جایی ندارند و به‌هیچ‌وجه نباید ایندکس شوند.

در حقیقت مدیریت بودجه خزش و استفاده صحیح از دستورالعمل‌های Robots.txt در دیجی‌کالا اهمیت دوچندانی دارد. تصویر زیر تنها بخش کوچکی از فایل Robots.txt دیجی‌کالا را نمایش می‌دهد. برخی از این دستورات را بررسی می‌کنیم:

فایل robots.txt در دیجی کالا؛ میلیون‌ها صفحه‌ای کم‌ارزش خارج از دید گوگل

دستور disallow: /card مربوط به سبد خرید است. با توجه به اینکه هنگام خرید محصول بسته به تعداد محصول یک URL یکتا ساخته می‎شود و روزانه صدها نفر از دیجی‌کالا خرید می‎کنند، این دسته صفحات به هیچ وجه نباید در دسترس گوگل باشند. گردش ربات‌ها در این صفحات هیچ نتیجه‌ای جز هدر رفتن بودجه خزش نخواهد داشت.

دیجی‌کالا دسترسی ربات‌های گوگل به صفحه پرداخت را هم بسته است تا این صفحه که شامل اطلاعات شخصی و مالی کاربران است توسط گوگل ایندکس نشود.

یکی دیگر از هوشمندی‌ها و تصمیمات درست دیجی‌کالا استفاده از دستور disallow: *?* است. این دستور مربوط به بخش جستجو در داخل سایت است. به زبان ساده این خط کد ساده یعنی به جای علامت سوال، هر عبارتی که در URL صفحه وجود داشت را ایندکس نکن.

بسیاری از کاربران از طریق جستجو در داخل دیجی‌کالا محصول مورد نظر خود را انتخاب می کنند و هنگام جستجو یک URL مختص به همان جستجو ساخته می‌شود. با توجه به تعدد جستجوها که توسط کاربران مختلف صورت می‌گیرد، بایستی دسترسی ربات به این بخش بسته باشد تا بودجه خزش هدر نرود.

بررسی موردی فایل robots.txt در سایت دیجی کالا

یکی دیگر از تصمیمات جالب دیجی کالا در Robots.txt، بستن دسترسی ربات‌ها هنگام مقایسه محصولات است. هنگام مقایسه یک یا چند محصول یک URL یکتا ساخته می‌شود. با تغییر محصولات و انتخاب محصولات متنوع این URL تغییر می‌کند. می‌توانیم حدس بزنیم که به صورت روزانه صدها هزار صفحه به این شکل ساخته می‌شود. طبیعتاً ربات‌ها نباید زمان خود را صرف صفحاتی کنند که هیچ ارزش سئو برای دیجی‌کالا ندارند. با استفاده از دستور disallow: /compare/* دسترسی ربات‌ها به این صفحات محدود شده است.

آپارات؛ تصمیمات هوشمندانه برای مدیریت درست بودجه خزش

آپارات روزانه میزبان میلیون‌ها کاربر است که در این سایت به تماشای ویدیو می‌پردازند. تصویر زیر بخشی از Robots.txt آپارات را نشان می‌دهد:

فایل Robots.txt آپارات، مدیریت صحیح بودجه خزش

آپارات دسترسی ربات‌های گوگل به Sort کردن ویدیوها را بسته است. به عبارت دیگر در صفحات مختلف آپارات بر اساس معیارهایی مثل علاقه، زمان یا دیگر فاکتورها امکان مرتب سازی ویدیوها به صورت دلخواه وجود دارد. در این شرایط یک URL یکتا ساخته می‌شود. سایت آپارات با بستن دسترسی ربات‌های گوگل به این تنظیمات که از هر کاربر به کاربر دیگر متفاوت است، از ایندکس شدن هزاران یا شاید میلیون‌ها صفحه در گوگل جلوگیری کرده است.

در کارگاه آموزش سئو تکنیکال به صورت کامل استانداردهای کدنویسی و ساختار URL در صفحات وب را بررسی می‌کنیم. پیشنهاد می‌کنیم با شرکت در این کارگاه به صورت عمیق با سئو تکنیکال آشنا شوید.

آموزش سئو تکنیکال

استانداردهای سئو در طراحی و کدنویسی

16 ساعت
868 دانشجو

اطلاعات بیشتر

سایر دستورات موجو در فایل Robots آپارات بر اساس ساختار URL این سایت تعریف شده است. هنگام بررسی فایل Robots.txt آپارات یک مورد جالب و البته هوشمندانه هم به چشم می‌آید.

آپارت دسترسی ربات‌های گوگل به پروفایل کاربران را بسته است. به عبارت دیگر اگر فردی در آپارت یک پروفایل داشته باشد، ربات‌های گوگل امکان ایندکس صفحه اختصاصی او را نخواهند داشت. اما مساله اینجاست که برندهای زیادی در آپارات فعالیت می‌کنند. یکی از اهداف این برندها کسب ورودی از گوگل از طریق بازاریابی ویدیویی است.

با گذاشتن یک شرط کوچک دسترسی ربات‌ها به صفحه پروفایل برندها بر خلاف کاربران باز است. به این ترتیب با مدیریت درست فایل Robots.txt هم از ایندکس میلیون‌ها صفحه نامربوط و احتمالاً آزاردهنده جلوگیری شده است و هم برندهایی که از آپارات برای بازاریابی ویدیویی استفاده می‌کنند، شانس حضور در صفحه نتایج و جذب مخاطب را در اختیار دارند.

قوانین فقط برای ربات‌های گوگل هستند؟ برای سایر ابزارها چه کار کنیم؟

دستورات موجود در فایل Robots.txt فقط مربوط به ربات‌های گوگل نیست و می‌توان دسترسی ربات‌های مختلف را برای بررسی و آنالیز سایت مسدود کرد. کراول‌های زیادی با اهداف مختلف در حال ایندکس صفحات وب هستند. خبرخوان‌ها و ربات‌های آنالیز سایت‌های «Moz» و«Ahrefs» از جلمه این ربات‌ها هستند. برخی از متخصصان سئو بر این باور هستند که مسدود کردن دسترسی این ربات‌ها تاثیر مثبتی بر روی سئو سایت دارد.

این ادعا را از دو وجه می‌توان بررسی کرد. با بستن دسترسی ربات‌های مختلف مثل ربات‌های آنالیز و تحلیل صفحات، رقبا نمی‌توانند به اطلاعات سایت ما دسترسی داشته باشند. نکته دوم این است که بستن دسترسی باعث صرفه جویی در منابع زیرساختی سایت مثل مصرف CPU و پهنای باند می‌شود.

بستن دسترسی ربات‌ها با هدف جلوگیری از تحلیل و آنالیز صفحات توسط رقبا، استراتژی چندان رایجی نیست. دقت داشته باشید که برای مثال اگر شما دسترسی ربات‌های «Ahrefs» را به سایت خود ببندید، موجب می‌شود تا لینک‌‌هایی که از سایت شما به بیرون داده شده در دسترس ابزار نباشد ولی همچنان فعالیت‌های شما در لینک‌سازی خارجی قابل تحلیل است چرا که دسترسی ابزار Ahrefs به سایر سایت‌ها مسدود نشده است.

صرفه جویی در مصرف منابع هم تنها برای سایت‌های بزرگ کارآمد است. در سایت‌های کوچک و متوسط، کروال روزانه تاثیر زیادی در مصرف منابع ندارد. بنابراین بستن دسترسی ربات‌ها به صفحات سایت شما کاملاً به اهداف، استراتژی سئو و میزان بزرگی سایت شما بستگی دارد. نمی‌توان در این خصوص نظر قطعی داد. نکته جالب اینجاست که حتی با بستن دسترسی ربات‌های مختلف، امکان بررسی سایت شما وجود دارد.

دستورات Robots.txt برای تمامی ربات‌هایی که به پروتکل‌های وب پایبند هستند، الزامی است. دقت داشته باشید که ربات‌ها بایستی به پروتکل‌ها وب پایبند باشند تا از ایندکس صفحات جلوگیری شود. اجازه دهید با یک مثال این موضوع را بررسی کنیم. قوانین راهنمایی و رانندگی تا وقتی اعتبار دارند که به آن عمل کنیم. برای مثال بسیاری از رانندگان متاسفانه قوانین راهنمایی و رانندگی را نادیده گرفته و وارد خیابان ورود ممنوع می‌شوند. این مساله در فضای وب هم رایج است. ربات‌های زیادی وجود دارند به پروتکل‌های وب پایبند نیستند و اقدام به اینکدس صفحات می‌کنند.

برخی از وب‌مستران برای بستن دسترسی این ربات‌های قانون شکن از تکنیک‌هایی مثل کدنویسی در سمت سرور استفاده می‌کنند. در این تکنیک، آی پی سرور ربات‌ مورد نظر شناسایی و دسترسی این آی پی به سایت مسدود می‌شود.

فایل Robots.txt تنها ابزار مدیریت بودجه خزش نیست

در این مقاله به صورت کامل فایل Robots.txt را در قالب مثال‌های مختلف بررسی کنیم. ابتدا Robots.txt و اهمیت آن در سئو را بررسی کردیم و سپس به سراغ ساخت این فایل رفتیم. در انتها هم فایل Robots.txt دو سایت بزرگ ایرانی؛ دیجی‌کالا و آپارات را بررسی کردیم. اما باید به یک نکته مهم دقت داشته باشید.

فایل Robots.txt تنها ابزار مدیریت بودجه خزش نیست. در حقیقت این فایل یک تکه کوچک از پازل ابزارها و دانشی است که می‌تواند به مدیریت بودجه خزش کمک کند. استفاده از تگ کنونیکال، ریدایرکت 301 و ساخت نقشه سایت قطعات دیگری هستند پازل مدیریت بودجه خزش را تکمیل می‌کنند. پیشنهاد می‌کنیم با خواندن مقالات زیر بودجه خزش سایت خود را به بهترین شکل مدیریت کنید.

در پایان از شما می‌خواهیم اگر سوال یا ابهامی در خصوص فایل Robots.txt دارید، در زیر همین صفحه پرسش خود را مطرح کنید. سوالات، نظرات و تجربیات شما برای ما و مخاطبان آکادمی وبسیما ارزشمند است.

رایج‌ترین سوالات در مورد فایل robots.txt

آیا داشتن فایل Robots.txt برای همه سایت‌ها اجباری است؟

خیر، این فایل با هدف ایجاد محدودیت دسترسی برای ربات‌های گوگل ساخته می‌شود. در بسیاری از سایت‌ها به‌ویژه آن‌هایی که تعداد صفحات‌شان محدود است نیازی به این فایل نداریم.

استفاده از این فایل تنها زمانی کاربرد دارد که دلیلی برای محدود کردن دسترسی گوگل به بخشی از سایت داشته باشیم.

ساخت فایل robots.txt بر سئو و رتبه‌بندی سایت اثرگذار است؟

احتمالا سوال شما این است که داشتن یا نداشتن این فایل چقدر بر سئو سایت ما تاثیرگذار است؟

اگر از منظر تکنیکال این سوال را بررسی کنیم می‌توان گفت که ساخت این فایل هیچ تاثیر مستقیمی بر رتبه‌بندی صفحات وب ندارد ولی تصور کنید که به واسطه آن دسترسی گوگل به یک صفحه مهم و ارزشمند از سایت ما مسدود شده باشد.

در این شرایط ربات‌های گوگل قادر به ایندکس صفحه مورد نظر نبوده و در نتیجه شانسی برای حضور و کسب جایگاه در نتایج جستجو نداریم.

دسترسی ربات گوگل به صفحه مسدود شده، چرا ایندکس می‌شود؟

مسدود کردن یک صفحه در فایل Robots.txt در واقع یک پیشنهاد از طرف ما به ربات‌های گوگل بوده و هیچ الزامی برای پیروی از آن وجود ندارد. سیگنال‌های متعددی برای ایندکس یک صفحه توسط گوگل وجود دارد.

به عنوان مثال اگر صفحه مورد نظر محتوایی اختصاصی و ارزشمند داشته باشد، آدرس آن در نقشه سایت ما درج شده باشد و لینک‌سازی‌های داخلی و خارجی زیادی برای آن انجام شده باشد؛ ممکن است گوگل دستورات این فایل را نادیده گرفته و صفحه مورد نظر را ایندکس کند.

ایمن‌ترین راه برای جلوگیری از ایندکس استفاده از ویژگی noindex در تگ متا و head صفحه است.

محتوای فایل robots.txt فقط توسط ربات‌های گوگل بررسی می‌شود؟

دستوراتی که در این فایل درج می‌کنیم یک زبان مشترک و پروتکل جهانی برای مدیریت منابع و محدود کردن دسترسی ربات‌های خزنده به سایت است. ابزارهای متعددی در سطح وب وجود دارند که به محتوای این فایل احترام گذاشته و در صورت مسدود بودن دسترسی صفحات ما را خزش نمی‌کنند. ولی فرامووش نکنیم که بسیاری از ابزارها (مثلا آن‌هایی که کارشان کپی کردن محتوای سایت است) به این فایل بی‌توجه بودن و عملکرد خود را به آن وابسته نمی‌کنند.

چقدر زمان لازم است تا گوگل متوجه تغییرات این فایل بشود؟

فایل robots.txt یکی از آدرس‌های مهم سایت ما بوده و ربات‌های گوگل به صورت مستمر آن را بررسی می‌کنند.

در صورتی‌که تغییراتی اساسی و مهم در محتوای آن ایجاد کرده‌ایم بهتر است از طریق ابزار robots.txt tester که در سرچ کنسول وجود دارد این تغییرات را به گوگل اطلاع‌رسانی کنیم تا در سریع‌ترین زمان ممکن بررسی شده و در سایت اجرایی گردد.

امین اسماعیلی

امین اسماعیلی هستم، فارغ التحصیل مقطع کارشناسی ارشد از دانشگاه تهران و مدیر فنی آژانس خلاقیت وبسیما. از سال 91 تمرکز خود را بر روی مباحث روز سئو و طراحی سایت قرار داده و پس از کسب تجربه و دانش ارزشمند تصمیم گرفتم تا ثمره آن را با دیگران به اشتراک بگذارم.

پرسش و پاسخ

پس از پاسخ گویی توسط کارشناسان، از طریق پیامک به شما اطلاع رسانی میشود

نام و نام خانوادگیشماره همراه

دیدگاه شما را با چه تصویری در سایت نمایش دهیم؟

متن دیدگاه امتیاز شما به این محتوا ارسال دیدگاه

زهرا احمدی 29 شهریور 1403

تو سرچ کنسول 20 تا ارور robots دارم
وبلاگ من بهم اجازه ویرایش فایل روبوتس رو نمیده!
تو فایل نوشته:
/Disallow: /process
این یعنی چی؟

آکادمی وبسیما 15 آذر 1403

سلام زهرا
این عبارت یعنی صفحاتی که در آدرس آنها عبارت process وجود دارد امکان خزش توسط ربات های گوگل را ندارند. اگر این صفحات برای شما مهم هستند باید فایل robots.txt را ویرایش کنید. این کار از طریق هاست و سی پنل قابل انجام است.

سمیه مسافر 11 دی 1402

User-agent: *

Disallow: /wp-admin/

Disallow: */feed/

disallow: /rss
سلام وقت بخیر. قرار دادن این کد در فایل روبوتز موردی نداره؟

آکادمی وبسیما 16 اردیبهشت 1403

سلام دوست عزیز
خیر موردی ندارد. با این تکه کد شما به موتورهای جستجو اعلام می کنید که تمایلی ندارید صفحه ورود ادمین، فیدها و rss ها ایندکس نشوند چون بودجه خزش شما بیهوده مصرف می شود.

سمیه مسافر 7 شهریور 1402

سلام وقت بخیر. یک سوال داشتم. ممنون میشم راهنمایی کنید.
برای یک عبارت، یک صفحه از سایت من برای هر بخش جدا ایندکس شده. میشه راهنمایی کنید که چطور این مشکلو حل کنم؟؟
عنوان اصلی صفحه، تحلیل لثه هستش. بعد بخش های مختلف داره مثل عوامل تحلیل لثه، درمان تحلیل لثه و …. الان بخش های مختلف همه ایندکس شدن.
مثلا:
Example .com/تحلیل_لثه
Example .com/تحلیل_لثه/#treatment
Example .com/تحلیل_لثه/#signs
این عادیه؟؟

آکادمی وبسیما 15 شهریور 1402

سلام دوست عزیز
این اتفاقی که افتاده به دلیل استفاده از Table of Contents (شبیه به بخش راهنمای مطالعه در ابتدای همین مقاله) و نمایش آن در نتایج جستجو بوده است. نمایش این آدرس ها در سرچ کنسول و داشتن ایمپرشن و کلیک هیچ ایرادی نداشته و کاملا طبیعی است.

مهدی بینام 26 تیر 1402

سلام گفتید چطور کوئری ها رو خزش نکنه ولی نگفتید چطور ایندکس هم نکنه. کلی گزارش نواینئکس درست شده تو کنسول چطور رفع کنم؟

آکادمی وبسیما 15 شهریور 1402

سلام مهدی
اگر منظور شما بخش Pages است بدانید که؛ ارائه این گزارشات در سرچ کنسول به معنی وجود خطا نیست. گوگل فقط صفحات را خزش (Crawl) کرده و به شما اعلام می‌کند که چنین آدرس‌هایی را مشاهده کرده ولی تصمیم گرفته که آنها را ایندکس نکند. نیازی به اقدام توسط شما نیست و ماهیت این صفحات به راحتی توسط گوگل تشخیص داده می‌شود.

یگانه 25 آبان 1401

سلام و عرض ادب چرا ویدیو های سایتتون باز نمیشه

آکادمی وبسیما 15 شهریور 1402

سلام یگانه
برخی از ویدیوهای سایت از آپارات فراخوان می‌شوند و زمانیکه آی پی شما از ایران نباشد نمایش داده نمی‌شود.

فاطمه سادات امین زاده تبریزی 14 بهمن 1400

سلام روزتون بخیر
ببخشید در سایت وردپرسی برای محصولاتی که تک نسخه هستن و با یک بار خرید ناموجود و دیگه تو لیست محصولات نمایش داده نمیشن آیا باید ایندکس شن؟

تحریریه آکادمی 20 بهمن 1400

سلام روز بخیر
وجود انبوه محصولات ناموجود و ایندکس شده عملاً ارزشی برای شما خلق نمیکند و بودجه خزش را به هدر می‌دهد. زمانی که یک محصول ناموجود شده و به هیچ عنوان موجود نخواهد شد، می‌توانیم این محصول را بر روی محصولی مشابه(همان خصوصیات و ویژگی‌ها) که موجود است ریدایرکت کنید. خارج از بحث ایندکس، وجود محصولات ناموجود در یک سایت فروشگاهی بر روی تجربه کاربری تاثیر منفی می‌گذارد.

رضا مدیری 9 آذر 1400

سلام روزتون بخیر انشالله سلامت و شاد باشید
یه سوال دیگه
من با اینکه تگ کنونیکال زدم نیازی نیست این موارد رو تو فایل robots کاری کنم؟ مثلا این موارد
مثلا یه برند به این صورت 19 تا صفحه داره و داره از بودجه خزش استفاده میکنه
page/3/
page/5/
page/4/?orderby=menu_order
page/3/?orderby=date
page/3/?orderby=date
یعنی هیچ کدوم از اینارو نیازی نیست کاری روشون انجام بدم
page/2/?orderby=rating

تحریریه آکادمی 13 آذر 1400

با سلام
موردی که مطرح می‌کنید مربوط به کوئری استرینگ است که در فروشگاه‌های اینترنتی رایج است. برای مدیریت بودجه خزش بهتر است دسترسی ربات به این صفحات را از طریق فایل robots.txt یا تگ نوایندکس محدود کنید. پاسخ سوال قبل مربوط به صفحه بندی بود و ارتباطی به query string ندارد.

رضا مدیری 8 آذر 1400

سلام روزتون بخیر انشالله سلامت و شاد باشید
برای صفحات دوم و سوم دسته بندی ها و برندهای سایت چکار کنیم که نخونه با استفاده از robots
مثلا صفحه اول دسته بندی 15 تا محصول داره صفحه دوم رو ربات های گوگل بررسی نکنن باید چیکار کنیم؟

تحریریه آکادمی 9 آذر 1400

سلام دوست عزیز
بهترین راه برای مدیریت بوجه خزش در سایت های فروشگاهی استفاده از تگ کنونیکال است. تگ کنونیکال آدرس اصلی یک صفحه را مشخص می‌کند. با توجه به اینکه محتوای صفحات در دسته‌بندی‌ها و برندهای یک سایت فروشگاهی تکراری است و محصولات نیز مشابه است، تگ کنونیکال از ایجاد صفحات تکراری جلوگیری کرده و آدرس اصلی صفحه را به گوگل معرفی می‌کند. پیشنهاد می‌کنیم برای آشنایی بیشتر با مفهوم تگ کنونیکال مقاله‌ جامع آکادمی وبسیما را در این باره مطالعه کنید.

توسلی 23 مهر 1400

با سلام
تشکر از ارائه این مقاله راهگشا. اما سوال:
به فرض اینکه دستور ربات txt ما در یک سایت به شکل زیر است:
User-agent:*
Disallow: /felankala
این دستور به چه معناست؟ ایا این دستور نادرست است؟ در یک فروشگاه لباس در بررسی دستور ربات دیدم.

آکادمی وبسیما 25 مهر 1400

سلام دوست عزیز
این دستور یعنی که فولدر مورد نظر در دسترس ربات های گوگل نباشد.

بهمن فلاحی 21 شهریور 1400

مطلب بسیار مفیدی بود. مثال‌های بکار برده شده هم در ویدیو و هم در متن باعث درک جزئیات بیشتری می‌شد. متشکرم از شما

مصطفی 1 مرداد 1400

با خسته نباشید خدمت تیم وب سیما اکادمی یک سوال دیگه داشتم می خواستم بدونم که در robots.txt برای ووردپرس میشه /tag/ و/author/ رو هم disallow کرد

آکادمی وبسیما 9 مرداد 1400

سلام دوست عزیز
بله چنین امکانی وجود دارد ولی اگر این صفحات ارزشی در سایت شما ندارند بهتر است صفحات مربوط به برچسب و نویسنده را حذف کنید. چرا که در هر صورت بخشی از لینک های داخلی صفحات را به خود اختصاص داده و از اعتبار سایر صفحات کم می‌کنند.

مصطفی 22 تیر 1400

با سلام خدمت اقای اسماعیلی و تیم وب سیما اکادمی,یک سوالی از خدمت شما داشتم اونایی که از ووکامرس استفاده میکنند میتوانن دایرکتوری cart و دایرکتوری checkout رو اdisallow کنند و یک سوال دیگه ایا ما باید urlهایی که با استفاده از فیلتر کردن محصولات به وجود می اید رو هم disallow کنیم ممنون میشم اگر راهنماییم کنید.

آکادمی وبسیما 26 تیر 1400

سلام دوست عزیز
نیازی به درج این آدرس ها در فایل robots.txt نیست چرا که ووکامرسی به درستی تگ کنونیکال را در آنها قرار میدهد. در صورتی که قصد دارید همه فیلترها را از دسترس گوگل خارج کنید از این دستور استفاده کنید:
Disallow: *?*

مسعود 15 تیر 1400

سلام و خدا قوت. مقالاتتون اینقد کامله که وقتی چیزی در رابطه با سئو سایت میخوام داخل گوگل سرچ کنم به انتهای عبارت مورد نظرم کلمه ی وبسیما رو اضافه میکنم که فقط صفحه مورد نظر از سایت شما رو گوگل بهم نمایش بده. واقعا ممنونم از محتوای عالی سایت و دوره های اموزشیتون.
یک سوال داشتم: طبق توضیحاتی که فرمودین بنده فایل robot.txt رو ایجاد کردم و در هاست در مسیر public_html اپلود کردم اما وقتی که مثلا ادرس domain.com/robots.txt رو داخل مرورگر سرچ میکنم، همچنان محتوای قبلی فایل روبوت رو نمایش میده. عبارات جدیدی که به این فایل متنی اضافه کردم و اپلود کردم دیده نمیشن. حتی کش سایت رو هم کامل خالی کردم اما باز هم فقط محتوای فایل robots.txt فقط رو نمایش میده. تغییرات جدید در این فایل دیده نمیشن.
اگه راه حلی به نظرتون میرسه ممنون میشم بفرمایید چیکار کنیم تغییرات جدید که در فایل متنی نوشتیم و اپلود کردیم دیده بشن.
با تشکر فراوان از وبسیما

آکادمی وبسیما 17 تیر 1400

سلام دوست عزیز
حدس میزنم از وردپرس یا سیستم‌های مدیریت محتوا استفاده می‌کنید که فایل robots.txt را به صورت خودکار تولید می‌کنند. در نظر داشته باشید که محتوای این فایل به صورت داینامیک و آدرس آن در وردپرس مجازی است. اگر شما فایلی با همین نام در روت اصلی هاست آپلود کرده باشید محتوای آن جایگزین فایل تولید شده توسط وردپرس می‌شود.
در نتیجه مشکلی که در حال حاضر دارید طبیعی نیست. مهمترین نکته‌ای که به ذهنم میرسد املای صحیح نام فایل است. دقت کنید که حتما با حروف کوچک و به شکل robots.txt باشد. تا زمانیکه این تغییرات با بازکردن آدرس فایل دیده نشود گوگل هم به آن دسترسی نخواهد داشت.

رقیه رنجبری 8 خرداد 1400

با سپاس از اینکه بررسی فرمودین
طبق فرمایش شما User-Agent را تغییر دادم و اوکی شد.
بازم متشکرم

آکادمی وبسیما 8 خرداد 1400

خواهش میکنم. موفق باشید

رقیه رنجبری 8 خرداد 1400

با سلام و تشکر از متن فوق العاده تان.
یک سوال داشتم
یک سایت وردپرسی هست که میخواستم در اسکریمینگ فراگ آن را کرال و آنالیز کنم. اما متاسفانه کرال نمیشه و ارور 403 میده. جلوش میزنه نوایندکس
در حالیکه در گوگل تمام صفحات سایت ایندکس شده
به نظرتون مشکل از فایل robots.txt هست یا چیز دیگه؟
ممنون میشم اگه جوابمو بفرمایید

آکادمی وبسیما 8 خرداد 1400

سلام دوست عزیز
احتمال دارد که سایت مورد نظر دسترسی ربات‌های اسکریمینگ فراگ به صفحات را مسدود کرده باشد. پیشنهاد می‌کنیم از بخش Configuration و با انتخاب گزینه User-Agent ربات‌های دیگری را برای آنالیز سایت انتخاب کنید.

فایل Robots.txt چیست؟ تابلو ورود ممنوع برای ربات‌های گوگل

آهای ربات‌های سرگردان؛ لطفاً وارد این صفحه نشوید!

یک مثال برای درک بهتر اهمیت Robots.txt

چه زمانی لازم نیست محدودیتی برای گوگل در نظر بگیریم؟

آموزش ساخت فایل Robots.txt + ویدیو

گام آخر؛ تست آنلاین عملکرد فایل robots.txt

وقتی گوگل به حرف دستورات ما اهمیتی نمی‌دهد!

بررسی فایل Robots.txt در دیجی کالا و آپارات

دیجی کالا؛ میلیون‌ها صفحه‌ای کم‌ارزش خارج از دید گوگل

آپارات؛ تصمیمات هوشمندانه برای مدیریت درست بودجه خزش

آموزش سئو تکنیکال

قوانین فقط برای ربات‌های گوگل هستند؟ برای سایر ابزارها چه کار کنیم؟

فایل Robots.txt تنها ابزار مدیریت بودجه خزش نیست

رایج‌ترین سوالات در مورد فایل robots.txt

مایکروسافت کلاریتی چیست؟ کاربران در سایت شما دنبال چه هستند؟

آیکون سایت چیست؟ کلید شناسایی برند ما در نتایج جست‌وجو

SSL چیست؟ چقدر برای سئو سایت مهم است؟

core web vitals چیست؟ گذر از لحظه‌های سرنوشت‌ساز سئو

اسکیما چیست؟ تابلوهای راهنمای ربات‌های گوگل

Site Name چیست؟ نام سایت چطور انتخاب می‌شود؟