Drag
menu En search
close
فایل Robots.txt و تاثیر آن بر سئو

فایل Robots.txt و تاثیر آن بر سئو

فایل Robots.txt، یک فایل متنی است که با آن دستوراتی برای ربات‌های Crawler موتورهای جست‌وجو تعیین می‌کنید. شما در این دستورات به ربات‌های موتورهای جست‌وجو می‌گویید کدام صفحات را crawl و ایندکس کنند و به کدام صفحات اصلا کاری نداشته باشند و آن صفحات را ذخیره و ایندکس نکنند. نداشتن یک فایل ربات، بهتر از داشتن یک فایل ربات خراب است چون می‌تواند آسیب شدیدی به سئو سایت‌تان بزند و رتبه‌ی شما را در صفحه نتایج گوگل پایین بیاورد. در صورتی که با داشتن یک فایل ربات سالم و خوب و قرار دادن آن در سایت می‌توانید به بهبود رتبه سایت خود بسیار کمک کنید. فایل Robots.txt بخشی از پروتکل ممانعت ربات‌ها (REP) است. پروتکل ممانعت از ربات‌ها یک استاندارد وب است که چگونگی خزیدن ربات‌های موتورهای جست‌وجو، دسترسی و ایندکس محتوا و در اختیار گذاشتن محتوا به کاربران را تعیین می‌کند. این پروتکل همچنین شامل راهنمایی‌هایی مانند متا ربات‌ها و همچنین دستورالعمل‌های صفحه‌های اصلی و فرعی وب برای این‌که موتورهای جست‌وجو چگونه با لینک‌ها (مانند لینک‌های فالو یا نوفالو) برخورد کنند، نیز است. در عمل، فایل Robots.txt مشخص می‌کند برخی ربات‌های موتور جست‌وجو می‌توانند یا نمی‌توانند به بخش‌هایی از سایت دسترسی پیدا کنند. همچنین با دستورهای Allow و DisAllow می‌توان مشخص کرد که همه‌ی ربات‌ها یا فقط ربات‌های خاصی، به بخش‌های مختلف سایت دسترسی داشته باشند یا دسترسی نداشته باشند.

 

موتور‌های جست‌وجو دو وظیفه‌ی اصلی و کلی دارند:

  • دنیای وب را بگردند و محتواها را کشف کنند.
  • محتواها را ایندکس کنند تا به کسانی که دنبال اطلاعات در دنیای وب هستند نشان دهند.

 

موتورهای جست‌وجو برای خزیدن در سایت‌ها لینک‌ها را دنبال می‌کنند و از این سایت به سایت‌های دیگر می‌روند تا میلیاردها صفحه و لینک‎‌های دیگر را کشف کنند. برخی این حرکت موتورهای جست‌وجو را به عنکبوت نسبت داده‌اند و نامش را (Spidering) گذاشته‌اند. در همین حال یک ربات کراولر موتورهای جست‌وجو، پس از ورود به سایت و قبل از Spidering، به دنبال فایل Robot.txt سایت می‌گردد. اگر ربات‌های کراولر یک فایل Robot.txt را پیدا کنند، از آن‌جا که این فایل حاوی دستورالعمل برای عملکرد ربات‌ها در سایت است، ربات شروع به خواندن فایل می‌کند، اما اگر فایل Robots.txt را پیدا نکند یا دستورالعملی در آن فایل برایش مشخص نشود، ربات شروع به خزیدن آزادانه در سایت می‌کند و اطلاعات شما را ایندکس می‌کند.

نکات مهم درباره Robots.txt

  • فایل Robots.txt باید نامش robots.txt باشد. از آن‌جا که این فایل به حروف کوچک و بزرگ حساس است نباید نام‌هایی مانند ROBOTS.txt یا robots.TXT یا نام‌های دیگر داشته باشد.
  • برخی از ربات‌ها شاید فایل Robots.txt شما را نادیده بگیرند. ربات‌هایی مانند ربات‌های مخرب (Malware robots) یا ربات‌های زداینده آدرس ایمیل این کار را ممکن است انجام دهند.
  • فایل Robots.txt برای مشاهده عموم آزاد است، پس برای مخفی‌کردن اطلاعات خصوصی کاربران از آن استفاده نکنید. برای این‌که فایل Robots.txt یک وب‌سایت را پیدا کنید کافی است عبارت /robots.txt را به آدرس دامنه هر وب‌سایت اضافه کنید. البته اگر آن سایت این فایل را داشته باشد!
  • هر زیر دامنه از دامنه‌ی اصلی باید فایل Robots.txt اختصاصی و جداگانه داشته باشند. یعنی اگر وبلاگ شما زیر دامنه سایت شما است، باید برای سایت یک فایل Robots.txt و برای وبلاگ فایل جداگانه دیگری داشته باشید.
  • به طور کلی بهترین مکان قرار دادن نقشه سایت (Sitemap) در انتهای فایل Robots.txt تان است.

کدهای دستوری برای استفاده در فایل Robot.txt

به طور کلی شما 5 دستور می‌توانید در این فایل استفاده کنید:

  • User-agent: به ربات‌های اختصاصی وب که شما به آن‌ها دستورالعمل‌های خزیدن (معمولاً موتور جستجو) می‌دهید می‌گویند.
  • Disallow: با این دستور به ربات‌های کراولر می‌گویید اجازه خزیدن در یک Url خاص را ندارید. فقط یک دستور Disallow برای هر URL می‌تواند استفاده شود.
  • Allow: این دستور فقط برای ربات‌های گوگل قابل اجرا است. شما با این دستور می‌توانید اجازه خزیدن به ربات‌های گوگل را در یک URL یا پوشه‌ی خاص را بدهید، حتی اگر دسترسی به Parent page یا زیرپوشه آن غیر مجاز باشد.
  • Crawl-delay: با این دستور به ربات‌ها می‌گویید چقدر باید صبر کنند تا بتوانند سایت شما را کراول یا ایندکس کنند. این دستور برای ربات‌های گوگل ناشناخته است، اما می‌توانید از طریق گوگل سرچ کنسول، سرعت خزیدن را تنظیم کنید.
  • نقشه سایت: این دستور توسط ربات‌های جست‌وجو گوگل، یاهو، بینگ و ASK قابل شناسایی است. نقشه سایت یا سایت مپ در واقع یک فایل XML است که محتواهای موجود در سایت شما را در خودش دارد و همه‌چیز را ثبت می‌کند، مانند یک جعبه سیاه!

 

زمانی که می‌خواهید یک URL را مسدود یا اجازه ورود دهید، فایل‌های Robots.txt کمی پیچیده می‌شوند چون با استفاده از تطبیق الگوها (Pattern-matching) می‌توانند طیف وسیعی از URLها را پوشش دهند.

گوگل و بینگ از دو نشان برای تطبیق الگوها استفاده می‌کنند. این دو نشان علامت* و $ هستند.

علامت* یک WILDCARD است که تمام ربات‌های موتورهای جست‌وجو را هدف قرار می‌دهد.

علامت $ نیز پایان یک Url را اعلام می‌کند.

تاثیر فایل Robots.txt بر سئو

بهینه‌سازی فایل Robots.txt بستگی به محتواهایی که در سایت شما وجود دارند، دارد. راه‌های بسیار زیادی وجود دارد تا از این فایل سود ببرید. برای مثال مبارزه با محتوای تکراری یا Duplacate content یا صفحاتی که ارزش ایندکس شدن ندارند. شما به راحتی می‌توانید یکی از صفحات محتوای تکراری خود را در فایل Robots.txt خود Disallow کنید تا ربات‌های کراولر آن‌ها را ایندکس نکنند. البته راه‌های دیگری برای مبارزه با محتوای تکراری وجود دارد که می‌توانید از آن‌ها هم استفاده کنید. مثال دیگر برای لینک‌هایی است که می‌خواهیم ایندکس نشوند. برای مثال در یک سایت وردپرسی، با هر بار جست‌وجوی کاربر یک ?s=/ به اخر URL اضافه می‌شود.

https://example.com/product-category/display/accessory/page/5/?s=

 

این صفحه هیچ ارزشی برای ایندکس ندارد و گاهی ممکن است باعث محتوای تکراری هم شود. همان‌طور که در بالا گفته شد می‌شود صفحه نتایج جست‌وجو داخلی سایت را از ایندکس شدن و نمایش در صفحه نتایج جست‌وجو موتورهای جست‌وجو مانند گوگل را به وسیله فایل Robots.txt مسدود کرد. در این مثال به راحتی می‌توان این‌کار را انجام داد تا مشکل حل شود. برخی از موتورهای جست‌وجو مانند گوگل ربات‌های خاص برای خود داند. گوگل ربات‌هایی دارد که عکس را جست‌وجو می‌کنند و ربات‌هایی نیز دارند که به سراغ محتواها می‌روند. نیازی نیست برای این دو ربات جداگانه دستورالعمل مشخص کنیم، اما دادن دستورالعمل می‌تواند، نحوه‌ی خزیدن این ربات‌ها در سایت شما را تنظیم و کنترل کند.

دلیل نیاز به فایل Robots.txt

همانطور که گفتیم، فایل Robots.txt دسترسی ربات‌ها را به برخی از قسمت‌های سایت شما را قطع می‌کند. داشتن فایل Robots.txt اگر در یک اشتباه خطرناک تمام سایت خود را برای ربات‌های موتورهای جست‌وجو ممنوع نکنید، می‌تواند در مواردی مفید باشد. برخی از موارد استفاده متداول از فایل Robots.txt شامل موارد زیر می‌شود:

  • جلوگیری از نمایش محتوای تکراری در صفحه نتایج جست‌وجو (SERP) (توجه داشته باشید که متا روبات‌ها اغلب انتخاب بهتری برای این کار هستند)
  • خصوصی نگه‌داشتن بخش‌های کاملی از یک سایت (به عنوان مثال، پنل اصلی مدیریت، سایت اصلی تیم مهندسی شما و...)
  • نگه داشتن صفحه نتایج جست‌وجو داخلی سایت و جلوگیری از نشان دادن آن‌ها در صفحه نتایج جست‌وجو عمومی موتورهای جست‌وجو
  • مشخص کردن نقشه‌سایت
  • جلوگیری از ایندکس شدن فایل‌های خاص در سایت از موتورهای جستجو (تصاویر، PDF و غیره)
  • تعیین تأخیر خزیدن به منظور جلوگیری از بارگیری بیش از حد سرورهای سایت، زمانی‌که ربات‌های خزنده در یک زمان چندین URL را بارگیری (Load) می‌کنند.

ساخت فایل Robots.txt

با استفاده از برنامه Notepad هم می‌توانید یک فایل ربات بسازید، اما دستورات و خط مشی که برای ربات‌های موتورهای جست‌و‌جو مشخص می‌کنید بسیار مهم است. فرمت فایل Robots.txt شما باید ASCII یا UTF-8 باشد و مستقیم در دایرکتوری ادمین هاست شما اپلود شود. آدرسی که باید فایل Robots.txt در آن قرار گیرد به شکل زیر است:

http://example.com/robots.txt

 

یادتان باشد که تمام حروف نوشته شده در آدرس باید کوچک باشند چون Url ها به حروف بزرگ و کوچک حساس هستند برای مثال دو آدرس زیر با هم متفاوت هستند:

http://example.com/robots.txt

http://example.com/Robots.txt

 

ربات‌های موتورهای جست‌وجو فقط دستورات Disallow و Allow را قبول دارند و می‌دانند. البته می‌توانیم با دستور Crawl-delay، گشتن و کراول کردن آن‌ها را برای صفحه‌ای خاص به تاخیر بیاندازیم. سایت مپ، سایت شما نیز در دستورات فایل Robot.txt قرار می‌گیرد که به ربات‌های موتورهای جست‌وجو می‌گوید فایل XML نقشه سایت کجاست. پس برای این‌که به آن‌ها بگویید صفحه‌ای را ایندکس نکنند باید از دستور Disallow و برای این‌که بگویید بعدا این صفحه را کراول کنند از دستور Crawl-delay باید استفاده کنید. باید بدانید که موتورهای جست‌وجو ربات‌های متفاوتی دارند به همین دلیل با کد User Agent و نام ربات مورد نظر، می‌توانیم ربات خاصی را مشخص کنیم. البته می‌توانیم تمامی ربات‌های موتورهای جست‌وجوی مختلف را هدف قرار دهیم و به اصطلاح از Wild card استفاده کنیم.
در نهایت برای نوشتن دستورات در فایل Robots.txt خود باید به صورت زیر عمل کنید:

عدم دسترسی موتورهای جست‌وجو به سایت:

User-agent:*

Disallow: /

 

عدم دسترسی به یک پوشه خاص برای تمام موتورهای جست‌وجو:

User-agent:*

Disallow: /folder/

 

عدم دسترسی به یک فایل خاص برای تمام موتورهای جست‌وجو:

User-agent:*

Disallow: /file.html

محمد کریم زاده
محمد کریم زاده
در صورتی که درباره دانش‌ها و تخصصی‌هایی که دارم مطالعه کردید و می‌خواید که من پروژه شما رو انجام بدم و یا کمکی برای انجام پروژه لازم دارید، با من تماس بگیرید.
(5)
view 39 like 1

ثبت نظر