AIO: مدیریت دسترسی ربات‌های هوش‌مصنوعی به محتوای سایت

پیش از هر چیز، مقاله‌ی “AIO: مدیریت دسترسی ربات‌های هوش‌مصنوعی به محتوای سایت” اولین از یک مجموعه درباره‌ی بهینه سازی سایت و برندینگ برای مدل‌های زبانی‌ست. در این مجموعه مقالات، تلاش می‌کنم آنچه درباره‌ AIO یا همان Artificial Intelligence Optimization (بهینه‌سازی برای هوش مصنوعی) آموخته‌ام، گردآوری و منبعی کاربردی و قابل اتکا برای علاقه‌مندان فراهم کنم.

بی‌شک برای هر کسب‌وکاری، دسترسی سریع و آسان مخاطبان به اطلاعات خدمات و محصولات، از اهمیت ویژه‌ای برخوردار است. در گذشته، ما با پیروی از اصول و تکنیک‌های سئو (SEO)، ساختار صفحات و محتوای وب‌سایت‌ها را بهینه می‌کردیم تا صفحات‌مان هرچه بهتر و سریع‌تر توسط موتورهای جستجو ایندکس و دیده شوند.

اما وارد دنیای جدیدی شده‌ایم؛ دنیایی که در آن بیشتر سوالات مستقیماً از هوش‌های مصنوعی پرسیده می‌شود و کاربران نیز پاسخ این مدل‌ها را معتبر می‌دانند. در چنین شرایطی، حضور اطلاعات دقیق و به‌روز کسب‌وکارمان در میان داده‌های آموزشی مدل‌های هوش مصنوعی، اهمیت حیاتی پیدا کرده است.

پیش از هر چیز باید بدانیم مدل‌های هوش‌مصنوعی نیز همچون موتورهای جستجو از ربات‌های خزنده برای دسترسی به محتوای صفحات وب استفاده می‌کنند. اما نحوه‌ی ایندکس و تحلیل داده‌های این ربات‌ها با خزنده‌های موتورهای جستجو متفاوت است. پس باید نحوه‌ی دسترسی این ربات‌ها به وبسایت خود را کنترل کنیم.

از نگر من، با توجه به این که مدل‌های زبانی پاسخ‌های خود را براساس تکرار یک مبحث در منابع متفاوت ایجاد می‌کنند؛ و تیم‌های سئو از محتوای با موضوع مرتبط برای بهینه سازی و افزایش رتبه یک کلمه‌ی کلیدی استفاده می‌کنند و لزوما تمامی صفحات شامل اطلاعات محصول یا خدمات نمی‌شود؛ بهتر است دسترسی ربات‌ها را تنها به صفحات محصولات یا خدمات برند محدود کنیم. (البت این تنها نظر شخصی‌ست و تصمیم با شماست – متاسفانه هنوز نتیجه‌ی آزمایش‌های شخصی برای نظر قطعی مشخص نشده است) 

تنظیمات افزونه Yoast برای کنترل دسترسی ربات‌ها

اگر از افزونه‌ی Yoast SEO برای بهینه‌سازی سایت وردپرسی خود استفاده می‌کنید، می‌توانید از طریق مسیر زیر اقدام به مدیریت ربات‌های خزنده کنید:

مسیر:
بخش تنظیمات > پیشرفته > بهینه‌سازی خزیدن

در قسمت مسدود کردن ربات‌های ناخواسته:

  • تیک مربوط به ربات‌های Bard و GPT را بردارید تا این ربات‌ها بتوانند محتوای سایت شما را بخوانند.

  • همچنین توصیه می‌شود که تیک CCbot (ربات پروژه Common Crawl) را نیز بردارید.

تنظیمات افزونه Yoast برای کنترل دسترسی ربات‌های هوش مصنوعی

چرا CCbot مهم است؟

ربات Common Crawl (CCbot) داده‌های متنی گسترده‌ای از وب را جمع‌آوری می‌کند که برای آموزش مدل‌های زبانی استفاده می‌شود. محتوای جمع‌آوری شده توسط CCbot منبعی برای بسیاری از مدل‌های هوش مصنوعی است.

 

ایجاد صفحات اختصاصی برای ارائه اطلاعات به ربات‌ها

اگر تمایل دارید فقط بخشی از محتوای سایت شما برای این ربات‌ها در دسترس باشد، می‌توانید یک یا چند صفحه‌ی اختصاصی بسازید و دسترسی ربات‌ها را محدود به آن کنید.

نمونه دستور robots.txt برای ChatGPT (GPTBot)

User-agent: GPTBot
Allow: /GPT/
Disallow: /

با این تنظیمات، ربات GPTBot تنها به شاخه yourwebsite.com/GPT/ دسترسی خواهد داشت.

منبع رسمی: OpenAI GPTBot Documentation

 

مدیریت دسترسی Google Bard با Google-Extended

برای مدیریت دسترسی ربات Bard و دیگر پروژه‌های AI گوگل، از Google-Extended استفاده کنید.

نمونه دستور robots.txt برای Bard

User-agent: Google-Extended
Allow: /Bard/
Disallow: /

با این دستور، ربات‌های مرتبط با Bard تنها می‌توانند به بخش yourwebsite.com/Bard/ دسترسی داشته باشند.

منبع رسمی: Google-Extended Documentation

 

کنترل دسترسی ربات Common Crawl (CCBot)

همچنین برای مدیریت دسترسی ربات CCbot می‌توانید دستورات مشابهی اضافه کنید:

User-agent: CCBot
Allow: /CCBot/
Disallow: /

فهرست کامل ربات‌های خزنده‌ی هوش مصنوعی

در ادامه لیستی از ربات‌های شناخته شده‌ی هوش مصنوعی آورده شده است که می‌توانید برای هر کدام در فایل robots.txt تنظیمات دسترسی بنویسید:

شماره ربات User Agent
۱ Anthropic AI anthropic-ai / Claude-Web
۲ Apple Applebot-Extended
۳ Bytespider (TikTok) Bytespider
۴ Common Crawl CCBot
۵ ChatGPT User ChatGPT-User
۶ Cohere AI cohere-ai
۷ Diffbot Diffbot
۸ Facebook / Meta FacebookBot
۹ Google Research GoogleOther
۱۰ Google-Extended Google-Extended
۱۱ GPTBot GPTBot
۱۲ ImagesiftBot ImagesiftBot
۱۳ Perplexity AI PerplexityBot
۱۴ Webz / Omigili OmigiliBot

توصیه‌های اضافه

  • برای تمامی ربات‌هایی که مایل به محدود کردن آن‌ها هستید، دستورات Disallow اختصاصی بنویسید.

  • برای جلوگیری از سوء استفاده احتمالی، همواره فایل robots.txt را به روز نگه دارید.

  • به خاطر داشته باشید که رعایت robots.txt بر اساس توافق است و برخی ربات‌ها ممکن است آن را نادیده بگیرند.

از نگر من مدیریت هوشمندانه‌ی دسترسی ربات‌های هوش مصنوعی به محتوای سایت، به حفظ ارزش محتوایی، برندینگ بهتر و جلوگیری از استفاده‌ی بدون کنترل از اطلاعات شما کمک می‌کند. با بهره‌گیری از روش‌هایی که در این مقاله ارائه شد، می‌توانید به طور دقیق تعیین کنید چه بخشی از سایت شما در اختیار ربات‌های خزنده‌ی مدل‌های زبانی قرار گیرد.

 

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *