روبات کلیپ برد چند منظوره جوملا
درباره /robots.txt
مختصرا
صاحبان وب سایت استفاده از فایل /robots.txt به دادن دستورالعمل در مورد سایت خود را به ربات وب؛ این پروتکل خروج روبات نامیده می شود.
این کار امثال این: یک ربات می خواهد به vists یک URL وب سایت، می گویند www.example.com/welcome.html. قبل از آن کار، آن اولینهای چک برای www.example.com/robots.txt، و می یابد:
"کاربر-عامل: *" به معنی این بخش شامل تمام روبات. به "قائل نشدن: /" می گوید ربات است که آن را باید هر صفحه در سایت مراجعه کنید.
دو ملاحظات مهم وجود دارد که با استفاده از /robots.txt:
- ربات ها می توانند /robots.txt خود را نادیده بگیرد. ربات به خصوص نرم افزارهای مخرب که اسکن وب برای آسیب پذیری های امنیتی و تمیز کردن آدرس ایمیل استفاده می شود توسط اسپم هیچ توجه.
- فایل /robots.txt یک فایل در دسترس عموم است. هر کسی می توانید ببینید چه بخشهایی از سرور خود را که شما نمی خواهید ربات استفاده کنید.
پس سعی نکنید با استفاده /robots.txt برای مخفی کردن اطلاعات است.
جزئیات
/robots.txt یک استاندارد بالفعل است، و توسط هر استانداردهای متعلق نیست. دو توصیف تاریخی وجود دارد:
علاوه بر این منابع خارجی وجود دارد:
استاندارد /robots.txt به طور فعال توسعه یافته نیست. چه در مورد توسعه بیشتر از /robots.txt مشاهده می کنید؟ برای بحث بیشتر.
بقیه این صفحه به کلی از نحوه استفاده از /robots.txt بر روی سرور خود، با برخی از دستور العمل های ساده. برای کسب همچنین مشاهده بیشتر انجمن.
چگونه برای ایجاد یک فایل /robots.txt
پاسخ کوتاه: در دایرکتوری سطح بالا از وب سرور خود را.
پاسخ دیگر:
هنگامی که یک ربات به نظر می رسد برای "/robots.txt" فایل برای URL، آن نوار جزء مسیر از URL (همه چیز از اولین تک بریده بریده)، قرار می دهد و "/robots.txt" در جای خود.
برای مثال، برای /shop/index.html "www.example.com/shop/index.html. آن را به حذف" "، و جایگزینی آن با" /robots.txt "، و با به پایان خواهد رسید" www.example گفتمان / robots.txt را ".
بنابراین، به عنوان یک صاحب وب سایت شما نیاز به آن را در جای مناسب بر روی وب سرور خود را برای آن URL نتیجه به کار است. معمولا که همان محل که در آن شما را اصلی "index.html را" صفحه خوش آمد وب سایت شما است. که در آن دقیقا این است که، و چگونه برای قرار دادن فایل وجود دارد، بستگی به نرم افزار وب سرور خود را.
به یاد داشته باشید برای استفاده از تمامی حروف کوچک برای نام فایل: "robots.txt را"، نه "robots.txt را.
به "/robots.txt" فایل یک فایل متنی است، با یک یا چند رکورد. معمولا شامل یک سابقه دنبال شد مثل این:
در این مثال، سه پوشه ها حذف شدند.
توجه داشته باشید که شما نیاز به یک خط "قائل نشدن" جداگانه برای هر پیشوند URL شما می خواهید به حذف - شما نمی توانید بگویید "قائل نشدن: / cgi-bin در / / TMP /" در یک خط. همچنین، شما ممکن خط خالی در یک رکورد را نداشته باشند، به عنوان آنها استفاده می شود به محدود سوابق متعدد.
توجه داشته باشید که globbing و عبارت منظم در هر دو کاربر از عامل یا عدم اجازه برای خطوط پشتیبانی نمی شود. وی * در فیلد User عامل ارزش ویژه ای به معنی "هر ربات" است. به طور خاص، شما می توانید خطوط مانند "عامل کاربر: * ربات *" نیست، "قائل نشدن: / tmp را / *" یا "قائل نشدن: * .JPG".
آنچه شما می خواهید به حذف بستگی به سرور شما. همه چیز به صراحت مجاز نیست نظر گرفته شده است بازی منصفانه برای بازیابی. در اینجا چند نمونه را دنبال کنید:
(و یا فقط یک "/robots.txt" فایل خالی ایجاد کنید، یا یک در تمام استفاده نمی)
این در حال حاضر یک کمی ناجور، به عنوان هیچ زمینه "اجازه" وجود دارد. راه آسان است برای قرار دادن تمام فایل های به یک دایرکتوری جداگانه مجاز می شود، می گویند "چیزهای"، و یک فایل را ترک در سطح بالا این شاخه: روش دیگر شما به صراحت می توانید تمام صفحات مجاز ندهید: