В цій короткій статті ми доступно розглядаємо команди robots.txt для пошукових роботів з прикладами і порадами реалізації. Якщо Ви не знаєте, що це таке, але у Вас є сайт, обов’язково прочитайте цю статтю, можливо, Ви знайдете причину того, із-за чого до вас не заходять пошуковики або відшукайте причину витоку секретної інформації

robots.txt — це звичайний текстовий файл, наявність якого найпершим перевіряють пошукові роботи із-за того, що їм, можливо, не доведеться індексувати цей сайт, а відповідно, його час не буде втрачено даремно.

Для цього створимо файл robots.txt і напишемо в нього:
user-agent: * #Усім пошуковим роботам
disallow: / #заборонений до індексації все (коренева директорія)

Але пошуковик може виявити і інший варіант:
user-agent: * # Усім пошуковим роботам
disallow: /temp/ #Заборонений до індексації директорія temp
disallow: /virus/ #Заборонений до індексації директорія virus

Також пошуковий робот може виявити і такий варіант:
user-agent: googlebot #Пошуковий робот google
disallow: / #заборонений до індексації все (коренева директорія)

І змішаний варіант:
user-agent: googlebot #Пошуковий робот google
disallow: / #заборонений до індексації все (коренева директорія)

user-agent: * # Усім пошуковим роботам
disallow: /temp/ #Заборонений до індексації директорія temp
disallow: /virus/ #Заборонений до індексації директорія virus

Тепер давайте розглянемо перший приклад. На мій погляд, він актуальний для тих сайтів, контент яких не повинен поширюватися за допомогою пошукових роботів. Наприклад, закритий сайт любителів windows 3.11.

У варіанті номер 2, як Ви помітили, відключені для індексації дві директорії, одна з постійно тимчасової інформацією (така звалище) а друга зі злісним вірусом. І перше, і друге не бажано поширювати в Інтернеті, тому що вже все і так на межі інформаційного апокаліпсису. Тому все, що не для всіх, можна відключити. Друга сторона медалі полягає ще й у тому, що robots.txt загальнодоступний і кожен може побачити, що Ви там заховали (виключили з індексації), які директорії, файли і загорітися бажанням отримати доступ саме до них. Тим більше, якщо Ви напишіть disallow: /virus/1.zip впевнений, що знайти його не складе труднощів навіть дитині. А «зовсім деякі вебмастера вперто продовжують розвивати цей медот і вписувати, таким чином, в robots.txt файли, які не підлягають громадського перегляду.

І в останньому прикладі ми відключили індексацію для google, а навіщо він нам потрібен? Може бути, ми любимо Рамблер, який донині не бачить різниці між html і asp, php і т. д. А google вже обробляє команди розширень в robots.txt…

Приклад (тільки для googlebot):
disallow: /temp/*.cgi #Заборонені до індексації все cgi файли в папці temp
або
disallow: *.cgi #Заборонені до індексації все cgi файли

Наостанок ще додам, що robots.txt потрібно розміщувати в кореневій директорії (Наприклад: http://www.pcnews.biz/robots.txt), а сайт не має robots.txt можливо буде схильний не регулярним нападам пошукових роботів.