|
Форум сайта » WEB-мастеру » Вопросы по SEO » Правильный файл robot.txt (Правильный файл robot.txt) |
Правильный файл robot.txt |
Поисковые сервера всегда перед индексацией вашего ресурса ищут в корневом каталоге вашего домена файл с именем "robots.txt" (http://www.mydomain.com/robots.txt). Этот файл сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет.
Поисковые сервера всегда перед индексацией вашего ресурса ищут в корневом каталоге вашего домена файл с именем "robots.txt" (http://www.mydomain.com/robots.txt). Этот файл сообщает роботам (паукам-индексаторам), какие файлы они могут индексировать, а какие нет. Формат файла robots.txt - особый. Он состоит из записей. Каждая запись состоит из двух полей: строки с названием клиентского приложения (user-agent), и одной или нескольких строк, начинающихся с директивы Disallow: <Поле> ":" <значение> Robots.txt должен создаваться в текстовом формате Unix. Большинство хороших текстовых редакторов уже умеют превращать символы перевода строки Windows в Unix. Либо ваш FTP-клиент должен уметь это делать. Для редактирования не пытайтесь пользоваться HTML-редактором, особенно таким, который не имеет текстового режима отображения кода. Поле User-agent User-agent: googlebot Если вы обращаетесь ко всем роботам, вы можете использовать символ подстановки "*": User-agent: * Названия роботов вы можете найти в логах вашего веб-сервера. Для этого выберите только запросы к файлу robots.txt. большинство поисковых серверов присваивают короткие имена своим паукам-индексаторам. Поле Disallow Disallow: email.htm Директива может содержать и название каталога Disallow: /cgi-bin/ Эта директива запрещает паукам индексировать директорию "cgi-bin". В Disallow могут использоваться и символы подстановки, стандарт диктует, что директива /bob запретит паукам лезть в /bob.html и так же в /bob/index.html. Если же директива Disallow останется пустой, то роботу разрешено индексировать обсолютно все файлы. Как минимум одна директива Disallow должна присутствовать для каждого поля User-agent, для того, чтобы robots.txt считался корректным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще. Пробелы и комментарии Disallow: bob #comment Некоторые пауки не смогут правильно разобрать данную строку и вместо этого поймут ее как запрет на индексацию ресурсов bob#comment. Поэтому все комментарии должны размещаться на отдельной строке. Пробел в начале строки разрешается, но не рекомендуется Disallow: bob #comment Примеры User-agent: * Следующая директива будет запрещать всем роботам это делать: User-agent: * Запрещается всем роботам индексировать директории "cgi-bin" и "images": User-agent: * Запрещается роботу Roverdog заходить во все каталоги сервера: User-agent: Roverdog Данная директива запрещает Google роботу googlebot индексировать файл cheese.htm: User-agent: googlebot Есле Вас интересуют более сложные примеры или же хотите посмотреть на действующий файл robots.txt, то просмотрите его на каком-нибудь большом сайте. http://sitename.com/robots.txt В поисках корректного robots.txt Рассмотрим наиболее встречаемые ошибки при создании robots.txt Перевернутый синтаксис User-agent: * А должно быть так: User-agent: scooter Несколько директив Disallow в одной строке Disallow: /css/ /cgi-bin/ /images/ Различные пауки поймут эту директиву по-разному. Некоторые из них проигнорируют пробелы и поймут директиву как запрет на индексацию дирректории /css//cgi-bin//images/. Возможен вариант, что они проиндексируют лишь один каталог (/images/ или /css/), остальные проигнорируют. Правильный синтаксис в данном случае будет таков: Disallow: /css/ Строка в формате DOS Комментарии в конце строки Disallow: /cgi-bin/ #this bans robots from our cgi-bin Но в недавнем прошлом были роботы, которые заглатывали всю строку в качестве директивы. Сейчас нам такие роботы неизвестны, но кто может с уверенностью сказать, что такая ошибка не может случиться. Размещайте комментарии на отдельной строке. Пробелы в начале строки Disallow: /cgi-bin/ Стандарт ничего не говорит по поводу пробелов, но это считается плохим стилем. И опять же, бережёного Бог бережёт! Редирект на другую страницу при ошибке 404 Конфликты директив User-agent: * Первая директива запрещает всем роботам индексировать сайт, но вторая директива разрешает роботу slurp это делать. Так что же все-таки должен делать slurp? Мы не можем гарантировать, что все роботы поймут эти директивы правильно. В данном примере slurp должен проиндексировать весь сайт, а все остальные не должны уйти прямо с порога. Верхний регистр всех букв - плохой стиль: USER-AGENT: EXCITE Несмотря на то, что стандарт безразлично относится к регистру букв в robots.txt, в именах каталогов и файлов регистр все-таки важен. Лучше всего следовать примерам и в верхнем регистре писать первые буквы только в словах User и Disallow. Список всех файлов Disallow: /AL/Alabama.html Вышеприведенный пример можно заменить на: Disallow: /AL Помните, что начальная наклонная черта обозначает, что речь идет о каталоге. Конечно, ничто не запрещает вам перечислить парочку файлов, но мы речь ведем о стиле. Данный пример взят из файла robots.txt, размер которого превышал 400 килобайт, в нем было упомянуто 4000 файлов! Интересно, сколько роботов-пауков, посмотрев на этот файл, решили больше не приходить на этот сайт. Есть только директива Disallow! Нет такой директивы Allow, есть только Disallow. Этот пример неверный: User-agent: Spot Правильно будет так: User-agent: Spot Нет открывающей наклонной черты Что должен сделать робот-паук с данной директивой: User-agent: Spot Согласно стандартам эта директива запрещает индексировать файл "john" и каталог john". Но лучше всего, для верности, использовать наклонную черту, чтобы робот мог отличить файл от каталога. Еще мы видели, как люди записывали в файл robots.txt ключевые слова для своего сайта (подумать только - для чего?). Бывали такие файлы robots.txt, которые были сделаны в виде html-документов. Помните, во FrontPage делать robots.txt не стоит. Неправильно настроенный сервер Всегда после того, как вы закачали файл robots.txt на сервер, проверяйте его. Достаточно в броузере набрать простой запрос: http://www.mydomain.com/robots.txt Вот и все что нужно для проверки. Особенности Google User-agent: googlebot В поле user-agent вам следует использовать имя "googlebot". Не рискуйте давать подобную директиву другим роботам-паукам, они не поймёт. МЕТА-тег robots Кроме того, этит тег будет полезен тем, кто не может подступиться к корневому каталогу сервера robots.txt и изменить его. Некоторые поисковые сервера, такие как Inktomi например, полностью понимают мета-тег robots. Inktomi пройдет по всем страницам сайта если значение данного тега будет "index,follow". Формат мета-тега Robots <HTML> Значения мета-тега robots index, noindex, follow, nofollow Если значений несколько, они разделяются запятыми. В настоящее время лишь следующие значения важны: Директива INDEX говорит роботу, что данную страницу можно индексировать. Директива FOLLOW сообщает поисковому роботу, что ему разрешается индексировать ссылки на данной странице. В некоторых источниках можно прочитать, что если данные значения отсутствуют, то поисковые роботы по умолчанию действуют так, как если бы им даны были директивы INDEX и FOLLOW. К сожалению, это не всегда так и для поискового сервера Inktomi значения будут равны "index, nofollow". Итак, глобальные директивы выглядят так: Индексировать всё = INDEX, FOLLOW Не индексировать ничего = NOINDEX, NOFOLLOW Примеры мета-тега robots |
StarDUST, незачто , понравилось ? Ставь + =)
|
| |||
| |||