
Почему правильное составление файла robots.txt так важно для сайта?
При индексации сайта поисковые системы первым делом проверяют наличие файла robots.txt в корневой директории Вашего сайта. В этом файле указываются правила индексации сайта поисковыми роботами. Проще говоря, этот файл говорит поисковикам, что и как нужно индексировать, а что нет.
Где размещается файл robots.txt?
Файл размещается в корневой директории сайта. Например:
Адрес сайта http://site.com/
Адрес файла robots.txt http://site.com/robots.txt
На сайте должен присутствовать только один файл robots.txt. Написание имени файла должно быть в нижнем регистре (маленькими буквами). Файл должен быть создан в UTF-8 кодировке.
Синтаксис файла robots.txt
User-agent – директива точно указывающая имя поискового робота для дальнейших инструкций. Отделение директив с инструкциями производится переводом строки.
Disallow – запрещает индексирование.
Allow – делает исключения в подмножестве запретов.
Host – директива для робота Yandex, осуществляет указание главного зеркала. Для корректной обработки и учета, директива должна располагаться после всех директив Disallow(Allow).
Sitemap – директива, указывающая на файл карты сайта (sitemap.xml).
Разница между Disallow: /cgi-bin и Disallow: /cgi-bin/ (со слешем и без слеша на конце)
Disallow: /cgi-bin/ – правило актуально для директории (папки) cgi-bin
Disallow: /cgi-bin – правило актуально для директорий и файлов cgi-bin
Файл robots.txt разрешающий полную индексацию сайта без запретов:
User-agent: * Disallow: Host: www.site.com Sitemap: http://www.site.com/sitemap.xml
Запретить весь сайт для индексации всеми роботами:
User-agent: * Disallow: /
Запрет индексации всех страниц сайта, содержащих знак вопроса (?)
User-agent: Disallow: /*?
Запрет индексации определенного типа файлов
Запрет от индексации всех файлов .xls и .doc
User-agent: Disallow: /*.xls$ Disallow: /*.doc$
Запрет индексации изображений с сайта поисковиком Google
User-agent: Googlebot-Image Disallow: /
Перейдем непосредственно в правильному составлению robots.txt для WordPress
Для блогов на WordPress правильное составление файла robots.txt важно по причине негативного воздействия дублированного контента на позиции сайта в поисковых системах.
При обнаружении дублированного контента поисковики могут применить фильтр, что не особо опасно, но в некоторых случаях поисковые системы применяют жесткие санкции по отношению к сайту с дублированным контентом. Правильное составление robots.txt позволит исключить ненужные (дублированные) страницы с Вашего сайта и избежать лишних хлопот с фильтрами и санкциями.
Собственно, пример правильного robots.txt от самого WordPress
Ниже представлен файл robots.txt рекомендуемый WordPress:
User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /feed Disallow: /comments Disallow: /category/*/* Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Allow: /wp-content/uploads
А это пример правильного robots.txt от студии misterkim.org
Успользуя правильный robots.txt рекомендуемый командой WordPress, убрав и добавив некоторые правила, получился следующий файл:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 | User-agent: * Disallow: /cgi-bin Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-content/themes Disallow: /trackback Disallow: /feed Disallow: /comments Disallow: /category/*/* Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? # Удален, т.к. на практике дублируется предыдущим Disallow: /archives/ # Добавлен Disallow: /category/ # Добавлен Disallow: /search/ # Добавлен Disallow: /page/ # Добавлен Disallow: /tag/ # Добавлен Disallow: /xmlrpc.php # Добавлен Allow: /wp-content/uploads Host: www.site.com # Добавлен Sitemap: http://www.site.com/sitemap.xml # Добавлен |
Проверка robots.txt
Перед утверждением созданного файла robots.txt не помешало бы его проверить на ошибки, которые могут привести к полному или частичному запрету индексации Вашего сайта.
Проверка robots.txt анализатором robots.txt от Яндекс.Вебмастер или с помощью Google webmasters tools.
Добавлено 23.07.2010
С введением поисковиками Google, Yahoo и Bing тега «canonical» надобность в запрете некоторых директорий посредством robots.txt отпала (не актуально для Яндекса).
Тег оповещает поисковики о частичном или полном копировании материала сайта (о дублированном контенте).
Правило выглядит следующим образом и размещается между тегами :
<link rel="canonical" href="http://www.site.com/post" />Если Вы используете плагин для WordPress «All in One SEO» актуальной версии, то он умеет автоматически подставлять в дублированные страницы правило canonical.
Пример автоматической вставки правила на странице тегов:
<link rel="canonical" href="http://site.com/tags/cms" />Пример автоматической вставки правила в категориях:
<link rel="canonical" href="http://site.com/category/portfolio" />Пример автоматической вставки правила в записи (при включенном ЧПУ):
<link rel="canonical" href="http://site.com/?p=125" />












Комментарии
[...] скрипты, Twitter, веб-дизайн. Мне, например, понравилась статья, посвященная созданию правильного файла robots.txt – расписано все подробно и с примерами.Теперь о [...]