Правильный robots.txt для WordPress глазами блоггеров

Правильный robots.txt для WordPress глазами блоггеров

Июль 23rd, 2010 | Статьи
Правильный robots.txt для WordPress

Почему правильное составление файла robots.txt так важно для сайта?
При индексации сайта поисковые системы первым делом проверяют наличие файла robots.txt в корневой директории Вашего сайта. В этом файле указываются правила индексации сайта поисковыми роботами. Проще говоря, этот файл говорит поисковикам, что и как нужно индексировать, а что нет.

Где размещается файл robots.txt?

Файл размещается в корневой директории сайта. Например:

Адрес сайта http://site.com/
Адрес файла robots.txt http://site.com/robots.txt

На сайте должен присутствовать только один файл robots.txt. Написание имени файла должно быть в нижнем регистре (маленькими буквами). Файл должен быть создан в UTF-8 кодировке.

Синтаксис файла robots.txt

User-agent – директива точно указывающая имя поискового робота для дальнейших инструкций. Отделение директив с инструкциями производится переводом строки.
Disallow – запрещает индексирование.
Allow – делает исключения в подмножестве запретов.
Host – директива для робота Yandex, осуществляет указание главного зеркала. Для корректной обработки и учета, директива должна располагаться после всех директив Disallow(Allow).
Sitemap – директива, указывающая на файл карты сайта (sitemap.xml).

Разница между Disallow: /cgi-bin и Disallow: /cgi-bin/ (со слешем и без слеша на конце)

Disallow: /cgi-bin/ – правило актуально для директории (папки) cgi-bin
Disallow: /cgi-bin – правило актуально для директорий и файлов cgi-bin

Файл robots.txt разрешающий полную индексацию сайта без запретов:

User-agent: *
Disallow:
Host: www.site.com
Sitemap: http://www.site.com/sitemap.xml

Запретить весь сайт для индексации всеми роботами:

User-agent: *
Disallow: /

Запрет индексации всех страниц сайта, содержащих знак вопроса (?)

User-agent:
Disallow: /*?

Запрет индексации определенного типа файлов
Запрет от индексации всех файлов .xls и .doc

User-agent:
Disallow: /*.xls$
Disallow: /*.doc$

Запрет индексации изображений с сайта поисковиком Google

User-agent: Googlebot-Image
Disallow: /

Перейдем непосредственно в правильному составлению robots.txt для WordPress

Для блогов на WordPress правильное составление файла robots.txt важно по причине негативного воздействия дублированного контента на позиции сайта в поисковых системах.
При обнаружении дублированного контента поисковики могут применить фильтр, что не особо опасно, но в некоторых случаях поисковые системы применяют жесткие санкции по отношению к сайту с дублированным контентом. Правильное составление robots.txt позволит исключить ненужные (дублированные) страницы с Вашего сайта и избежать лишних хлопот с фильтрами и санкциями.

Собственно, пример правильного robots.txt от самого WordPress

Ниже представлен файл robots.txt рекомендуемый WordPress:

User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Allow: /wp-content/uploads

А это пример правильного robots.txt от студии misterkim.org

Успользуя правильный robots.txt рекомендуемый командой WordPress, убрав и добавив некоторые правила, получился следующий файл:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
User-agent: *
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /trackback
Disallow: /feed
Disallow: /comments
Disallow: /category/*/*
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*? # Удален, т.к. на практике дублируется предыдущим
Disallow: /archives/ # Добавлен
Disallow: /category/ # Добавлен
Disallow: /search/ # Добавлен
Disallow: /page/ # Добавлен
Disallow: /tag/ # Добавлен
Disallow: /xmlrpc.php # Добавлен
Allow: /wp-content/uploads
Host: www.site.com # Добавлен
Sitemap: http://www.site.com/sitemap.xml # Добавлен

Проверка robots.txt

Перед утверждением созданного файла robots.txt не помешало бы его проверить на ошибки, которые могут привести к полному или частичному запрету индексации Вашего сайта.
Проверка robots.txt анализатором robots.txt от Яндекс.Вебмастер или с помощью Google webmasters tools.

Добавлено 23.07.2010

С введением поисковиками Google, Yahoo и Bing тега «canonical» надобность в запрете некоторых директорий посредством robots.txt отпала (не актуально для Яндекса).

Тег оповещает поисковики о частичном или полном копировании материала сайта (о дублированном контенте).

Правило выглядит следующим образом и размещается между тегами :

<link rel="canonical" href="http://www.site.com/post" />

Если Вы используете плагин для WordPress «All in One SEO» актуальной версии, то он умеет автоматически подставлять в дублированные страницы правило canonical.

Пример автоматической вставки правила на странице тегов:

<link rel="canonical" href="http://site.com/tags/cms" />

Пример автоматической вставки правила в категориях:

<link rel="canonical" href="http://site.com/category/portfolio" />

Пример автоматической вставки правила в записи (при включенном ЧПУ):

<link rel="canonical" href="http://site.com/?p=125" />
Теги:

Комментарии

  • [...] скрипты, Twitter, веб-дизайн. Мне, например, понравилась статья, посвященная созданию правильного файла robots.txt – расписано все подробно и с примерами.Теперь о [...]

  • Добавить комментарий

    Ваш e-mail не будет опубликован. Обязательные поля помечены *

    *

    Можно использовать следующие HTML-теги и атрибуты: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong> <pre lang="" line="" escaped="">

    Оставьте эти два поля как есть: