Анализ сайта: Проверить сайт на санкции

Универсальный Robots.txt для WordPress

Файл Robots.txt – это простой текстовый файл, располагающийся в корневом каталоге вашего блога, основанного на WordPress, который отвечает за поведение поисковых роботов на ваш сайте. Хорошо, если у вас есть такой файл, потому что если он отсутствует, то поисковые роботы будут индексировать абсолютно весь контент, размещенный на сервере, включая даже те файлы и ту информацию, которую вы не желали бы распространять.

Знали ли вы о том, что файл Robots.txt также играют важную роль в оптимизации сайта под поисковые системы? Если да, то вы вероятно уже обзавелись таким файликом. Но было ли вам когда-нибудь интересно то, каким образом можно заставить этот файл работать в полную силу, Существуют некоторые общие настройки, которые на всех сайтах примерно одинаковы.

Итак, давайте попробуем создать почти идеальный файл Robots.txt для блога на WordPress:

  • 1. Укажите файл карты вашего сайта, в случаи с нашим сайтом путь таков:
Sitemap: http://web-profy.com/sitemap.xml
Sitemap: http://web-profy.com/sitemap.xml.gz

Если у вас есть файл карты сайта,  то в самой первой строке вам стоит указать путь до него. Сделать карту xml-карту сайта для вордпресс можно с помощью плагина  Google XML Sitemaps.

  • 2. Отключите индексацию пауками папок и файлов системы WordPress

Вам следует предотвратить возможность паукам анализировать файлы и папки, идущие в стандартной комплектации WordPress. Почему? Потому что вам вряд ли захочется обнаружить в результатах поиска ссылки на ваши страницы регистрации, авторизации или на админ-панель.

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /index.php
Disallow: /wp-activate.php
Disallow: /wp-app.php
Disallow: /wp-blog-header.php
Disallow: /wp-comments-post.php
Disallow: /wp-config.php
Disallow: /wp-cron.php
Disallow: /wp-links-opml.php
Disallow: /wp-load.php
Disallow: /wp-login.php
Disallow: /wp-mail.php
Disallow: /wp-pass.php
Disallow: /wp-register.php
Disallow: /wp-settings.php
Disallow: /wp-signup.php
Disallow: /wp-trackback.php
Disallow: /xmlrpc.php
  • 3. Заблокируйте в robots.txt индексацию категорий, новостной ленты, комментариев, трэкбэков и динамического контента

Вам также следует предотвратить просмотр и индексацию вашей новостной ленты, так как это может привести к нежелательной индексации дублированного контента.  Я бы рекомендовал вам заблокировать индексацию ленты-rss. То же самое и со страницами категорий. Они просто представляют собой сборники записей в блоге, они не повышают их ценность и не делает ничего полезного для блога в целом, лишь дублируют контент.

Прямые ссылки до комментариев и трэкбэки также следует заблокировать, так как к ним есть доступ с самой страницы записи в блоге. Их блокировка так же уменьшает количество исходящих ссылок и положительно влияет на SEO-оптимизацию. То же самое относится и к динамически генерируемому контенту типа результатов поиска или ссылок ответа на комментарии, так как все это приводит к дублированию контента. Мы сделаем это следующим образом:

Disallow: /feed        # блокировка ленты новостей
Disallow: */feed        #блокировка рассылки отдельных записей в блоге
Disallow: /category/*/*    #блокировка страницы категорий
Disallow: /comments    #блокировка URL на комментарии
Disallow: */comment-*    #блокировка страницы комментариев
Disallow: */trackback    #блокировка URL трэкбэка на запись
Disallow: /*?        #блокировка динамически генерируемого контента
  • 4. Разрешите доступ к папке Upload

Разрешая паукам доступ к папке загрузок позволяет вам быть уверенными в том, что загруженные файлы (изображения, видеофайлы и другие медиа-данные) будут проиндексированы.

Allow: /wp-content/uploads/

Предлагаю вам итоговую версию файла robots.txt для вашего блога на WordPress. Копируйте и вставляйте этот текст в ваш файл, но не забудьте изменить путь до карты сайта.

User-agent: *
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /index.php
Disallow: /wp-activate.php
Disallow: /wp-app.php
Disallow: /wp-blog-header.php
Disallow: /wp-comments-post.php
Disallow: /wp-config.php
Disallow: /wp-cron.php
Disallow: /wp-links-opml.php
Disallow: /wp-load.php
Disallow: /wp-login.php
Disallow: /wp-mail.php
Disallow: /wp-pass.php
Disallow: /wp-register.php
Disallow: /wp-settings.php
Disallow: /wp-signup.php
Disallow: /wp-trackback.php
Disallow: /xmlrpc.php
Disallow: /feed        # блокировка ленты новостей
Disallow: */feed        #блокировка рассылки отдельных записей в блоге
Disallow: /category/*/*    #блокировка страницы категорий
Disallow: /comments    #блокировка URL на комментарии
Disallow: */comment-*    #блокировка страницы комментариев
Disallow: */trackback    #блокировка URL трэкбэка на запись
Disallow: /*?        #блокировка динамически генерируемого контента
Allow: /wp-content/uploads/

Sitemap: http://www.ваш-домен/sitemap.xml
Sitemap: http://www.ваш-домен/sitemap.xml.gz

Возможно, вам нужно будет добавить регулярные выражения перед некоторыми из этих строк, в зависимости от структуры прямых ссылок, которую вы используете на сайте.

Что пишут про роботс:

  1. на Яндексе
  2. на Гугле

Парочка видюшек по этой теме:

Вопросы по роботс файлу для wordpress задавайте в комментариях!

 

12
Май

Вверх