Анализ сайта: Проверить сайт на санкции

Robots.txt для Joomla — создание и правильное составление файла роботс

Одна из слабейших сторон Joomla! заключается в том, что данная система позволяет сразу нескольким URL ссылаться на одну и ту же страницу. Что для поисковых систем означает дублирование контента.

правильный robots.txtЭффект от этого толком не ясен, но лучше бы избегать подобных ситуаций. Я обычно использую robots.txt и другие трюки для того, чтобы моя страница как минимум была понятна в инструментах для вебмастера.

1. Практика показывает, что многие дизайнеры шаблонов в качестве ссылки логотипа сайта используют сайт/index.php, что автоматически означает дублирование. Следовательно, если вы используете готовый шаблон, обязательно проверьте ссылки, и в случае, если обнаружите неверные ссылки, исправьте их на главный домен.

2. Если я использую SEF (встроенный), я всегда запрещаю поисковикам индексировать всё, что начинается в index.php, так как это в 99% случаев дублированный контент. Это можно сделать, просто добавив в robots.txt следующее:

Disallow: /index.php

3. Далее я добавляю следующую строку в robots.txt, если мне нужно, чтобы Google индексировал мои изображения:

Allow: /images/stories

Строка должна быть размещена ПОСЛЕ:

Disallow: /images

4. Я использую только www, либо полностью запрещаю www в моих вебсайтах (это зависит от каждого конкретного случая) посредством перенаправления в htaccess.

Для того чтобы убрать www, добавьте следующий код:

RewriteEngine On
RewriteCond %{HTTP_HOST} ^www.domain.com$ [NC]
RewriteRule ^(.*)$ http://domain.com/$1 [R=301,L]

А для постоянного принудительного использования www, используйте следующий код:

RewriteEngine on
RewriteCond %{HTTP_HOST} !^www.your_domain.com$
RewriteRule ^(.*)$ http://www.your_domain.com/$1 [R=301]

5. И самое важное для меня относительно Joomla! заключается в том, что у системы есть небольшой недостаток в направлении типа:

component/COMPONENTNAME/VIEW/SOMETHING/SOMETHING

Это происходит, когда конкретный пункт не обозначен ссылкой в меню. Если я не ссылаюсь на что-то посредством данного пункта, это будет либо дублированный контент, либо что-то, что я не хочу показывать. Следовательно, я не вижу причины, почему Google должен индексировать данный контент. Добавляем в robots.txt следующее:

Disallow: /component

Это действительно поможет вам избежать проблем с дублированным контентом. Ниже правильный стандартный файл robots.txt для Joomla:

User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/

Также делитесь своими наблюдениями и методами оптимизации веб-сайтов.

31
Дек

Вверх