Правильный robots.txt для REVO?
Друзья, поделитесь, пожалуйста, правильным robots.txt, который вы используете на своих проектах.
Для Гугла и Яши. Заранее спасибо за конфиги и ссылки «напочитать».
Для Гугла и Яши. Заранее спасибо за конфиги и ссылки «напочитать».
Комментарии: 28
Спасибо, Сергей.
У них конфиг заточенный под их проект
В частности у них есть каталог /inc/ и каталог /sub/
Также clean-parametr применяется, который не везде нужен.
Короче этот конфиг не универсален
Ниже предлагаю свой.
В частности у них есть каталог /inc/ и каталог /sub/
Также clean-parametr применяется, который не везде нужен.
Короче этот конфиг не универсален
Ниже предлагаю свой.
User-agent: *
Disallow: /manager/
Disallow: /assets/components/
Disallow: /core/
Disallow: /mgr/
Disallow: /connectors/
Disallow: /index.php
Disallow: *?
Host: site.ru
Sitemap: site.ru/sitemap.xml
Disallow: /manager/
Disallow: /assets/components/
Disallow: /core/
Disallow: /mgr/
Disallow: /connectors/
Disallow: /index.php
Disallow: *?
Host: site.ru
Sitemap: site.ru/sitemap.xml
Спасибо, Николай. Сделал.
Robots.txt это палка о двух концах.
Одни переименовывают каталоги manager, connectors.
А другие в роботсе палят, особенно смешно когда переименованные и палят))) ну не индексируют их поисковики, зачем в роботсе хакерам палить?
Одни переименовывают каталоги manager, connectors.
А другие в роботсе палят, особенно смешно когда переименованные и палят))) ну не индексируют их поисковики, зачем в роботсе хакерам палить?
Если каталоги не переименованы, то и палить тут нечего. Кому надо, те сами найдут.
Так они закрыты от индексации. Где локика?)
Так они закрыты от индексации. Где локика?)
Ссори за дубль, пишу со смартфона.
Ссори за дубль, пишу со смартфона.
Я тоже про это подумал. Сначала все секреты бодро записал в файл, потом потёр :)
Напиши свой вариант.
Вариант 1:
— вынести директории за пределы доступной с браузера области (тогда robots.txt можно вообще не трогать)
Вариант 2:
— создать папку с нейтральным названием, допустим, system (и закрыть к ней доступ через robots.txt)
— засунуть в нее переименованные manager, connectors
— вынести директории за пределы доступной с браузера области (тогда robots.txt можно вообще не трогать)
Вариант 2:
— создать папку с нейтральным названием, допустим, system (и закрыть к ней доступ через robots.txt)
— засунуть в нее переименованные manager, connectors
С переносом директорий мне надо ещё поразбираться — нет опыта. Это делается во время первичной установки?
Нет, не обязательно. Достаточно перенести директории и прописать новые пути в следующих файлах:
(manager и connectors, соответственно будут расположены там, где вы их разместили)
/core/config/config.inc.php
/config.core.php
/connectors/config.core.php
/manager/config.core.php
(manager и connectors, соответственно будут расположены там, где вы их разместили)
и закрыть к ней доступ через robots.txtЗачем ее вообще закрывать в роботсе?
Самый простой вариант: переименовать manager и connectors, а в роботсе закрывать только те дериктории которые по умолчанию разрешены для индексации но их надо закрыть!
Например необходимо закрыть от индексации новости, тогда:
Disallow: /news/
И тд.
Зачем служебные каталоги закрывать которые и так закрыты ума не приложу))
Вообще — согласен, сам не представляю, как поисковики узнают о системных папках со фронта, если они там нигде не упоминаются.
Но порой в темах возникают вопросы, связанные с тем, что эти папки все-таки проиндексировались.
Как — не интересовался.
Но порой в темах возникают вопросы, связанные с тем, что эти папки все-таки проиндексировались.
Как — не интересовался.
В manager если посмотрите исходный код страницы будет метатег запрещающий индексацию, он уже ни как не может индексироваться и запрет в роботсе это всего лишь дубль запрета.
А если мы переименовываем каталоги то они темболее не видны поисковикам. Если конечно админка кастомная и нет тега на запрет да и еще в карту сайта каким то образом затисалась…
А если мы переименовываем каталоги то они темболее не видны поисковикам. Если конечно админка кастомная и нет тега на запрет да и еще в карту сайта каким то образом затисалась…
@ Николай Савин Я использовал твой вариант, кроме папки mgr.
Объясните мне зачем вот это?
Disallow: *?
Запрет индексации страниц с параметрами.
Если не включены чпу то адреса же index.html?id=1
Если не включены чпу то адреса же index.html?id=1
Вот такой url проиндексируется с таким правилом?
modx.pro/search?query=robots
Ведь в нем есть знак вопроса
modx.pro/search?query=robots
Ведь в нем есть знак вопроса
Именно что бы он не индексировался и добавляется то самое правило
Disallow: *?
Все фильтры msearch, tagmanager в modx работают через get запросы, которые пишутся через знак вопроса. Зачастую через гугол поиск я попадаю на этот сайт со страниц которые формируются на странице /search?query и их запрещают для индексации. Очень интересный подход и этот robots рекомендуется для modx revo.
А я и многие другие закрываем что бы не индексировалось это. Я не хочу что бы попадали на сайт по таким /search?query запросам, а только по ЧПУ.
Ты же делай как тебе надо.
Рекомендуется — да, а не навязывается.
Полная свобода!
Ты же делай как тебе надо.
Рекомендуется — да, а не навязывается.
Полная свобода!
К сожалению эту рекомендацию стали бездумно копировать и вставлять, как правило.
Идеальный robots.txt
При указание запрета на служебные директории — вы показываете эти директории злоумышленникам.
Поисковики служебные директории не проиндексируют, они 403 возвращают
User-agent: *
Host: site.ru
Sitemap: site.ru/sitemap.xml
При указание запрета на служебные директории — вы показываете эти директории злоумышленникам.
Поисковики служебные директории не проиндексируют, они 403 возвращают
Согласен.
Ну еще можно ограничить конкретного бота, если он грузит сайт, но в моей практике такого не было.
Ну еще можно ограничить конкретного бота, если он грузит сайт, но в моей практике такого не было.
Вот еще наткнулся на вариант:
seogio.ru/robots-txt-dlya-modx/
seogio.ru/robots-txt-dlya-modx/
Авторизуйтесь или зарегистрируйтесь, чтобы оставлять комментарии.